科大讯飞发布星火认知大模型
讯飞星火,5月6日如约而至。
“1999年,中文语音市场全部被国际巨头控制,中国人被掐住了咽喉;我们创办科大讯飞,提出要让中国语音技术做到全世界最好,要在多语种技术上做到全世界第一。”
经历被人笑话、得到融资、连年亏损,刘庆峰和创业团队提出“燃烧最亮的火把,要么率先燎原,要么最先熄灭”,“既表达了我们的紧迫感,也表达了我们会率先燎原的信心和勇气。”
24年过去,初心不改,信念终成现实。
中文语音的主流市场已由中国人抢回来70%,通用人工智能已现曙光,新一轮的星火已被点燃。
“认知大模型已成为通用人工智能的曙光,我们有信心实现‘智慧涌现’,首先需要一套科学系统的评测体系。”发布会现场,台上的刘庆峰回忆初心预见未来;台下,座无虚席掌声不断,很多观众站着听完全场,这是全行业的翘首以待和热情认可。
真机实测、互动体验与刘庆峰的演讲呼应进行,科大讯飞研究院院长刘聪演示了星火大模型七大能力,中文领域它已在文本生成、知识问答、数学能力3个维度超越ChatGPT;教育、办公、汽车、数字员工四大行业应用成果同步发布。
星火,寓意着通用人工智能能力的智慧涌现,讯飞的认知大模型也像破土而出的小芽,正在快速成长。“今年我们还将持续升级大模型,10月24日要在中文上超越ChatGPT,在英文上要达到跟它相当的水平。”
星火,是科大讯飞团队不断前进的起点,亦是产业燎原的燃点。“我们期待和所有的伙伴携手努力,让人工智能建设美好世界的梦想成为燎原之势。”
以下为演讲实录:
尊敬的各位领导、各位来宾、各位合作伙伴,线上的朋友们,下午好!
首先,我要代表科大讯飞,对各位光临科大讯飞星火认知大模型成果发布会,表示热烈的欢迎!
从去年年底以来,认知大模型的技术阶跃在全球引起了人工智能的全新浪潮。
从2022年11月30日OpenAI公司发布ChatGPT之后,短短两个月,全球活跃用户数超过一个亿。ChatGPT通过对海量数据的高质量清洗,通过对上亿参数大模型的学习和训练,实现了在文本生成、语言理解、基于思维链的逻辑推理以及数学能力、代码能力等多个领域的智慧涌现,而且表现出极强的进化能力。
今年2月ChatGPT发布了全新的版本升级,3月15日又推出了GPT-4。一些报道说,在美国已经有89%的大学生在用它来写作业或者做相关的工作,其实不仅仅学生群体,应该说各行各业都在开始拥抱这一个巨大的变革和机会。
传统意义上通过堆时长、堆人力的商业模式将被根本性地颠覆,因此有人说,这一次人工智能在历史上的意义不亚于PC和互联网的诞生,我觉得这是完全恰当的一种表述。
这一次的认知大模型的主要特点是什么?是多种类型的数据送到统一的认知智能大模型中学习和训练,最终可以在通用领域给大家带来非常惊喜的能力表现。
各种类型的文本可以是多种来源的,也可以是文字、语音、图像或者视频等多种风格。关键问题是,通过统一的大模型学习之后,我们会发现,系统具备了像人类一样触类旁通的能力,在多领域的智慧涌现令人惊喜。
我们从ChatGPT发布时公布的48项任务就可以看出,它其实已经是像人类的智慧涌现一样,在多领域、跨领域形成非常好的智能化的表现。
我们也可以看到,4月28日中央政治局专门开会提出我国要重视通用人工智能产业化和重大战略机会。5月5日的二十届中央财经委员会第一次会议中,专门提到人工智能和新能源汽车,汽车里面的语音应用也是刚需。
这一波的认知大模型,已经实实在在开启了通用人工智能的曙光。以前我们很多系统是在各个专用领域做到了超过我们人类的水平(尤其是在各大感知领域),但今天在通用人工智能的曙光下,星星之火开始出现。
无论是通过ChatGPT发布的48个主要任务方向,还是通过科大讯飞人工智能开放平台上400多万实名认证的开发者团队对通用人工智能在未来的各种应用需求,我们分析出了当前通用人工智能令人关注的七大维度,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力。
我们可以看到,通过这七方面能力提升,将对整个人类的生产和生活方式带来巨大的颠覆,产生全新的机会。我们举一些例子来看:
首先,它将会改变当前的信息分发和获取的模式。我们要想获得相关信息,直接跟它提问,它会给你精准答案甚至是融合多种相关结果,触类旁通以后出来的一种答案,不再需要我们自己搜索。
另外,它可以革新内容生产方式,不仅可以帮我们写发言稿、邮件,还可以写广告文案的创意、调研报告,很多时候比专业人士写的还要更好,我们只要做简单的检查,最后画龙点睛的加工,就可以把一个快速的文案内容生产出来,极大提高各领域生产效率。
还可以实现全自然的交互,改变人机交互现有的模式,从而使得任意的设备都可以像人一样能听会说、能理解会思考,极大推动万物互联——这个大家公认的IT产业发展的第六次浪潮更快到来,带来终端数量和产业规模十倍以上的提升。
另外也会实现专家级的虚拟助手,成为科研工作的加速器,不仅能够帮助我们的科学家、老师、研究人员提高研发效率、搜索相关资料、给出相关参考建议,还可以对有创意的年轻研究人员,包括研究生和博士,在最有创意和想象力的时候,把他的精力从大量繁琐的、事务性的、工具性的数据加工处理的工作中腾出来,去做更有创意、更有想象力和灵感的科研工作(当然涉及到基本功的训练还是需要进行的),而这些工作将会使得我们科研体系的研发效率大幅倍增。
它也会颠覆传统的手工编程方式,不仅会大幅提升现在软件产业的研发和生产效率,也会使得我们今天只要有创意有想象力的每一个人,都可以在数字经济时代提出设想,他不用再会编程、也不用有资源组合一个编程的团队,而是后台的大模型来帮他的程序实现运行,进行商业推广。
就像今天的自媒体时代,每个人都会成为作家、每个人都会进行商业模式创新一样,在未来信息产业、数字经济中,人人都可能会创业,他的创意和灵感将更多地变成产业福利,将会带来整个产业生态重大的变革和重塑。
正因为看到如此重大的技术浪潮和业务机会,全球有很多的单位高度关注。科大讯飞其实在认知智能领域已经有十几年的积累了,2011年我们就承载了语音及语言信息处理国家工程研究中心的重任。其实这一次认知大模型本质上是一次对话式的通用智慧的涌现,语音和语言的核心能力是基础条件,科大讯飞是中国(该领域)的国家队。
在2014年,我们就推出讯飞超脑计划,明确提出要让机器像人一样具备能理解会思考的能力。在去年1月份的年度总结计划大会上,我们正式宣布了讯飞超脑2030计划,就是要让懂知识、会学习、能进化的通用人工智能技术,以机器人的实体形态或虚拟形态能够进入到每一个家庭。
正是在相关国家级平台和讯飞超脑计划的支撑下,我们可以看到,过去几年我们在认知智能领域已取得一系列全球领先成果。
2017年,我们让机器在全球首次通过了国家执业医师资格考试,超过了96.3%参加考试的医生。2019年,在斯坦福大学发起的国际著名的SQuAD机器阅读理解比赛中,让机器在英文阅读理解中首次超过了人类平均水平。去年我们在艾伦研究院组织的OpenBookQA科学常识推理比赛中,单模型首次超过了人类平均水平。
正是因为有着这样系列的成果,所以去年看到ChatGPT带来的惊喜之后,我们迅速进行了相关的技术和研发体系的验证,确定我们具备整建制的研究团队,而且在关键技术上具有非常良好的积累,完全可以重现OpenAI的智慧涌现。
因此我们在2022年12月15日,启动了我们的认知智能大模型的专项攻关,我们把它叫做1+N的专项攻关。这个“1”就是通用的认知智能的大模型,这个“N”就是把这个大模型在各个领域的落地,包括教育,办公、汽车、人机交互以及医疗等,这也是我们今天给大家发布通用模型和行业产品的一个非常重要的时点。
今天随着认知大模型在全球引发的关注和产业浪潮,非常多的科研机构和企业单位都在开始进行认知大模型的研究和产业化的相关工作,有些单位已经推出了阶段性的成果。但我特别想说的是,如果我们要让这次智能涌现的认知智能真的解决社会刚需,而不是简单的做一个PR宣传的话,我们就要建立一套实实在在、脚踏实地、科学的、系统的评测体系。要用这套科学、系统的评测体系告诉我们,我们的技术到底到了什么程度了、下一个发展应该往哪边走,告诉我们到底技术距离实用是不是已经达标了,还有哪些工作要做。
今天,认知大模型刚刚开始起步,还在快速成长和迭代的过程中,就算是ChatGPT和GPT-4也有很多问题回答不好,如果我们只是找一些单点例子来证明哪个系统强和弱,我觉得是没有意义的。
所以当我们向OpenAI致敬和学习、同时要快速追赶并努力超越时,我认为我们首先需要一套科学、系统的评测体系。
在我们启动这个专项之初,科大讯飞和中国科学技术大学共同承建的认知智能全国重点实验室就牵头设计了面对刚提到的通用人工智能的7个重要方向的一整套细化的测试方法,在这套体系出来之后,便与中国科学院人工智能产学研产业联盟(侧重产学研源头技术创新)和长三角人工智能产业链联盟(侧重产业链应用落地)的众多的专家、合作伙伴进行共同探讨,达成广泛共识。
讯飞星火认知大模型发布七大核心能力
今天我们就会围绕这7个主要方向、481个细分任务类型的评测体系,来给大家展示讯飞星火大模型到底已经达到什么程度,以及下一步的落地情况。
今天我们是真实系统的现场互动演示,将从我们说的认知大模型的7个维度分别展开。
首先看一下多风格、多任务的长文本生成能力,它可以帮我们写发言稿、邮件、新闻通稿、营销方案等,具备各方面的文本生成能力。
在我们刚刚给出来的7个维度的481项测评体系中,科大讯飞的星火大模型针对文本生成一共有181个细分任务测试。在这里我非常自豪地跟大家分享,星火在国内目前已经推出来、能够测试到的认知大模型中,是明显领先的,中文已经超过了ChatGPT水平,英文如果满分以5分来算,ChatGPT现在是4.48分,我们已经达到4.29分,也在快速进步之中。
第二,我们再来看语言理解能力。在语言能力中,我们强调的是多层次、跨语种的语言能力,中英文各个层次,比如说最细微的关于每个单词和语法、时态等等的检查,最高的是能够到情感分析、后台的深度理解。
语言理解是将来我们认知大模型用各种插件和工具最核心的一项能力。在我们的418项测试体系中有119项详细任务跟语言理解有关,根据现在的测试结果,我非常自豪地告诉大家,在国内可测的现有系统中我们遥遥领先,跟ChatGPT相比还有细微的差别,我们还在持续提升的过程中。
在泛领域开放回答中,对生活常识、科学知识、工作技巧以及医学知识等大家关注的方面,它都可以进行比较好的回答,而且还在不断地丰富学习和完善中。
有很多问题它还在研究中,但我们很高兴的是在中国科学院的支持下,中国科学院科技文献中心的很多的科技资料,星火认知大模型也在不断的持续学习之中。我相信,星火将来对这些科学问题不仅可以根据历史问题给出答复,还可以对未来的展望给大家建设性建议。
医学也是大家特别关心的话题。今天讯飞的智医助理在全国已经给出了5亿多次人工智能辅助诊断,每天可以帮助基层医生看70多万病人,我们还跟协和、301、安徽省立医院等众多医院都有很好的合作。
这一次在星火大模型中我们只把讯飞医疗专业系统中的一部分通用能力放上来,而没有专门发布讯飞医疗版的专用医疗大模型的原因是,医疗要更加严肃、更加谨慎,还涉及到很多医疗相关的法规。
但我想告诉大家,讯飞智医助理不仅比现在ChatGPT的医疗能力强,比GPT-4也要强很多。下一步我们会把这些专业能力从跟医疗机构合作,逐步放到通用的大模型中,不仅要成为医生的诊疗助理,还有希望让将来每一位居家老人、每一位年轻的父母,都能通过我们星火认知大模型拥有各自的健康顾问和助手。医疗的专业大模型我们预计在今年的1024期间正式发出。今天随后还有一个医疗和认知大模型结合的专题研讨会,欢迎关注。
另外比较重要的能力是逻辑推理,这个中间包括了常识推理、科学推理以及时空推理等多方面。
跟逻辑推理一脉相承的是数理能力,包括计算、代数、几何、解方程、情景应用等。
数学能力一定意义上代表了今天通用人工智能认知大模型的智慧水平。
按照刚才的测试体系来说,数学相关的大概有16个类别的详细任务,我们在国内可测的同类系统中遥遥领先,现已经超过了ChatGPT。当然我们自己也还在快速更新的过程中,在下一个版本中还会继续前进。所以我相信,这些领域都会成为星星之火,源源不断给大家带来惊喜。
大家也比较关注的是代码能力。我们现在强调的是多功能多语言的代码能力,不仅可以生成也可以修改代码,理解和编译等,可以支持Python、Java等。
但是代码能力我们刚起步,只是有了初步的数据,现在代码运行以后,在国内已有系统中我们还是相对有优势的,但是跟ChatGPT相比还有很大差距,我们在未来2、3个月会有非常大的提升。
我们现在的代码能力重点针对工业互联网,针对企业内部的很多应用,将来不需要程序员去做,它自己给你生成各种代码,我们正在快速学习和训练中。
关于认知大模型还有一个非常重要的,就是如何在这个大模型上用更丰富的形态去输入更丰富的方式去表达。
刚才我们输入全程都是用语音识别,少量修改就可以。其实我特别想说的是,因为今天给大家做的是真机演示,为了尊重观众,修改过来。大部分情况下即便不修改,它也是能够包容错误、准确理解含义的。此外,语音合成的结果也可以朗读出来,无论中文还是英文,我们的效果都非常好。
今后的文案生成和相关视频的制作,星火大模型可以给大家带来非常大的帮助。多模态的输入和表达,是我们下一代计划发布的,最迟在8月份可以提供给我们的客户使用。
为什么叫星星之火?它的通用人工智能的能力智慧涌现,像刚刚冒出的小芽,正在快速成长。今天,星火大模型在很多方面给我们带来很大的惊喜,当然中间也出现了一两个小瑕疵,比如说翻译的英文中夹了两个字的中文(因为我们是中英文一起训练的),这恰恰因为我们是真机版本,但总体性能还是令人非常惊喜的。
从去年12月15日到今年5月份,5个多月的时间我们已经到这个阶段,我非常为我们的小伙伴自豪,当然这绝不仅仅是5个月的工作,而是因为我们有着成建制的团队十几年的积累。
刚刚我们看到它的很多令人鼓舞和激动人心的智慧涌现表现,但是今天的纯大模型技术还是有待攻克的技术缺陷的。由于它都是用历史的数据来进行训练,在海量的模型参数中记忆学习训练后,在通用领域实现智慧涌现和触类旁通。
所以可能带来的第一个问题是对新知识难以更新。因为我们的模型信息还没有更新到现在,它是阶段性训练的,今天是5月6日,如果我们问它,五一劳动节全国前三天有多少旅客?星火只能回答去年的,ChatGPT会说到前年,那是因为它训练的语料内容不同。
同样也是因为这个原因,在事实类的问题中有些容易出现张冠李戴,甚至会把李世民本来是唐朝的第二位皇帝说成第三个,ChatGPT也是这样。对于历史比如说名著,它也会有一些编造添油加醋的地方,这些我们都有非常明确的方法来改进它。
在今天发布会之后,我们计划要升级几个版本,在这里提前向大家汇报:
在6月9日(也就是我们24周年庆的时点),我们首先就将突破开放式问答(即实时问答),不是简单搜索,而是通过类搜索插件可以把知识都抓取,再以更人性化的方式呈现给大家;再次升级多轮对话能力,刚才我们很多都是追问的情况,随着大家的使用,多轮对话能力会越来越强;数学能力还会再上一个新的台阶。
到8月15日,我们的代码能力会上一个大台阶,真的让开发者、合作伙伴非常方便地在内部使用,我们今天已在讯飞内部以及在很多流程中用到我们代码生成能力了。多模态的交互能力也将正式开放给我们的客户,还会有比它更丰富的功能点。
到今年的10月24日(就是科大讯飞的全球开发者节),我们希望星火能够在通用的认知大模型能力上对标ChatGPT,这个对标就是用我们刚才讲的科学、系统的评测方法,在中文上要超越ChatGPT,在英文上要达到跟它相当的水平。
这次科大讯飞星火认知大模型的发布,一个非常重要的特点是,都是真机现场实时的互动演示。大家刚才看了这么多功能,我相信现场观看互动演示的很多嘉宾和线上的朋友们,都跃跃欲试想要亲自试用,其实会议之前我们两侧都有体验区有很多嘉宾在体验。
今天为了让大家看到我们今天真机实测实际系统现场互动,我们增加了现场提问环节,专门准备了现场实时互动场景。扫码我两侧的大屏上的二维码就可以马上来提问,我们的系统就会随机地抽出问题来进行现场回答。
现场我们给大家看了5个问题,后台一共收到了大家提出的800多个问题,都将在发布会结束后会场的体验区展示出来,就是希望大家能够看到真机演示的现场感。
除了在现场互动之外,今天我们的星火发布之后,从现在开始,讯飞的行业合作伙伴和开放平台上的开发者就可以通过xinghuo.xfyun.cn加入到星火的体验之中。对于新的合作伙伴和新的朋友们,如果有兴趣要体验试用的,按照流程提报申请,我们将会根据国家有关部门在大模型建设,既鼓励创新和生态繁荣,又要在安全可控的前提下来跟大家沟通,探讨下一步如何用合适的方式合作。
讯飞星火大模型发布四大行业应用成果
刚才是关于星火大模型“1”的发布,下面我们来给大家来看看我们的“N”,到底在哪些实实在在的产业中已经有应用落地,今天我们在现场会发布在教育、办公、汽车和数字员工4个领域的相关产品,而且都是产品级的发布,在会场外面可以亲自试用到我们的产品。
首先是教育。科大讯飞一直致力于将我们的人工智能技术来服务教育,让孩子们实现科学学习、不走弯路,把孔子在2570年前所提倡的因材施教、有教无类的理念,通过人工智能技术真正落到实处。
师生减负之后,学习成绩能否提升、学业能力是否得到发展,是家长和社会都关注的事情。通过讯飞AI学习机,可以精准分析每个孩子的薄弱环节,把无效、低效的重复训练省掉,把那些过难、只会浪费时间、打击自信心的时间省掉,推荐最适合孩子学习的内容题目,大幅提升孩子学习效率、自信心、学习兴趣,同时为五育并举创造空间和前提。
今天,讯飞学习机已成为行业中用户净推荐值排名第一的学习机,同时在5万多所中小学使用,在多个国家智慧教育示范区和先进教育实验区成功应用。
过去我们的学习机数学、化学的学习能力非常强,语言学习也是用了国际领先的语音合成和识别,今天星火大模型可以再次将我们的语言学习能力升级。
在语言学习中有两个重要困难,一个是作文能力提升难,还有是口语和听说能力提升难。
为什么作文提升能力难?当年在高中时,作文是我最头疼的事情,主要因为针对性地指导和批改非常的耗时费力。老师要想对每一个孩子的情况进行深度的分析,难度太大。
以作文批改为例,一般来说,简单的打勾看一遍也得两三分钟;如果做简单批改、给出评语、划出病句或者划出一些值得提倡的地方,估计要10分钟;如果进一步进行深度分析,一篇作文至少30分钟以上,那一个40人的班级,老师精细化批改一篇作文要20个小时以上,时间代价巨大。
今天我们用星火大模型的语言能力跟学习机结合,可以对作文进行深度理解,同时对评语和范文进行自动生成,从而实现让AI能够像老师一样批改作文。
我们的学习机里有很多0到1的创新技术。有关这里的拍照识别功能,还要告诉大家一个好消息,就在今天上午,我们OCR的识别技术——“多语种复杂场景图文识别关键技术及产业化”荣获吴文俊人工智能科技进步奖一等奖,这是我国智能科学技术最高奖。
还有口语和听说能力,现在很多孩子没有对话环境,虽然录音和配套磁带、相关的电子版本中都有对应的声音,但是它非常局限只有固定的内容。能不能用人工智能真的在家庭营造一个真实口语对话环境?是否真的能是开放的根据主题来自动对话?
今天,讯飞的学习机通过星火大模型可以给大家带来完全不一样的体会。它可以实现跟人一样的自由对话,对话的时候还可以自动进行翻译评测,现已覆盖了所有中小学课标话题,当然我们现在用的是通用的认知大模型,它的话题是完全是可以开放的。
还有中英文的文本生成能力,刚才我已经说了,如果5分是满分,ChatGPT是4.48分,讯飞的星火模型已经是4.29分了。如果没有最好的中英文的语音识别那么就不可能理解相应的文字,没办法生成对话就没办法讨论自由开放式话题,没有最好的语音合成就不可能听到这么地道的英语。这么多技术呈现在一起,绝对是孩子们以后语言学习最大的福利。
其实,这已不仅仅是一个演示的系统,而是在今天科大讯飞AI学习机T20Pro上已经可以在线下载更新体验的功能。我们希望更多的人能积极购买学习机,一定让孩子学习不走弯路。
今天还有一个福利。因为当我们在准备成果发布时,偶尔有朋友看到就迫不及待说,“这个口语对话绝对不仅仅是给小孩我也很需要”,像很多的白领、正在工作或者要出国旅游业务合作洽谈等等的人群,都需要这样的功能。
今天的第二个发布是我们在办公领域的落地。
科大讯飞一直在用领先的语音识别、机器翻译等相关技术致力于提升办公效率,节约时间,提高工作和生活的幸福感。讯飞推出的智能办公本、录音笔、讯飞听见会议系统及在线服务网站,还有智能麦克风都已经成为业界受欢迎的产品,连续几年都是618、双十一销量冠军。今天我们进一步通过星火大模型,对我们的办公系列产品进行升级。
升级什么?就是能不能把一大段录音转写出来的文字自动变成会议纪要;能不能把一个口水稿,通过语篇规整变成更容易阅读的书面语言;能不能针对一堆无论是语音或者文字的素材,一键成稿,直接上传一段录音,说“我需要一个策划案”,马上就能生成出来。话不多说,我们来展示看看。
现在,我们的办公本就可以使用全程记录自动生成会议纪要这项功能,而且把你最关心的内容专门陈列出来。还有语篇规整的能力,很多时候把一个口水稿变成一个书面稿其实要花很多精力的,而且很多时候阅读效率也不高,这一次通过星火大模型的赋能,可以解决这一问题。这里我们有一个指标:原文忠实度保持在96%以上,关键信息几乎都在,可以基本上把文章的篇幅缩短20%到40%;缩短之后由于看起来更规整、更通顺,阅读效率可以提升到50%以上,这就对大家办公语篇规整带来了实实在在的帮助。
我们所展示的办公本的能力,今天都会在讯飞智能办公本X2上全部更新,所有已经买过这个产品的朋友们都可以免费下载相应的功能。后期我们也将陆续把全系列产品都会更新,也希望大家继续购买我们的新品。
讯飞除了办公本之外,还有一个特别受大家欢迎的福利性产品——讯飞听见,既有实体的会议系统,也有在线的服务网站,可以把各种录音文件上传到讯飞听见平台,就会自动帮你生成对应的文字。一小时的音频5分钟就能出稿(有时还能更快),现在已为5000多万用户带来了帮助。
现在星火大模型加持之后,除了刚才看到的自动的会议纪要、自动的语篇规整之外还有一个全新的升级——一段录音,一键成稿。录音交给它,不用看中间任何内容,告诉他你要什么,就可以自动帮你生成。
只要给它原始的录音,告诉它你关注的方向、要什么类型的文章、要中文还是英文,都可以一键生成。所以我们说,很多时候它比普通人写的要更好,专业人士拿来把个关、画龙点睛一下,工作就完成了,它会带来我们全行业效率极大的提升。
今天我们讯飞听见的功能都是产品级的,登录我们讯飞听见的官网、微信小程序都可以马上用上这些功能。
除了软件和在线服务上提供了这些令人惊艳的能力,我们在另外两款硬件产品:讯飞智能录音笔SR702和智能麦克风M2中,也都把刚才说的会议纪要、语篇规整和一键成稿能力全部升级,大家都可以去下载、试用。没有这些产品的朋友可以尽快下单。
刚才看完了办公之后,再给大家看一下我们在汽车中会给大家带来哪些全新的体验和能力升级。
5月5日的二十届中央财经委员会第一次会议中专门提到了人工智能和新能源汽车,汽车里面的语音应用也是刚需。
汽车越来越成为一个懂我们的出行的伴侣。现在科大讯飞用国际先进的智能语音技术已经在汽车内部给大家提供很多交互的方便,可以直接导航,可以直接问天气,可以直接问汽车各种参数等等,可以实现多轮、多人、多领域、多模态的人机交互,坐在驾驶位上、副驾驶位和后排的每个人听的内容都不一样,我们甚至可以把一台20多万元车里的音效听起来超过百万豪车的音效。这些功能都已经在超4000万的用户中得到体验,服务车型超过1300个。
这一次我们通过认知大模型,进一步让人机交互再上一个新的台阶。表现在我们可以在人机对话中更自由、更拟人化地沟通,然后可以更懂汽车。
这是什么意思呢?所有汽车相关的专业知识,用我们的认知大模型学习之后,随便用户怎么问,它可以非常自由地回答你,使我们可以更加方便、安全地使用汽车。
另外还有一个特别重要的事情是开放性。通过插件方式与导航、媒体、餐饮、景点等各种技能链接融入,为汽车座舱提供丰富的实时信息和服务。
我们在汽车上的体验将跟原来完全不同,而且我们的生活、工作和在车内要做的所有事情的效率和人性化体验都会上一个全新的台阶。我们要用星火启动每一次出行的乐趣,不仅给我们的父母亲,也给孩子,给所有的乘客。
最后再给大家展示一下我们这次星火认知大模型在数字员工领域带来的变化。
大家在想星火确实能帮我做很多事情,能成为我们很好的助手。讯飞以前推出过一款产品叫AI虚拟人智能交互机,这个交互机通过虚拟的形象可以对话,实现导游、虚拟客服以及营业厅导购等等功能,包括医院的导诊、社区志愿服务等都可以。
现在我们可以看到,2021年底科大讯飞推出AI虚拟人交互平台之后,目前这个平台已经有超1000个虚拟形象资产,有300多个专业且不同的声音,就像我们刚才听到的男声、女声、中英文一样,有30多万用户自定义的音库,现在已经在很多个行业开始落地了。
这次我们搭载了星火大模型,可以跟汽车一样变得更加智能化、人性化,而且可以自动调动各种工具,让我们的AI虚拟人智能交互机放在一个营业厅就可以实现24小时不打烊。我们可以下班、它可以继续工作,我们想去买任何东西跟它对话时,它可以了解清楚你的意图给你推荐,然后呈现二维码,让你扫描、下单,随后就有送货上门服务。
今天现场有很多金融领域、运营商领域的合作伙伴,还有政府机构人士,其实在营业厅和社区服务中,星火大模型加持的AI虚拟人交互机一定会更人性化,一定会给大家提升效率带来巨大的帮助,对我们客户也是巨大的福利,还能延长我们的营业时间,带来实实在在的经济价值。
现在,科大讯飞已经率先在我们十家官方直营旗舰店上市了这款虚拟导购智能交互机,今天会场也有两台,大家有兴趣可以亲自去体验试用。
另外还有一个就是穿透到整个工业互联网或是我们日常工作各个流程中的数字虚拟人,或者叫更智能的数字员工。现在RPA在工业领域用得越来越多,可以按照我们工作人员事先编写的脚本,自动操作计算机中的各种软件,实现业务流程的自动化。
比如以前我们通过RPA平台利用人工拖拽构建自动化流程,但这个过程会非常依赖专业人员如业务流程专家和实施工程师,同时构建流程耗时周期长、成本高。现在有了星火大模型的加持,RPA就变成了深层次的自动化流程平台。我们只需要把需求流程场景描述出来给到它,它就能自动生成所有流程。RPA加星火大模型让企业在运作过程中涉及到与流程相关的工作,实现人人都可操作,这样就降低了对专业人士的依赖,同时构建流程的周期变短、成本下降。
比如我们的教育已经应用的RPA商机机器人,以前必须人工判断筛选商机,业务销售每天需要为此花费一定时间。通过接入星火大模型,只需要将业务需求和描述告知RPA商机机器人,就能实现自动商机洞察,帮助销售自动查找、筛选新商机并给到销售平台,完全省掉了销售人员的商机筛选这项流程,提高销售人员的业务效率,这就是星火大模型优势所在。所以我想每一个流程的自动化都可以让星火来点燃。
刚才我们给大家看到了几个现在已经落地的产品,它还可以赋能更多行业,从医疗到智慧城市、到司法、再到工业互联网的各个领域(其实最后一块数字员工就是工业互联网领域一个非常重要的代表),我们会不断地深入各个行业。
今天我们在合肥主会场召开发布会的同时,还有4个分会场在同步进行——
青岛:我们全球中文学习平台的总部是在青岛,有很多基于大模型的新产品能力即将在随后发布,而且在青岛我们也有大企业的联合创新中心,所以主题是“星火燎原 智赢共生”。
武汉:侧重于教育,是关于认知大模型对教育进一步的研讨和相关的探索以及与生态伙伴的合作,所以叫“星火燎原 光耀未来”。
苏州:针对机器人相关产业,并且考虑在苏州科大讯飞也有产业孵化中心,主题叫“星火燎原 机智共享”。
太原:跟能源和机械等行业的结合,主题是“星火燎原 聚能奋进”。
感谢这4个分会场的领导嘉宾参加我们的活动,现场听取我们主会场的报告,随后还将接着召开分会场的专题活动。
在这一次主场馆的成果发布会之后,我们还有7个分论坛,从办公、座舱、医疗、金融,这是科大讯飞自己的事业部和业务线牵头的;再到面向儿童的阿尔法蛋,这是我们的生态伙伴淘云公司做的,打造了业界第一个面向儿童领域的认知大模型,叫阿尔法蛋大模型,大家可以看看它是如何对孩子的教育和陪伴带来全新的体验;以及智慧营销分论坛,这是我们和智慧营销头部上市公司三人行共同打造的,面向高智慧AI时代的互联网营销的机遇和变局进行探讨,也有很多未来共同合作的规划;还有算力平台分论坛,特别感谢华为专门给讯飞派了特战队,我们已经在大模型的算法、在国产硬件上应用取得了很好的成效。
开放合作,共建人工智能“星火”生态
另外,我们也会把星火大模型的能力开放给我们的开发者团队。我们会按照国家的有关管理要求,深层次地严格把控,但是有很多能力在各个领域的落地都是马上就能用的,也是国家各部委特别支持的。通过星火大模型的加持,我们要把560项原有的AI能力,一方面变成更加具备通用的认知智能,另一方面原有的各个单点也可以更好地整合,赋能开发者。
科大讯飞从2018年开始就推出了AI星火营的生态计划,所以我们叫星火大模型确实是有渊源的。今年我们将给生态伙伴提供从产品、技术到生态资源、渠道体系等方面的深度培训赋能。2023年的星火生态营计划在今天正式发布,也将在4个分会场同步启动,欢迎大家积极参与。
我们跟生态伙伴的合作会比以往更加深入。我们会把AI能力开放出来,让各领域的开放者来使用,现在已经有400多万的实名认证的开发者、500多万的合作伙伴。这次认知能力的升级,不仅会给他们用到更好的技术、更通用的智慧涌现,而且会使得创业者的门槛极大降低。创业者只要有创意、有想法,我们的星火大模型将来可以就帮助做很多开放性的工作,让生态体系更加繁荣。
另外,我们也会开放插件。大家可以把插件分享共享,深入到我们的大模型中,这样星火大模型就可以直接用到这些插件能力。
比如我刚刚说的,生成一个邮件就可以自动发送;在大模型中问到美食就可以自动启动大众点评;问到天气就自动跳出天气预报;问到一个城市的旅游情况就自动购票、叫专车等。
越来越多的专业插件可以集成进来,这里最重要的就是大模型的语言理解能力,我们已走在了业界、中国同行中的最前列,跟ChatGPT已非常接近。我们还有持续的推动计划,针对一些对自己的插件安全性有要求的客户,可以用大模型把插件做好,然后自己内部使用更专业的功能,我们具备这样的机制和平台。
另外,刚才我们展现了各个领域的应用,其实远没有覆盖所有方向,千行百业都会出现重大的变化。
我们会跟各领域的龙头企业共建产业生态——这是通用人工智能时代的全新生态。今天发布会之前,已有36个行业、超3000家企业跟我们达成了合作的明确意向,并且还在源源不断地增加之中。
我们期待,真正共创全新的时代。相信我们会与生态伙伴一起,拥抱这个伟大的时代,燎原新一轮的产业变革,带来全新的产业机遇,把握这次浪潮的机会。
最后我想分享的是,今天认知大模型刚刚起步,5月6号的发布会对科大讯飞团队来说还只是一个起点。
我非常为我们的小伙伴们自豪,因为整建制的研发团队的力量。我们研究院的刘聪是84年的,这次的主力部队都是85后、90后,差不多都是在一线10年以上的、专业的研究者,其中有超过两位曾获得MIT Technology Review Innovators Under 35 ——这是在中国乃至全球科技领域35岁以下的顶尖人才称号。他们年富力强,不断创造奇迹,相信我们的大模型和相关应用,一定会代表行业、甚至代表中国,不断地前进,不断地创造令人欣喜的成果。
在这个过程中,我特别强调,一定要坚持做源头技术创新,在跟随的同时,要有信心和勇气在多语种、源头创新上往前突破。
我们的认知智能国家重点实验室,和中国科技大学还有其他多所大学都有合作进行源头技术的研究。要做到自主可控,同时也一定要兼顾信息安全和伦理人文,我们一定不是用通用人工智能来替代人类的,而是来帮助人类成为更好的自己。
未来不是属于AI,而是属于掌握了AI的新人类,就像我们今天在开篇的短片里看到的一样。
其实今天的认知大模型本质上是一次对话式的通用人工智能,而人类在拥有了语言能力、可以沟通500人以上团体的时候,才会在自然界中一骑绝尘,成为整个地球的主宰。
语言能力是人类最重要的能力,而语言能力的根本是什么?是始于最开始的那份提问。
我在1992年大二被王仁华教授选到科大人机语音通信实验室时,老师就告诉大家,提出问题是解决问题的一半,最聪明的孩子和学生要首先善于提出问题。
今天,在认知智能带来的智慧涌现不断进化的过程中,善于提问比以往任何时候都具有更独特的价值。因为只要你会提问、善于启发,你就可以把通用的人工智能助手的潜力充分地释放出来。
一个更美好的世界将始于我们每个人的提问,期待让星火大模型成为每个人的AI助手,帮助大家在工作、生活、创意和想象中带来更大的获得感,成为每一个人创意涌现的加速器,成为每个人灵感的激发器,成为每个人成功的智能助手。
星星之火,可以燎原。
讯飞星火大模型起名之前,经过了千千万万的比较,最终一致认为我们喜欢“星火”这个名字。
其实在1999年科大讯飞刚刚创业的时候,中国的语音市场全部是被国际巨头控制的,当年IBM的ViaVoice风靡一时,劲头跟今年的ChatGPT确实有点相像。微软中国研究院首任院长李开复老师就是做语音的专家,很多语音学家和专业人士都说,中国被人掐住了咽喉,因为中文语音技术国际巨头做得最好控制了市场。
那个时候,我们6个中国科技大学的在校大学生创办科大讯飞,提出要让中文语音技术做到全世界最好,要在多语种技术上做到全世界第一。所有人都不相信,他们认为我们是一个笑话,认为我们是草台班子。在融到第一笔资金之后,我们就全力以赴地投入到了研发之中(而且是压强式地投入),整合了国内可整合的源头技术资源,但连年亏损。那时我们在巢湖的“半汤会议”上特别提出一句话,“燃烧最亮的火把,要么率先燎原,要么最先熄灭”,既表达了我们的紧迫感,也表达了我们会率先燎原的信心和勇气。
24年过去,让机器能听会说的梦想已经实现,我非常自豪地告诉大家,中文语音的主流市场我们抢回来70%以上了。在最近一次美国国家标准与技术研究院组织的全球多语种识别比赛中,15个语种我们全部都是全球第一名。
今天在“能听会说”之后的“能理解会思考”,通用人工智能的曙光已经出来了。这一次会带来更大、更全景视角、改变整个人类的生产生活方式的重大变革,也会开启全新的未来。
我相信,人工智能一定会以解决人类刚需而更深刻地载入史册,我们期待着跟所有的合作伙伴一道携手努力,让“人工智能建设美好世界”的梦想成为燎原之势。
谢谢大家。
*文中数据来源于实际应用