查看原文
其他

科大讯飞星火大模型详解

李沐华 计算机文艺复兴 2023-06-23

产业调研系列

核心要点:

1. 当前的通用人工智能特别令人关注的7个维度包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力,这些方面的提升将对整个人类的生产生活方式带来颠覆。可以革新内容的生产模式,帮助各行各业提高生产效率。同时,还可以改变人际交互模式,让任意设备都像人一样能理解会思考。将极大地推动万物互联,带来产业规模10倍以上的提升,并提高科研工作的研发效率。


2. 科大讯飞已启动了1+N的专项攻关。1是指通用的认知智能的大模型系统,N是指大模型在各个领域的落地,包括教育、办公、汽车、人机交互以及医疗等。


3. 现场给出了通用认知智能大模型的评测体系,分别从文本生成、语言理解、知识问答、逻辑推理、数学能力、编程能力和多模态七大维度进行评测,希望向OpenAI致敬和学习,快速追赶并努力完成超越。


4. 科大讯飞的星火大模型现场进行多任务演示并取得良好表现。通过生成发言稿、营销计划,理解不同语境下的问题,回答生活、科学等有关知识问题,实现数学逻辑推理并生成代码,中英文翻译,以多种声音和不同形象朗读文段等等形式,展示了其在多风格多任务的长文本生成内容、多层次跨语种语言理解、泛领域的开放式的知识问答、情境式思维链逻辑推理、多题型可解析数学能力、多模态输入和表达能力等方面的良好能力。


5. 科大讯飞宣布了大模型迭代节奏,表明将在6月9日发布第一个突破性的开放式问答系统,实现实时对话和多轮对话能力的升级,并通过类搜索插件提供更人性化的表达方式,数学能力也将得到提高;8月15日,代码生成能力和多模态交互能力将正式开放给客户使用,为开发者和合作伙伴带来更便利的使用体验;并希望于10月24日在全球开发者期间,用科学系统的评测方法让星火在中文上超越ChatGPT,在英文上达到相同水平。


演讲部分:

在全球有1亿多人在使用,而且表现出极强的进化能力。在2月份ChatGPT就发布了全新的版本升级,3月15号又推出了GPT4.0。


ChatGPT的3.5,所以我们可以看到一些报道说到在美国已经有89%的大学生在用它来写作业或者做相关的工作,那么不仅仅是学这些经验,应该说各行各业都在拥抱巨大的变革和巨大的机会。传统意义上通过对市场对人力的商业模式将被根本性的颠覆。因此我们说这一次人工智能在历史上的意义不亚于PC或者互联网的诞生我觉得是完全恰当的一种表述。


那么这一次的认知大模型它的主要特点是什么?它是通过多种类型的数据送到一个统一的认知智能的大模型中去学习和训练,最终可以在通用领域给大家非常惊喜的能力表现。那么这种各种类型的文本可以是多种来源的,也可以是文字、语音、图像或者视频等多种功能。关键问题是通过这样一个统一的大模型学习之后,我们就会发现我们的系统具备了像人类一样的触类旁通,在多领域的是会涌现的令人惊喜的表现。


所以我们从ChatGPT开始发布所公布的这48项任务就可以看出来,它其实已经是像人类的智慧涌现一样的,在多领域跨领域形成的非常好的智能化的表现。



中央在4月28号专门开会提出,我国要重视通用人工智能的这样一个产业化和重大的战略机会。这次认知大模型已经实实在在的开启了通用人工智能的曙光,以前我们很多系统是在各个专用领域做到了超过我们人类的水平,尤其是在各大感知领域,在今天通用人工智能的曙光,星星之火开始出现。无论是通过ChatGPT一开始发布的48个主要的任务方向,还是科大讯飞人工智能开放平台上400多万实名认证的开发者团队,他们对通用人工智能在未来的这种应用领域的需求。我们通过这两者当然还有其他相关的分析,最后我们给出来当前的通用人工智能特别令人关注的7个维度,这7个维度包括文本生成,包括语言理解,包括了知识问答,也包括了逻辑推理、数学能力、代码能力以及多模块能力这7个方面。



这7个方面的能力提升,我们就可以看到它将对整个人类的生产和生活方式带来巨大的颠覆,产生全新的积累。我们举一些例子来看,首先它将会改变当前的信息分发和复制的模式。



我们要获得相关信息,直接是他提问,他会给你精准的答案,甚至是融合多种相关结果,触类旁通以后整合出来的一个答案,不再需要我们去自己搜索去看排名。另外一个它可以革新内容的生产模式,不仅可以帮我们写发言稿写邮件,还可以写广告文案的创意,写调研报告,很多时候比专业人士写的还要更好,我们只要做简单的检查,对它进行画龙点睛的最后的加工,就可以把一个快速的文案给生产出来,极大的提高各领域的生产效率,那么可以实现全自然的交互,改变人际交互现有的模式,那么从而使得任意的设备都可以像人一样能听的会说,能理解会思考,极大地推动万物互联——大家公认的it产业发展的第六次浪潮更快的到来,会带来终端数量,产业规模10倍以上的提升,另外也会实现专家级的虚拟助手成为科研工作的加速器。


不仅能够告诉我们的科学家,帮助我们的老师,帮助我们的研究人员,提高研发效率,帮他去收取相关资料,给出相关参考建议。而且对我们最有创意的年轻人,研究人员,包括我们的研究生的模式,在二十五六岁最有创意和想象力的时候,可以把他现在从事的大量的繁琐事务性的工具性的数据加工处理性的工作把它腾出来。把这些精力腾出来,让他做更有创意,更有想象力很敏感的科研工作,当然涉及到基本功的训练还是需要进行的。


这些工作将会使得我们整个科研体系的研发效率大幅的倍增,另外也会颠覆传统的手工编程,不仅会大幅提升现在软件产业的研发和生产效率。也会使得我们今天只要有创意有想象力,每个人都可以在数字经济时代提出他的设想,他不用在乎编辑,也不用要有资源去组合一个编辑的团队,后台的大模型直接帮他的程序实现,然后运行,然后进行商业合作。



就像自媒体,今天每个人都会成为作家,每个人都会进行商业模式创新一样,在未来在信息产业在数字进行中,人人都可能创业,他的创业的灵感将会更多的变成产业的福利,我觉得会带来整个产业生态的重大的变革。那么正是因为它的这么重大的技术浪潮和业务机会,其实有很多的单位全球都在高度关注。那么科大讯飞我们其实在认知智能领域已经有着十几年的积累了,从2011年我们就承载了语音及语言信息处理国家经济研究的重点。


其实这一次大模型本质上是一次对话式的通用智慧的有限语音和语言的核心能力,是一个基础条件。科大讯飞是在2014年我们就推出了讯飞超脑计划,明确提出要让机器像人一样具备能理解会思考的人。在去年的1月份,我们年度大会上就正式宣布了讯飞超脑2030计划,我们就是要让未来的讯飞超脑2030计划中间,我们看到的屏幕上给出来的。


会学习人进化的这样一个通用的人工智能技术,能够成为我们未来发展的非常重要的机会。正是在这样一个国家平台和我们自身创造计划的支撑下,我们可以看到在过去几年我们在认知智能领域已经取得了一系列全球领先的成果。


2017年我们让机器在全球首次通过了国家执业医师资格考试,超过了96.3%参加考试的医生。我们也在2019年让机器在英文阅读理解中首次超过了人类,这个首次是在国际最著名的SQUID的机器阅读比赛中,这是斯坦福大学发起的,面对10万多篇的英文文章,积极回答人类问题,我们是全球甚至超过人类的。


在去年又在艾伦研究院组织的全球著名的叫open book的科学的常识推理中,我们用单模型就超过了人类平均水平,正是因为有着这样的系列的成果,所以当我们看到去年11月30号,ChatGPT给大家带来了惊喜之后,我们迅速进行了相关的技术和研发体系的验证,我们确定我们具备成建制的研究团队,而且在关键性上具有非常良好的积累,完全可以重现openAI的智慧涌现。



因此我们在去年12月15号就启动了认知智能大模型的专项攻关,我把它叫做1+N的专项攻关。1就是通用的认知智能的大模型系统。这个N就是把大模型在各个领域的落地,包括教育、办公、汽车、人机交互以及医疗等等,这也是我们今天会给大家发布通用模型和行业产品的一个非常重要的当时的实验。



当我们启动了专项之后,我们其实也可以看到今天随着大模型在全球引发的关注和产业浪潮,非常多的科研机构和企业单位都在开始进行认知大模型的研究和产业化的相关工作。有些单位已经推出了阶段性的成果,但我特别想说的是,如果我们要让这次智慧有限的认知智能是正确解决社会刚需,而不是简单的做一个PR去做宣传的话,我们就要建立一套实施站在这脚踏实地,用科学系统的评测体系,用这一套科学系统的平台体系来告诉我们,我们的技术到底到了什么程度了,下一个发展应该往哪边走,告诉我们到底我们具体实用是不是已经达标了,还是应该还有哪些工作要去做,因为今天大模型即它还是刚刚开始起步,还在快速成长的迭代过程中,我刚才已经说到了,即便在这边拼出来之后,也是在快速的迭代过程中,那么就是建立信息和信息室,它也有很多问题回答不好,如果我们只是找一些例子来证明你的系统强和弱,我觉得是没有意义的。


当我们要致敬和学习,同时要快速追赶并努力超越的时候,我认为首先需要一套科学系统的体系。所以在12月15号我们启动专项的时候,科大讯飞的中国科技大学共同呈现的认知智能的全国重点实验室就牵头设计了面对我们刚才所说的今天通用人工成长7个重要的方向,那么一整套的细化的测试方法和基本的模块方向,那么这个方法出版出来之后,我们跟中国科学院人工智能产学研创新联盟以及长三角人工智能产业链联盟,一个侧重在产学研源头技术,一个侧重的产业链的应用落地,分别进行了深度的沟通,而且达成了广泛的共识。


现在我们给出了7大类的通用认知智能大模型的评测,今天我们就会围绕着新的主要方向给大家来展示我们讯飞星火大模型到底已经达到什么程度,以及它下一步落地情况。那么下面首先我们有请科大讯飞研究院院长刘聪博士让他上台跟我一起来给大家解释,欢迎。


我们看看咱们的问题给他回答,确实就是这三层含义了,今天我们是真实系统的现场互动,真实的演示,那么这个也是将从我们刚才说的,对于通用人工智能认知智能大模型的7个维度分别展开。


下面我们首先来看一下多风格多任务的长文本的生成内容,他可以帮我们写发言稿,写邮件,写新闻稿、新的方案等等,各方面的文本生成能力。



今天我们的发布会的现场高朋满座,如果我们先用星火给大家写一个欢迎稿。


提示词:今天是讯飞星火大模型的发布会,现场高朋满座,我们也特别希望和各位朋友们精诚合作,共同建设美好世界,请帮我写一篇欢迎词。


最近在4月底我们开始内测以后,我发现我们讯飞的很多年轻的家长,用特别喜欢用星火给小朋友们讲故事,他可以编故事,经常脑洞大开带来很多惊喜。我就现场编一个故事。


提示词:在今天的讯飞星火认知大模型的发布会上,孙悟空和奥特曼也偷偷潜入了现场,他们都抢着想做星火大模型的发言人,还吵了一架,根据上述信息来创作一个故事。



我想跟大家说的,我们大模型每一次讲都不同,这就是它的魅力和特点所在。像这样的故事他不仅给你编出来,还能帮我们读出来,就真的解决了我们家长的刚需。


AI朗读:今天讯飞公司举办了一场盛大的发布会,宣告一款名为星火认知大模型的人工智能产品,这款模型备受关注,因为它具有强大的语言理解和生成能力,被认为是未来智能科技的重要方向。然而在发布会现场发生了一件出乎意料的事情,大家都惊讶的发现孙悟空和奥特曼也偷偷潜入了现场。


我们每次生成都不一样,我们再点一下重新生成,看它下一个版本是什么样子。


刚才讲到了生成故事,其实他也可以帮我们写文件。那么在刚刚过去的五一小长假,那么我看到我们很多的朋友出国都拿了讯飞的翻译机,其实我们讯飞翻译机同期的销量增长200%+,我们让我们的星火给翻译机团队写一封邮件,就是明天上午9点在我们的201会议室组织一次会议,讨论总结五一期间的热销情况,同时对下一阶段的产品的营销计划规划来写一封邮件。


提示词:帮我写一封内部邮件给讯飞翻译机团队,针对五一的销售计划,明天上午9点在201会议讨论讯飞翻译机4.0新品的营销计划和产品功能。



因为你说是销售计划,如果是销售总结,他就可以写成总结。那么当我们把相关的插件放到邮件中之后,写完就直接发给我们的同事了。


这是写邮件的功能,那么其实他也可以帮我们做一个营销方案。我们可以让星火用英文写一篇讯飞翻译机4.0的写篇文案,突出一下我们功能特点。


提示词:请用英文写一篇讯飞翻译机4.0新品的品宣文案,突出讯飞翻译机在多语种核心技术领先以及覆盖语种全的这样一个特点。



其实我们在研发的第一天就立足于是多语种的。我想很多现场的嘉宾还有线上的朋友们可能短期内对文案的理解不过分。请把上面的内容翻译成中文。这个是刚才举的第一个问题,就是我们刚才说的我们现在多风格多任务的常务人员,流动链接换一个风格再来进口,我就小红书就比较火,用小红书的风格去写一下。



我在这里非常自豪的给大家分享,就针对刚才我们说的481个通用的认知大模型的能力,在文本生成中根据我们刚才讲的中科院人工智能产业产学研创新联盟,还有长三角人工智能产业链联盟跟业界伙伴的讨论,大概在文本学习中有181个主要的细分任务,在这些细分任务中这就是我们现在最后的结果。


科大讯飞在国内目前已经推出来能够测试的认知大模型中,我们是明显的领先。中文已经超过了现在ChatGPT的水平,英文如果满分用5分来算,ChatGPT现在是4.48分,我们已经达到4.25分,也在快速进步之中。所以我非常为我们的小伙伴们感到自豪。


刚才是给大家看的文本生成能力,我们下面再看一下语言理解能力。在语言理解问题中,我们这里强调的是多层次跨越式的语言问题,中英文各个层次,比如说最细微的层次,关于每个单词和语法时态的检查,最高的能够到情感分析,到后台的深度理解。



我们下面先给大家展示一下关于具体的细分的语法和单词等等的我们的理解能力。


我想先展示一下英文版可能更直观一点。为了方便起见,我就直接从刚才生成的文本随便选两句,然后选择过来。我先把它拷过来,然后我就现场随便挑几个错误来把它改掉,看看一会能不能把它修正回来。


因为他每次生成的中文不一样,英文也不一样,现在对英文的这样一个语法句式关键单词的综合能力我们是业界最强的。它不仅仅是用在我们讯飞的学习产品中,我想是每一个现在的商务人士或者工作人员在海外做交流沟通都是非常有用的。


当然这是最技术层面的语法检查相关的内容。我们再看一下高层次的问题,比如说我们要涉及到语言理解,在日常生活中有很多时候好像东说也对,西说也对的,让大家模棱两可的一些话语。我举个例子:俗话说,男子汉大丈夫要宁死不屈;但俗话又说男子汉大丈夫要能屈能伸,这两种意思我们看看星火能不能理解?


提示词:俗话说,男子汉大丈夫宁死不屈,但又说男子汉大丈夫能屈能伸,这两种说法应该怎么理解呢?



大家看他回答的完全正确。我们再进一步考他的应用情况,比如说一个小伙子跟女朋友吵架了,他到底应该立于情绪还是应该维持人生的,看他怎么解释。


提示词:如果有个小伙子和他女朋友吵架了,他应该是宁死不屈的,还是能屈能伸?



当然其实类似的场景很多,大家可以思考自己去试,我们的星火的理解能力还是非常的强的。


还有一种情况,一些场景文字表现上它是完全一样的,但是它后台的意思不同。举个例子来说,今天小明参加比赛获得了冠军,他拿到奖杯的时候默默的站了一分钟,这是一个。我今天被老师批评了,他默默的站了一刻钟。


提示词:今天小明参加比赛获得了冠军,拿到奖杯后他默默的站了一分钟;今天我上课被老师批评了,走出教室后,我默默的站了一分钟。请问上面这两个默默的站了一分钟,分别表达了什么样的心情?



当然我想现场的嘉宾和线上的朋友们可能在说这个例子是不是调试好的?我们这样我们再考察一下,我们可以以感受到自豪的心情,用默默地站了一分钟来多造一些句子,看他能做出什么样。


提示词:以默默的站了一分钟为组成部分,再造几句,描述一下高兴自豪的感觉。



大家很快就出来了,大家看看他完全理解了。


大家可以看到我们的星火是确实理解文字背后的含义,我很为他感到自豪。我在这里跟大家说一下,我们因为语言理解是将来我们的认知大模型,教育各种插件和工具最核心的能力。在这个能力中,根据我们刚才说的测试体系中,481项测试维度中有119项和语言理解有关。根据我们现在测试结果,我也非常自豪的告诉大家,在国内可测的大模型系统中我们是明显遥遥领先的,相对于ChatGPT还有细微的差别,但我们还在持续提升的过程中。


我们现在可以再给他看一个知识问答,现在我们通常把它定义成叫泛领域的开放式的知识问答。



今年五一其实很多朋友在旅游,大家很关注吃。我们先问一个简单的,大家说生活常识、科学知识、工作技巧及医学知识等等,这些领域都是知识问答,先问一个简单的:菠菜和豆腐能不能一起吃?


提示词:菠菜和豆腐能不能一起吃?


星火模型的回答说到了要减少草酸。其实这件事情很多人都问过,但我每次去海底捞都会发现很多人可能菠菜和豆腐一道放在锅里了。那么类似这样的问题我们可以问他很多,我们现在跟中国科协也在合作,包括科协的科普打假网,还有相关的科普内容我们不断的测试进去。


除了生活内容,我们也可以问他一些科学知识,比如合肥我们的量子科技一直是我们引以为傲的,在全球都走在前列。我们可以问他一个科学问题,量子科技主要有哪些应用领域?


提示词:量子科技主要有哪些应用领域?


星火模型的回答既提到了安全也起到了人工智能的量子计算等等方面,那么当然如果你要让他写得更长,他会给出更丰富的维度和分析等等。


说到量子很多人都觉得很神秘,其实我们可以再询问他一下,大家都说量子纠缠很神秘,在量子纠缠和心理感应是不是一回事?


提示词:量子纠缠和吸引感应是不是一回事?


当然这是他今天给出的答案。


我觉得有很多问题还在研究之中,我们很高兴的是在中国科学院的评价,我们中国科学院的科技文件中心的很多的科技质量,我们也在不断的实际学习之中,我相信他将来对这一系列的科学问题,不仅可以根据历史问题给答复,而且对未来的展望给大家一些建议。


医学也是大家特别关注的事情。我们也在目前比如说老人的健康,假如说家里有老人突然晕倒,我们如何判断他是不是中风?


提示词:如果家中老人突然晕倒,如何判断是不是中风?


星火大模型给出了4个判断,对大家还是非常有用的。我们再追问一下,就是说如果判断老人中风后,能不能马上把他扶到床上去?


提示词:如果判断老人是中风,能不能马上把他扶到床上继续休息?


这个就对大家很有帮助,其实我们在医疗机构合作过程中经常会发现老人出现意外情况,家人为了孝心也是为了让他立即休息,马上就移动到床上,带来了很多很难事后弥补的危害。那么今天我们讯飞的认知智能在智医助理这个产品中,已经给全国5亿多次的人工智能辅助诊断,每天可以帮助医生看70多万病例。不仅是基层医生,我们跟协和跟301跟安徽省立医院的众多医院都有很好的合作。


这一次在星火大模型中,我们只把讯飞医疗专业系统的一部分通用能力简单放上来,并没有专门发布讯飞医疗版的专用的医疗大模型。原因在于医疗要更加严肃更加谨慎,还有很多医疗的相关的法规。


我们会下一步把这些专业能力从跟医疗机构合作中逐步放到通用的大模型中,希望将来让每一个老人在居家的过程中,每一个家长,每一个年轻的父母都能够通过我们的星火模型,能够成为每个人的健康的顾问。不仅要作为医生的诊疗助手,还是健康租售。那么医疗的专业模型预计在今年的1024年正式发布。今天还有一个专题研讨关于医疗的结合。


另外一个比较重要的通用人工智能的能力,甚至大模型的能力就是逻辑推理。这中间包括了一些常识推理,也有科学推理,时空推理等等很多维度。



我们先看一些常识给他挖个坑。请问孔子在2008年的奥运会上说了些什么?


提示词:请问孔子在2008年的奥运会上说了些?



可以发现他已经知道这个坑了,当然了他是真的理解了。其实我们可以再考察一下,如果让他编一个孔子在奥运会期间做汉语培训的故事。


提示词:编一个我在2008年奥运会上给大家做汉语培训的故事。

这都是临时生成的,每次都不一样,大家可以去试。


在前面作为一个常识,你问他的时候,他马上就知道孔子是不可能在08年奥运会出现的,如果编故事就是另外一个维度了。那么可以再搞一个更复杂一点的逻辑趋势,我再到准备一个看上去能够达到对逻辑推理的要求还蛮高的一个这个题目我们来看一下。


提示词:黄兔、黑兔、白兔三只兔子在赛跑,黑兔说我跑的不是最快的,但是比白兔快,请问谁跑得最快,谁跑得最慢的?


好像出了点问题,要不我们再试一下,所以我说我们现在是真机实测是吧?


这下对了,黄兔最快白兔最慢。当然刚才我们只是让它重新生成,如果我们告诉他说你犯错了,你再想想,他会更清楚地给大家答案,这就是我们现在做的逻辑推理的培养,其实跟逻辑推理直接相关联的,是我们认知模型的数学能力,中间包括了计算、代数、几何以及解方程情景应用等等,可以先给一个计算相关的题目。


提示词:写一个小学课堂用的,从1一直加到100,结果等于多少?高斯求和。



咱们当时叫可解析的,他们解出相应的分析结果。这是一个纯数学的,我们来一个跟生活有关联的。


提示词:我们公司的股票昨天涨了10%,今天又跌了10%,股票涨还是跌了?


看他怎么回答。很多股民以为他不赚不赔。他很清楚,已经亏了1%了,这就是很多股民不知道自己亏在哪里的原因。


它的顺序稍微有点,他把涨和跌的顺序不一样,但结果一样,顺序理解的有点问题。好,那么这是我们关于数学的,我们再给他一个几何体,我就举个三角形,这个也比较常用。


提示词:等腰三角形的底角是底角度数的两类,请问三角形的底角是多少度?



这个还是简单一点,给出结果来。这个题目比较简单,你可以再做一个相对比较复杂一点的应用题。


我看大家好像都喜欢拿鸡兔同笼,但太简单了点,我搞一个稍微复杂一点的。


提示词:花坛里面有三种花,一共有88朵,其中月季花的数量是其他的4倍,牡丹花的数量是菊花的5倍少2朵,那么请问花坛里一共有多少牡丹花?



马上就算出来了,那么应该是对的,好感谢大家的掌声。


当然类似的问题还有很多,大家可以去测,我在这里想说的是其实数学能力代表了今天通用人工智能认知大模型的智慧水平。


今天我们是数学,按照刚才的测试体系来说,大概有16个类别的详细任务,在这16个详细任务中,我们在国内可测到的同类系统中不仅是领先,而是遥遥领先,现在已经超过了ChatGPT。


当然我们自己还在快速更新的过程中,在下一个版本中还会继续前进,那么我相信在这些领域中都会成为星火,会源源不断的给大家带来惊喜的方面。


那么下面再看一下代码能力,我们要强调的是叫多功能多语言。不仅可以生成,可以修改代码,可以理解、编译等等,而且是可以有python、Java等等,但代码能力其实我们还刚刚起步,我们只是有了初步的数据,那么现在代码运行以后在国内已有系统中我们还是相对有优势的,但是跟ChatGPT相比还有很大差距,我不知道未来两三个月会不会有一个非常大的提升。


我在这里简单给大家看一个演示。就看一个比较简单的例子。


提示词:请用一段代码帮我找出1~100之间所有的指数。



很多代码在我们后面演示中也可能出现。代码其实我们现在重点是根据工业互联网,针对这些内容的很多应用,将来不需要给别人一个对新的这种代码,我也试试他的设计和训练的过程中,那么这是讲的代码问题,另外大家最近比较关注的还有一个就是如何在大模型上用更丰富的形态去输入更丰富的方式去表达,那么刚才我们已经看到了我们输入全程都是语音识别,少量修改就可以,其实我特别想说的是,因为今天是演示给大家看,也是修改过的,大部分情况下即便不修改,它是能够帮助客户能够理解到这些含义的,大家下来试的时候就可以看到在语音识别,那么合成的结果也可以朗读出来,那么无论中英文我们效果都非常好,那么下面我们再给大家看一下,识别的情况,以翻译为例能够来举个例子。


大家刚刚注意我切换了一下,我们pro版本还在研发内容当中,这边界面都是一样,这里多了一个小加号,它是用来干嘛的?它就是用来加载图片的。好,今天我们假如来选择一个英文菜单的,这个时候我先发一段指令,看看怎么操作的。请把这张图片翻译成中文。


我们看一下这个是原始的刚才的英文菜单,左边是名字分类,然后右边是价格,我们再看一下生成的怎么样。


这一次用星火大模型在这样的翻译过程中,它不仅是在它会带来另外一个后台的功能,我们可以问他每道菜到底怎么回事,比如说菜单中我估计穆萨卡很多人不知道是啥,我也没吃过,我们就问他这是什么菜什么口味。


提示词:穆萨卡是什么菜,味道怎么样?



大概是个重口味的。大家可以看到这样我们就不仅仅是翻译,而是一个美食助手。我们在出国旅游的时候,那么在这种旅游景点拍照之后,它就不仅可以把景点的名称给你翻译出来,会告诉你最后这个景点的故事还有哪些特色,还有什么配套设施,如果我们到一个博物馆一个文化馆,看到一个美术照片油画等等,我们不仅可以把底下的字给它翻译出来,还能问他背后的很多的故事,所以可以把一个简单的文字翻译变成一个真正的翻译加导游,加上我们的伙伴,这是个非常强的东西。



这是输入的能力,我们再看看输出,刚才已经看到了合成能力,再给大家展示一些更丰富的能力,所以今天其实是一个非常特殊的日子,正好是立夏,我们可以让星火写一个200字左右的小散文,以立夏为题:请以立夏为主题写一篇200字左右的小散文。


已经生成了,然后你再给大家讲一下有哪些丰富的方式,我们稍微换一个声音再来读一下,请用一个温柔男生把这篇散文朗读出来。



绿树婆娑,微风拂面,立夏的阳光柔和而充满活力。这是大地换上新装的时节,万物复苏,生机盎然。在此刻,人们仿佛能听到草木破土而出的声音,感受到大自然赋予我们的希望与力量。


立夏的到来预示着春天即将告别。


其实每次听到这样的合成声音我都倍感自豪,不能一分钟现场生成出来的。


那么还有一个问题,大家可能之前也知道,讯飞前几年一直在做虚拟人,我们进一步来让一个虚拟人来试试,请生成一个女生形象的虚拟人来朗读这篇散文。


这个视频生成会稍微慢一点,因为它都是实时的,生成非常好。给他看一下。



绿树婆娑,微风拂面,地下的阳光柔和而充满活力,这是大地换上新装的时节,万物复苏,生机盎然。在此刻人们仿佛能听到草木破土而出的声音,感受到大自然赋予我们的希望和力量。月下的到来预示着春天即将告别,夏天正向我们走来。在这个时节农民伯伯们开始忙碌起来。


大家可以看到我稍微补充一下,刚才从我们的内容到虚拟人的唇形形象以及他的手势,包括大家不知道有没有说到就背后的背景,这些所有都是我们的大模型生成的,而且如果大家仔细观察它的文字和背景,包括手势是我们所谓的语义贯穿,能够把它关联起来,谢谢大家。


所以大家可以看到今后的这些文案生成和相关的视频的制作,确实会由这个星火可以给大家带来非常大的帮助。那么刚才我们看到的多模态的输入和表达,今天刚才大家看到中间一个加号是我们下一代要给大家发布的,今天在现场的测试机器上还没有这个功能,但我们最迟在8月份就会提供给我们的VIP客户全部去使用了。


通过刚才给大家的介绍,大家已经看到了星火大模型各方面的精彩能力,当然中间也会出现了一两个小瑕疵,比如翻译的英文中加了两个字的中文,因为我们是中英文一起训练的,而且有一个推理还第一次错了,第二次对了,这恰恰是真机版本,但总体性能还是令人非常惊喜的,短短的从去年12月15号到今年的5月份才5个多月的时间,我们就已经到这个阶段,我还是非常为我们的小伙伴们自豪的。


当然了绝不仅仅是5个月的工作,是因为我们有着团队十几年的积累,但今天我们刚才是看到了他的很多令人鼓舞和激动人心的智慧涌现的表现,但是今天的纯大模型技术还是有它带空客的一些技术缺陷的,由于它都是用历史的数据来进行训练,在海量的模型参数中记忆学习训练之后,然后在通用领域形成智慧有限和触类旁通。


所以今天它可能会带来的,比如说第一个问题,我们可以看到说它对新知识难以更新,因为我们的模型4月份才学的最新的东西,今天已经是5月6号了,他总是一个阶段一个阶段的训练的,那么所以如果我们问他五一劳动节全国前三天有多少旅客,大家可以看到我们星火只能说去年,那就是因为他训练的语料内容不同,同样也是因为这个原因,有些时候在事实类的问题中容易出现张冠李戴。



大家看到后来这个例子,甚至会把李世民本来是唐朝的第二位皇帝,会变成第三个。ChatGPT也是这样。然后对历史,比如说名著,他也会有一些编造情节添油加醋的地方,把唐僧中间的白龙马也变成他的徒弟等等,还给他编了很多的角色。那么我想这一些我们都有非常明确的方法来改进它。在今天发布会之后,我们有几个版本在这里提前给大家汇报一下。


其实我们5月6号发布也是在今年1月份,我就给大家宣告了今天这个时点,我们在6月9号也就是科大讯飞24周年庆的时候,会给大家看的第一个突破开放式问答,也就刚才讲的实时的问答,我们通过类搜索插件可以全部知道,而且不像简单搜索,我们会把知识抓取以后用更人性化的表达给呈现大家,然后会多轮对话能力再次升级。


刚才已经看到了我们多次追问的情况,随着大家的使用,多轮对话会越来越强,然后数学能力还会再上一个新的台阶。另外等到我们8月15号,我们的代码能力会上个大台阶,会真的让我们的开发者,我们的合作伙伴会拿它实实在在非常方便的在自己内部去使用了。今天我们还是在讯飞内部,已经在很多流程中用到了我们的代码生成能力,多模态的交互能力,会在今年8月15号正式开放给我们的客户。


刚才演示这些内容还有更比它更丰富的一些功能点。到今年的10月24号就是科大讯飞的全球开发者期间,我们希望星火能够在通用的认知大模型能力上,能够对标ChatGPT。这个对标就是用我们刚才讲的科学系统的评测方法,在中文上要超越切ChatGPT,在英文上要达到跟他相当的水平。



刚刚我们说到这些,我相信在现场大家观看互动演示的很多的嘉宾和现场的朋友们,肯定都是跃跃欲试,想要亲自试用。其实刚刚在场外,我们在开会之前,我们两侧都有体验区,也有很多嘉宾在大家在一起在集体在试了,那么今天为了让大家看到我们的真机实测,实际系统现场互动,我们增加了一个环节,大家现场只要扫描两侧的二维码,就可以用手机马上来提你想提的问题。


那么线上的朋友也可以扫描我中间这个二维码,我们给大家一些扫码和提问的时间。好,我看大部分人已经扫完了,正在提问,我们可以切到我们后台看看有多少人已经提了问题了。


已经有70多个问题了。还在不断的快速的增加的过程中,我们再给大家一些时间,让更多的朋友们有时间进来,我们等到一分钟就为了让大家更多的人有机会。我们看一共提了ok可以提了将近800个问题,现在我们可以800多了,可以随机的从这些问题中来抽取问题,来马上叫我们的星火来回答。


后台可以好来抽一下,这是随机抽取的。


第一个问题是小明长得帅,帮写一个夸奖的话术,比较简单。



写得还可以。因为它简单,是一个话术,如果叫他写得很长,他也能写出来。我们再说第二个问题。


外星人感冒了需要戴口罩吗?



我说一下所有的提问就是被抽上的嘉宾都有一个神秘的奖品,我们不知道是什么,大家会后可以去领取。


作为AI语言模型,我无法确定外星人是否存在,但是如果假设外星人确实存在,那么他们可能不需要戴口罩,因为它们的生理结构和呼吸系统可能与人类不同。此外我们也不知道外星人是否会感染疾病,因此无法确定是否需要采取预防措施,这个比较科学。


也还是比较实事求是,我看我们再抽第三个问题。


这个问题确实是很有价值。我想把40平的房子装修成70平的感觉,请给出可行的方案。



还挺全面的。我觉得还是非常科学,这个问题确实是提得很精彩,我们根本没想到会有这样的问题。现在有房子的伙伴们可以再多追问他问题,绝对成为一个好的帮手。我看大家现场这么踊跃又很感兴趣,我们再出两个问题。


第四个问题跟女朋友吵架了有什么办法解决吗?


还是比较科学的,有点像大哥哥或者长辈们的建议。


最后一个问题,公共场合大声喧哗会影响别人心情,那小声讲话是不是就不会影响?


他好像都会做一些限制。我觉得也是挺对的,本来就是这样,我觉得回答也还是比较客观的,可能不会,但取决于场合,如果很敏感的场合就会。


刚才大家看到这5个问题,我觉得基本上可以看到我们所说的在通用领域,在泛问答体系中,它的理解能力和相对应的临时回答能力还是比较强的。


当然我也说他还在不断的进步过程中,很多问题的答案其实超出我们的预期,那么其实刚才我们只抽了5个,我记得刚才到最后已经提交了多少个问题,我们讲到最后有1000多个问题了,短短几分钟之内我们会大模型已经是星火把大家问题批量化的已经生成出来了,我们可以简单的翻一下看看,因为我们后台已经把这些问题都给它做了呈现点开来看一看,不仅仅这5个,大家可以看到已经有很多算账,心理建设等等一堆的问题,然后亲子活动盖个小院给小院起名,我们再往上翻几个,这个名字起的还挺好,然后问了很多各种类型的问题,那么可以再翻一篇看看,大家可以看到这些都是马上瞬间生成的,那么我们现场只是给大家看了5个问题,针对刚才的所有问题,我们现在应该已经都回答完了,今天发布会现场结束以后两侧的体验区,我们所有嘉宾只要愿意可以看到对所有问题的答案,我觉得这就是我们希望让大家看到的真机演示的现场感,那么切到我的屏幕上,那么这是提问环节,那么今天我特别高兴的给大家宣布,在今天的发布会之后,我们现场的所有嘉宾,还有科大讯飞的行业合作伙伴和开放平台的开发者,都可以开放预约来直接体验我们的星火认知大模型,大家可以直接扫码。


合规声明:本文节选科大讯飞公开发布会,属于公开资料,如需会议纪要全文请后台留言。
  - end -  
欢迎加入产业交流群!欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的产业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。

AI相关报告

1. ChatGPT研究框架(80页PPT)

2. 产业调研:一线专家眼中的ChatGPT

3. 产业调研:医疗认知智能技术进展

4. 海外ChatGPT公司有哪些已经落地的商业模式(深度)

5. GPT-4 即将发布,带来什么产业边际变化?

6. 百度文心一言发布会详细纪要

7. 产业调研:百度文心一言与GPT-4的差距有多大?

8. 居然是微软打开了金山办公的市值空间

9. 英伟达GTC大会万字纪要

10. 海外AI大模型梳理:技术革命的本源

11. 国内AI大模型梳理:三英战吕布

12. 产业调研:大模型,人工智能的暴力美学

13. 寻找AI技术潜在应用场景的方法论是什么?

14. 华为:盘古大模型全貌

15. 产业调研:商汤大模型为何惊艳?

16. 产业调研:阿里通义大模型详解

17. 人工智能大模型研究框架(120页PPT)


法律声明:

本公众订阅号(计算机文艺复兴)为国泰君安证券研究所计算机研究团队依法设立并运营的微信公众订阅号。本团队负责人李沐华具备证券投资咨询(分析师)执业资格,资格证书编号为S0880519080009。本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用,如因侵权行为给国泰君安证券研究所造成任何直接或间接的损失,国泰君安证券研究所保留追究一切法律责任的权利。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存