【新智元】智能+未来:讯飞超脑最强干货分享 —— 胡郁专访
新智元编辑1
整理:王婉婷 李宏菲
12月21日,科大讯飞2015年度发布会震撼登场。发布会上讯飞董事长刘庆峰展望了“讯飞超脑”的愿景,未来智能将会链接一切,而科大讯飞会在智能+未来的浪潮中,领航人机交互变革的新时代。
日前,科大讯飞和新智元联合进行了微信群直播,科大讯飞研究院院长胡郁给大家带来了“讯飞超脑”的干货分享。新智元现将群分享整理如下。
主讲:科大讯飞研究院院长胡郁
主持人:新智元创始人杨静
以下是群分享实录:
【杨静】前天科大讯飞发布会给大家带来智能+未来的震撼,昨天CCTV也播出了讯飞超脑的报道,今天期待胡郁带来更多干货解读。
【胡郁】没问题,看看大家都有什么样的问题?
【杨静】第一个问题来了,863 | 高考机器人要考上大学,现在各科目的成绩怎样?如果说 3 年后考上清华北大,如何对目标任务进行拆解,现在的主要短板是什么?
【胡郁】现在因为是整个项目的第一年,我们现在已经有4个攻关组,那么分别是语文,数学,历史和地理。大家都在很努力的工作,我们已经打好了一个很好的基础,预计会在明年7月份进行第一次的测试。但是科大讯飞现在正在将类似的技术首先用在,对学生作业和考试结果的评测上。
【杨静】CCTV说是2020年考一本,你预计什么时候高考机器人能考上北大、清华呢?
【胡郁】现在最主要的短板还是理解题目,这个方面,因为人类理解题目的能力太强了,而机器这方面弱很多。应该说这个难度还不是一个线性的关系,虽然我们现在的目标是2020年能够考上大学的一本,但是如果考上清华北大,我觉得难度要大很多。
【杨静】机器人能考上大学,那么是否意味着它拥有高中基础知识,并能够学习大学知识?以及它对教育行业会有什么颠覆?
【胡郁】现在我们在做的过程中发现,其实理解题目的文字可能还好一点点,但是现在题目中间有非常多的图表,图形,这些东西也就是我说的,在人类创造的一些图形图像方面机器人很难办。
【杨静】但是今年我们计算机视觉不是运用深度学习方法已经号称超越人类了么?例如微软的孙剑团队?
【胡郁】人类的能力是分很多方面的,如果你说分类,1000多个图片的准确度方面,也许他确实能够超越人类。但是如果你比较人类对某些图形的细节处理方面,比如说他看到部分的图像就能够识别图像的具体内容。这方面我们距离其实还很远。
【胡郁】现在我们教机器人,通过考试,其实在方法上呢,还是我们直接把机器知识灌输给机器人。这并不是让机器人真正拥有自己的智能。但是从行为主义的角度来看,机器人这样确实表现得和人具有智能一样,所以说我们还是应该把它归结成弱人工智能。但是弱人工智能从应用上来看,应该已经非常有用了,这一点不用怀疑,比如它可以帮助老师来改卷子,帮助学生来推导的学习过程。高考机器人可以用弱人工智能的方式实现,也可以用强大智能的方式来实现。所以说我觉得我们现在应该还是在用弱人工智能的方法来探索。
【杨静】高考机器人是强人工智能?例如能考上清华、北大,甚至东京大学的机器人,是否算强人工智能?
【胡郁】如果采用我们现在的方法,就算他能考上清华和北大,还算是弱人工智能。我设想的真正的强人工智能的方法是这样子的。就是说有一天这个机器人或者是这个电脑系统,他直接进入我们的课堂,看到的是和我们学生看到了一样的老师的授课的过程,他通过这些过程的学习能够再结合书本,把所有的东西自己学会了。这个过程中我们并没有直接教会他,这些知识的内容,我们只是教会他如何学习,这样才是真正的强人工智能。
【胡郁】如果有这样的机器人,就是他们真正的具备了学习的能力,而从现在的技术进展来看,图像识别语音识别,文字的阅读,都应该是有可能做到的。
【杨静】讯飞超脑的核心技术,由哪几方面组成?在认知智能方面,有什么突破?为什么说 NLP 是人工智能的核心?
【胡郁】关于讯飞超脑计划在认知智能方面的进展,我在发布会上也简单地说了一些。
【胡郁】首先在人类语言的词语层面,最近我们参加了一个国际上的评测,这个平台非常有意思。他说如果给你3个词,就是国王皇后还有男人,当你推理这第四个词应该是什么?我相信大家都能够得出结论最后一个词应该是女人,这就是词语和词语之间的关系。在句子层面,我们也建立了基于神经网络的句子建模。利用这种方法,我们也参加上一个国际上的一个叫做句子复述填空的任务。它会告诉你一段话,然后有一个句子,中间有一个词是空缺的,让你自己把这个词给填上。利用讯飞最新的认知智能的技术我们在这两个测试上都获得了非常显著的提升。 篇章层面,根据篇章的话题分类,这个任务也是国际上现在自然语言处理方面一个流行的任务。现在我们也能取得这个世界上当前最好的正确率91%。
【胡郁】基于以上的技术突破,在参加最近两年的国际上的中英的翻译大赛,我们科大讯飞都取得第一名。利用科大讯飞最新的深度神经网络的一个端对端的系统,在机器翻译方面,我们现在可以得到一个blue值17.2分的最新的结果,相对于原来又提升了30%。 最近,讯飞超脑还学会了作诗。 在知识的表示及推理方面呢,利用我们现在最新的一些研究结果我们参加了这个叫Lexical Inference的比赛,我们的系统也获得了不错的一个结果。这为将来我们参加winagrade测试提供了一个很好的基础。 另外,讯飞超脑的最新进展还包括文档摘要,包括作文评分,包括对话系统,里面都有很多的技术。
【胡郁】其实认知智能方面最重要的事情是什么?就是电脑能够在一个自己的认知空间里面进行推理。
【杨静】或许讯飞超脑还可以创作对联。作诗和写对联,这算是超脑的“创作”么?或者换个问法,机器能“创作”么?
【胡郁】这就是我说的,在讯飞超脑的整个的规划中,有一部分就是要让电脑能够把自己的想法表达出来。我觉他们离自己的创作可能还比较远,但是他们可以把自己的想法以文字的形式能够表现出来。我觉得最大的挑战是现在用深度神经网络加大数据的方法能不能解决认知智能的核心问题。
【杨静】核心问题是指什么?
【胡郁】因为前面我们都已经说过了,在很多感知智能方面,用深度神经网络加大数据,已经找到解决问题的办法。就是我说的深度神经网络的构型问题。深度神经网络采用什么样的构型就能够解决什么样的问题。例如我们解决语音问题我们可以用递归神经网络。但是针对自然语言处理用什么样的构型?到现在,科学家也都没有完全研究清楚。
【杨静】也就是说推理问题现在还没有对应的深度学习构型?
【胡郁】讲的没错,这一点可以从我们的人脑的结构上可以看到一二。对于视觉和听觉以及触觉来说,人脑的生物神经网络的结构也是比较简单的,而且弄得比较清楚了。但是对于自然语言理解和概念推理这样的东西,它是分布在我们大脑皮层的一个比较复杂的结构里面的。
【杨静】脑科学和认知科学对此没有研究透彻?但图像和语音的识别,深度学习恐怕也不是主要以认知科学为基础来构型的吧?
【胡郁】是的,嗯,现在认知科学对人脑在感知方面的理解,对于深度学习呢,也不是那么密切的指导关系。但是因为感知功能还是比较简单的,现在我们的网络已经复杂到这个程度以后了,部分的感知功能还是能够实现的。但是认知功能确实不一样,人脑区别于动物最大的一点不同就是它在大脑结构上更加复杂,而且面积更大,他有更多的空间来处理这种认知上的变化。
【胡郁】现在我们在做的几个模型其实也是想解决这样的问题。比如说我们现在提到的,SWE的模型,就是为了解决在,词语层面上的这种分布问题。而现在我们做的FOFE,是为了解决句子层面上的问题。这一点在我们和哈尔滨工业大学的联合实验室的研究中,进展也是非常快的。
【杨静】这也是讯飞积极参与863高考机器人项目和上海脑计划的原因么?
【胡郁】863计划是一种技术的最终实现,它是以效果为导向的。不管采用弱人工智能还是强人工智能,最终只要我们能真正让计算机考到大学,我们就具备了在某些程度上可以替代简单道理劳动的能力。而参加脑计划是为了让讯飞在将来的强人工智能的道路上,聚集更多的积累。根据我们以前的经验,想在这些方面上如果想取得成功,必须要5到10年以上的积累才行。所以说现在参加脑计划,并不是意味着马上就有什么突破性的进展,而是通过参加脑计划能够加深我们对人脑的认识,从而为下一步可能的爆发,聚集条件。
【插播新智元23会员群群友】靳志刚的提问:我觉得现在许多人都对语音识别的智能硬件不了解且没有信心,总觉得离畅快沟通还很远,就不愿尝试,其实他们不知道语音智能识别瑞的水平,总是误认为用语音与硬件对话、要求服务要试错多次,会很麻烦显得很傻。这其实是人们对接触语音智能的一种障碍。如果形成一种信心,大家就会尝试着对话,才能产生更多的改进和兴趣,才能推动语音智能的快速进步。我想问如何形成使用习惯?
【胡郁】其实这一点很简单,就是我那天说的涟漪效应啊!
【胡郁】大家要首先知道用户是分不同的种类的。对用户的分位可以把用户分成发烧友用户,早期用户,大众早期用户,大众晚期用户,和保守用户。现在的语音交互确实还不可能像人这样自然。所以说如果现在的语音交互技术要给,大众晚期或者是保守用户来用的话,他们肯定会说不好,而且不会继续用下去。这样我们也就没有机会得到源源不断的数据和经验,来优化我们的算法。但是大家注意到还有一些用户叫做发烧友用户,或者是早期用户。这些人在技术不成熟的时候就愿意尝鲜,而且他们愿意尝试新的东西。当语音交互还不太好用的时候呢?逐步地在一些产品上使用语音交互,就会有,发烧友用户和早期用户来用,随着他们用户的不断使用,我们的语音交互能力也会不断改进。关键还不在这儿,关键还在于将来他还会一直的好下去,直到有一天突破了所有人的接受门槛。但是使用这些技术的产品其实也不用担心,因为对于我们现在的智能硬件来讲,也总是有一批用户会提前首先喜欢这样的产品,他们会首先去用。
【杨静】其实我们新智元的订户,或者新智元会员群的群友,应该是属于发烧友或者早期用户,其中不少还是讯飞的小股东,相信他们会是讯飞智能产品的发烧体验者。
【胡郁】关键性的转折点在于,经过这些发烧友用户和早期用户的贡献,这个技术是不是可以越过,能够被大众早期大众晚期,接受的门槛。其实任何和其他的人工智能和核心技术,都是这样一个规律。
【杨静】超脑很像云计算一样输入到各种终端设备。这里面会有多大的延迟?其中超脑和终端设备,如何分工?哪些是需要在终端进行计算和认知的,哪些能由云端来解决?
【胡郁】其实今天我和陈云霁还一起讨论这个问题来着。现在我们讯飞超脑的很多应用还是在网络上的,必须通过云计算的方式来使用。而且现在整个超脑的训练还在一个学习的过程当中。这中间很显然会遇到一个延时性的问题。我们现在基本上做到了在固定网络的情况下可以做到150毫秒左右。这样的响应时间上你已经感觉不到什么太多的延时了。但是如果你想得到极致的体验反应时间必须控制在50毫秒以内。也就是我们经常所说的话音刚落的境界。如果想实现这一点,将来必须把有些计算和功能直接放在终端上进行。而要实现这一点,一方面是在云端要已经学习的足够好了,另外方面的终端要有对应的芯片和计算架构支持才行。
【杨静】据说5G网络可以做到20毫秒?
【胡郁】5G那是说通讯本身吧,也就是一个下限。所以我觉得将来很多人工智能的,算法和系统,是在网络上进行训练,但是最后被下载到本地的芯片上进行执行的。将来,一定会有相当大的数据量在终端上就被进行处理,通过终端上的人工智能神经网络处理以后的结果,再被送到云端去,由云端的更加复杂的数据库和知识进行对应处理。
【新智元群友wlike的提问】:语音和自然语言都可以归为序列数据,既然前者可以用递归神经网络,为什么后者不适合呢?前面说高考机器人现在还是以弱人工智能的方式在做,即教给它的不是学习能力,那是什么?
【胡郁】从来没有人说过自然语言是序列数据啊!这方面要问我们哈工大联合实验室的主任刘挺教授。我们现在在863高考答题机器人上很多的工作都是刘挺教授牵头的。语言是一个高度抽象的表达体系,从文字表现上来看他是从左到右的。但是你要注意他每一个个体,比如说每一个词汇都是映射到一个概念上。所以说你看到的其实是一个缩略以后的代号系统。这些代号系统有非常复杂的逻辑的关系,也就是我们经常说的,语义关系。
【胡郁】我们现在863高考答题机器人并没有教给他学习的能力,我们直接把它们之间的逻辑关系都交给他了。具体是什么样的知识?以及这些知识之间是如何进行推理的,我们是直接硬塞给他的。
【新智元公众号后台收集问题】群友“技术塑造未来”提问:问胡博士两个问题,一是现在有没有这样的系统,一个人一会说汉语一会说英语时能识别的很好:二是现在的机器智能能否将看到的听到的进行融合,形成概念。谢谢!
【胡郁】一会儿说英语一会说汉语能听懂,我们把它叫做混合双语识别系统。这种系统还是比较难做的。因为要处理两种不同的声学和语言的部分。这对大家来说都是个难题。另外,现在我也没有看到能够把看见的和听见的进行很好融合的系统。虽然国际上都有很多的公司和研究人员做了一些尝试,但是现在融合得并不是非常完美。比如说前段时间谷歌出了一款看图说话的系统,从某种意义上来讲,就是把图片和文字进行了一些融合。
【新智元公众号后台收集问题】群友贺sir:我想问问科大讯飞他们准备怎样把语音识别向更贴近人工智能计算机大的方向推进,还是现在条件不成熟,必须等待数据积累够了才可以,还是走一步看一步?第二个问题,他们怎样看待量子计算对数据的帮助,他们会不会涉及?谢谢!
【胡郁】我不太明白人工智能计算机大的方向是指什么?量子计算机现在其实还处于一种非常,早期不太明确的状态,科大讯飞现在不会在这些还不明确的概念上进行投入。不太明确。
【新智元会员群21群群友】“后来居上”提问:请问胡总,语音识别现在可以做到识别率99%以上,这是讯飞现在最主要的利润产品,请问语音识别未来有没有被颠覆的可能?比如深度学习,据我所知,目前百度、格林深瞳、微软、谷歌等都在做类似的研究,胡总能否比较一下?
【胡郁】看来大家没有看我的发布会啊!我在发布会上已经解释的很清楚了,深度神经网络科大讯飞是世界上最早,参与的几个公司之一。如果要是说颠覆的话,也是我们要颠覆原来在,人工智能和语音识别上做得不错的厂商。但是我觉得光靠神经网络是不可以的,必须有神经网络,大数据和涟漪效应。
【杨静】讯飞已经建立起语音的生态链,如何从语音生态链,延展为超脑生态链?
【胡郁】其实所谓的生态链和生态系统我的理解是这样的。如果大家想建立好的生态系统,那必须让这个生态系统中每一个成员都能够得到好处,都能够比在原来的生态系统里面,能够得到更好的收益。如果能够做到这一点,我们就能够建立很好的生态。
【胡郁】让他过去从语音的角度来说呢,其实还是有非常多的越来越多的智能硬件需要语音这个功能,而我们实现了语音功能的又能满足大家的这个要求。
【胡郁】将来在人工智能这个领域其实也是一样的道理。如果我们什么都想自己做,而不是和合作伙伴一起来做,帮助合作伙伴来成功,我们就没有办法建立生态。我想试探在将来包括更广泛的内容,有可能不仅仅是核心技术提供,还包括是不是能够有销售渠道,是不是可以提供资本的支持,是不是可以整合其他的技术,这一切都有可能。讯飞也会沿着这个道路继续走下去的。
【杨静】你们尝试建立一个讯飞+人工智能生态系统?
【胡郁】我想人工智能的基础核心能力大家都是需要的。我想大家已经注意到有一点了,就是,虽然大家都在做人工智能的产品,但是要想把人工智能技术,从一开始使用到最后的逐步突破,它的一个应用门槛其实需要一个很长的周期。不是每个公司都能够把这个周期做完了。
【新智元会员群3群群友】“培养朋友”提问:我想问个问题,人工智能有可能提供一个类似api 知识库的东西,普通人也可以使用,一下做到讯飞的水平吗?相当于人工智能的appstore 。
【胡郁】但是讯飞可以把较长周期的核心技术系统创新做完,并且能够合作产品创新以及微创新的创业者公司结合在一起。这样我们就形成了一个生态,而这样的生态在国际上也会是有竞争力的马上科大讯飞就会把多语种的所有的技术都完成,如果大家想进军世界的话,科大讯飞可以和大家一起去干。我们现在就在提供各种api啊,你使用了这样的api就可以达到讯飞人工智能的效果。
【新智元公众号后台收集问题】群友“技术塑造未来”提问:胡博士觉得,如果把人脑新皮层有多少种类的神经元搞清楚,再用软件或硬件很好的模拟这些种类神经元,然后再照人脑的方式连接起来,有无可能产生强人工智能?
【胡郁】我觉得这种可能性是存在的。那就是我说的,如果我们想像鸟一样飞行,我们就把机器做的和鸟一模一样。这是有可能做到的。但是也许这不是最好的办法,也许我们有更好的办法。
【胡郁】科大讯飞的ocr识别在业界已经独家率先达到实用。另外,在机器自动评分上,今年7月份,在合肥和安庆,两个教育非常发达的地方,做得针对初三学生的,汉语和英语的作文。机器评分跟人比,无论是一致性还是准确性上。一致性代表了公平性,准确性代表了精确性。机器都排第一。在广东高考15分的英语口语,不光是翻译的标准化程度,连学生开放式口语作文,在今年广东高考都是我们机器打分超过了广东最好的口语老师。
【胡郁】知识图谱可以分析一个知识的习得顺序,然后可以给孩子有针对性的推荐。讯飞有了真正的能够采集到学生的数据,有了人工智能自动判卷使我们有了基础来做知识图谱和学情的诊断。这些技术的出现,就会使我们刚才讲的个性化学习上课的课堂教学的提升真的成为可能。
【胡郁】一个是智学网让学生的学习变得更加智慧。分析诊断,提供一个学习的平台。首先可以进行自动的分析智能诊断,从过程化的作业或者单元训练或者考试中能够给老师在备课在课中授课中提供非常多的依据。
【胡郁】一个是E听说,英语听说的智能教学系统。可以通过,专家和我们的人工智能系统相互之间的校验和分析给出了专门的训练。然后在训练基础上有针对性的给出学生的口语练习,根据他的兴趣图谱他感兴趣他会学的更快,根据学生的薄弱环节来练习,最终使得学生在趣味性的训练中口语能力得到了提升。 目前已经在全国几十个省市,开始试点应用。在广东省广州市天河区一个区的同学,通过我们的平台训练了一个多月,平均成绩提高了将近20%。这个充分看到,新技术手段给大家带来的帮助。
【杨静】未来讯飞超脑的核心应用场景,都会有哪些?如果用28法则来说的话,哪些领域可能会成为超脑应用的80%的应用场景?
【胡郁】讯飞不仅实现了语音与文字的识别、合成与分类,并且实现了智能批改、全科阅卷、资源库自动建设等真正具备“人工智能”的产品目标,为中国教育体系实现个性化教学提供了有力支撑。讯飞超脑就是为了最终实现,自然的交互知识的管理,和自我学习。
【新智元公众号后台收集问题】群友“一瞥惊鸿”提问:胡总一定知道《her》这部电影,它里面的虚拟女友所具备的与人类自然的语言交流能力,自我学习能力,自我思维和自我进化能力。都是讯飞正在做的事情。现在关心讯飞的朋友都觉得一是讯飞过于低调,宣传不够。二是人工智能和超脑的相关技术太专业,一般人不大好懂。我的建议是讯飞在各种媒体宣传中完全可以借这部电影来说明白很多技术的价值所在。这样直观的效果一定既轻松又有效。现在出国旅游非常热,外国友人来华也非常多,语言交流是刚需,讯飞为什么不做一个即时翻译的to C的硬件产品?这个以讯飞目前的技术完全没有问题呀。
【胡郁】嗯,感谢大家的关心。其实我们的特点是不想overclaim。可能这是原来做研究的一些习惯吧,自己还没做到的东西呢不敢说的太多。所以我们展示出来的东西都是实打实能够做得到的。但是从这次发布会的情况来看,我们也在,按照大家的期望逐步提升我们对外展示的能力。我们是希望一方面我们要把东西做好,另外方面也能够把它如实地展现出来。而把他们很好的展示出来是需要一定的精力的。
【中国指挥与控制学会秘书长秦继荣】在履带车内的噪声环境下语音输入识别率多高?
【胡郁】如果在坦克车里面要进行语音输入的话,需要佩戴专门的降噪麦克风。关于翻译的硬件产品我们也在考虑,不过这个翻译难做起来其实技术上的挑战还是很大的。其实我们现在真正用的翻译产品是汉维之间的翻译,这个对于国家来说意义更大。端到端的是一种说法,但是其实在语音识别里面还没有实现完整的端到端。讯飞在发布会上展示的多轮对话本身是一种开放的技术,可以在各个场景下使用,但是鉴于每一个场景确实需要一定的学习和优化的过程,这个要逐步扩展出去。
【新智元微信公众号后台收集问题】群友“大石头”提问:我想问一下,对于讯飞语音在个性化的部署,举例来说就是我除了口音与其他人不同,还有用的标点也不同,比如有的人喜欢在句子与句子之间加标点,有的人可能喜欢省略号多于句号,那么对于用户的个性化来说,将来有没有可能在手机终端上对语音系统直接训练,还是在云端保存不同用户的参数,接着在云端分别训练,或者还有其他途径?哪种趋势比较有前景?
【胡郁】我觉得用户的习惯,数据,都是可以学习的。这一点在我们以后的发布会中都会逐步发布。
【新智元机器人群群友】王景阳提问:讯飞对家庭服务机器人的市场前景如何看?可以提供哪些有个性化针对性的产品和方案?
【胡郁】讯飞很看好家庭服务机器人的前景,而且我们在这个方面做的很多的技术储备都是为这个方面服务的。我们现在的AIUI肯定可以用在这个方面。另外很多的关于录音记录和场景分析的也可以用于家庭服务机器人。将来家庭机器人能够回答各种各样的问题,也要依赖于我们在,类人答题系统这方面的进展。
【杨静】今天胡郁院长与新智元群友的互动非常精彩,坦诚相见。将人工智能技术的应用场景,讯飞超脑的未来愿景做了详尽解读。两个小时的直播干货多多,他10点钟还要参加另外一个会议,我们今天的直播到此结束。期待今后有更多机会与胡郁院长在新智元的平台上进行更深入的沟通与探讨。
【胡郁】感谢大家的参与。希望大家,能够继续的支持科大讯飞,我们也会用先进的技术给大家回报。
【杨静】感谢新智元参与直播的36个会员群的群友们的热情参与和提问,相信科大讯飞的智能+生态圈会越来越强大!