思必驰俞凯：NLP通过图灵测试还早 不如先来“玩死纠正哥”

查看原文

其他

思必驰俞凯：NLP通过图灵测试还早不如先来“玩死纠正哥”

Original 木易机器人文明 2020-01-18

关注我们，思考像钟摆，永不停歇

阅读关键词：NLP、俞凯、思必驰

如何能让人工智能“思考”和“行为”？语音交互理解力怎样可以更进一步？谷歌“SQuAD1.1”取得好成绩，但真的会对应用有影响吗？

IEEE高级会员、思必驰首席科学家俞凯将为我们回答以上问题。

智能互联：亿级、十亿级、百亿级

为什么科幻电影中的人工智能可以看似有意识的进行思考和行为？

事实上，对于非生命体而言，意识和思考本质上并不存在。人工智能的所谓“思考”，不过是基于大量耗能的信息运算。只要数据足够，在精准的算法和强大的算力支撑下，人工智能可以作出比人的理性判断更加可靠的决策。

但如果仅有算法、数据和算力，人工智能还不能像科幻电影里那样炫酷。和人类社会的形成一样，人工智能的集群发展不仅需要单个个体的思维能力，更需要群体系统得以连接的符号工具。人通过语言沟通，人工智能则通过物联网（IOT）。

我们知道，人类语言的形成是通过人类成千上万年的不断创造和进化而来。这一逻辑对于人工智能的连接同样适用，只是速度比人类要快得多。

在AIIA的“物联网与交互式人工智能”主题演讲中，俞凯介绍了作为承载人工智能的连接设备的三个发展阶段。

第一个阶段，俞凯认为是PC机，以比尔·盖茨的“每个家庭都能拥有一台计算机”梦想为代表，这个阶段的智能设备体量单位是“亿”，即有几亿台。

第二个阶段就是我们目前已经经历的移动互联网时代，代表是乔布斯的智能手机革命——让每个人都拥一台智能手机，这个阶段的智能设备体量是“十亿”，即有几十亿。

我们即将进入的第三个阶段是智能硬件互联网时代。

对于这个时代即将发生的量级飞跃，俞凯用数据进行了说明：“有数据统计，截至2017年年底，全世界移动互联网和智能硬件设备总数首次达到了和人类数量相当的水平，这意味着未来智能硬件设备总数将超过人类，有预计这个数字在2020年便达到200亿。”

的确，智能互联时代即将到来。然而，经历了PC和移动时代的我们，已经习惯基于显示屏的交互，无论是处理工作、与人沟通，还是生活娱乐，都是用手动的方式进行屏幕操作。

如同个体进入社会不得不从独立思维、独立制作转向语言沟通和分工协作一样，人工智能在由单设备向多设备连接的发展路径上，也需要从“沉默式”转化为更具沟通效率的“语音交互”。

玩死纠正哥：情境理解和多轮交互

作为连接核心硬件和终端硬件的应用技术，语音是智能交互的核心之一。

据俞凯介绍，目前市面上的语音产品主要有三类：

第一类是“问答式对话”，主要形式是一问一答，涉及的交互内容主要来自知识图谱，或者问答库。

第二类是“闲聊式对话”，微软小冰即属于这种。

第三类是“任务式对话”，交互的目的是让人工智能协助完成某项工作，比如让智能助手打电话、订餐等。

在俞凯看来，无论是哪种类型的产品，都不可避免的会遇到两个问题：

首先是自然口语交互的不确定性。俞凯举例说明：“如果我和语音助手说，‘周二徐春来到苏州后约他九点钟在九寨沟喝茶’，这句话中的‘徐春’是人名还是‘徐春来’是人名？九寨沟是一个景点的名称，还是一家饭店、茶馆？对于这些语音处理还无法自主分辨。”

其次，口音偏差也会引起误识别。俞凯分享了一段操着河南话且口音浓重的司机向语音助手播报电话号码的视频，在播报两次未能全部准确识别之后，语音助手便开始发错误提示，指令终止，未能成功完成任务。

基于存在的问题和技术复杂度之间的鸿沟，俞凯给出的解决方法是“情境理解和多轮交互”。

同样是拨号码的情境，如果智能语音的设定可以通过情境分析出自身产生错误的原因，就可以通过获得指令修正对原有信息进行纠正。视频展示中，智能语音确实可以通过和用户的多轮交互识别指令修正，从而推断出正确的信息。

俞凯把这个性能的提升戏谑为“玩死纠正哥”。虽然过程有些繁复，但无论怎样，信息的识别准确率在多轮互动中获得了提升。

DUI：全链路开发，规模化、超高度定制，对话为核心

简单来说，信息识别准确率可以通过环境感知和对话管理提升。这个认知落地到产品，就需要认知型产品设计和相应的认知型技术做支撑。

以上两点，俞凯强调了实现的复杂性：“对于开发者来说，直接拿到SDK或者API比较容易，但是要真正做开发，则会碰到非常复杂和烦人的事情，比如UI改了需要把语音交互对上，该怎么对？如果词表更新了，能否立刻去支持新的词表？假如需要一些本地的唤醒技能，能否重新自动定义新的唤醒词？很多类似细碎的需求，解决本身没有太大的难度，可以通过技术开发方做支撑，但问题一旦积累多了，都让开发者自己来做就非常困难。”

那么，该如何解决技术提供商的效率和B端用户需求不能被迅速满足之间的矛盾？

思必驰给出的方案是“Dialogue User Interface（简称DUI）”，“我们所碰到的对话界面，不单要有语音界面，还有图形界面，将传统的界面两者结合在一起，加上相应的语义理解和对话调控，就形成了现在的系统DUI，我们希望和人工智能开发者一起共同开发生态。”俞凯表示。

据了解，DUI搭载青囊、紫微、天机、玲珑四大系统。其中，天机主要提供数据支持，紫微是接口资源平台，青囊代表DUI的服务力，玲珑则是DUI平台的支撑系统。

俞凯用四大特点来说明DUI的核心能力，分别是：全链路开发，规模化、超高度定制，以及对话为核心。

大数据处理阶段的NLP,离真正通过图灵测试还远

机器人文明：您认为当下NLP技术发展到了哪个阶段？为什么一些NLP产品被爆出通过了图灵测试，但还是不具备像人一样的逻辑理解能力？

俞凯：从学术上来说，目前NLP发展到通过大数据进行数据处理的阶段。之前是小数据，目前已经是数据驱动为主体。

至于通过图灵测试，只能说目前阶段，在特定的、数据比较充分的，以及限定性相对较强的场景下NLP可以达到和人媲美的水平。但如果只是在特定场景中，并不能说明一款产品真正通过了图灵测试，这不是一个很准确的提法，应该说只是在特定场景下和人类近似。

比如人们说谷歌的某款语音产品通过了图灵测试，但它只是在预定美容院这样一个特定且局限的任务下，通过一两次的对话是可以实现，但如果长期让各种各样的人和它对话，我还是不太相信它能够达到和人一样的完美效果。

一款产品只有在所有通用场景都能够和人类近似，才是真正通过了图灵测试，目前还没有达到。

机器人文明：NLP技术面临的主要瓶颈是什么，思必驰在这一技术上还有哪些在突破点？

俞凯：NLP技术目前面临几个瓶颈，主要的有两个。

第一个是大数据，刚才我们说了数据量的提升推动了NLP的极大发展，但问题在于，还有很多应用没有大数据支撑。人类分析信息可以通过小数据，但是机器没有进行小数据处理的能力。所以，NLP面临的第一个问题是，当没有一致性的大数据时应该如何处理。

第二个问题是，知识和解释如何在技术处理的时候体现出来，这是阻碍NLP发展非常大的瓶颈。单纯通过“暴力计算”只能用于比较常用的基本任务，不能够像人一样自由的认知。

目前思必驰正在突破的技术难点包括小数据的迁移学习，比如在语义层面、对话层面，以及策略层面的迁移；第二个是知识和数据结合的双驱动，比如说解释性（标注）如何通过多年积累的人类知识融合到无标注的数据中，或者把模型的结构做的更好，在这些方面思必驰做了很多工作。

机器人文明：近日谷歌在“SQuAD1.1”比赛中取得的佳绩，您认为会对NLP的应用产生哪些影响？

俞凯：谷歌的这个成绩我认为是继承了它一贯“暴力计算”的风格，它可以给到的启示是计算机动力足够强的情况下确实可以在特定的任务上超越人类。但如果说实际作用有多大，或者是否预示着机器达到了人类的理解智能，我觉得还差很远。如果用可比计算，在处理同一个问题上，人类消耗的能量远低于机器耗能，说明单位耗能下机器产生智能比人低很多。

在特定任务上的大数据优化，或者密集计算，有可能取得显著效果。但并不意味着一次尝试可以通用到其它所有的项目上，它的推广力不强。

我认为是NLP技术当中的一个重要技术成果，但学术和示范作用远大于实际应用。

欢迎加入“AI大爆炸”群组，一起探秘AI!

也可以撩撩群主~

长此以往，我们就是朋友了！

我是广告：芯师爷重金约稿，等你来撩！

好文请投：tougao@gsi24.com

往期精选

Atlas"逆天跳"，Deepmind"败家烧" | AI七日谈
华为入局AI就挑战英伟达？徐直军没这么说！
AI身世揭秘：爸图灵，妈是谁？| 产业图谱系列一（文末附“开发者”福利）
要完成这件事，小扎得再活99年？| AI七日谈
AI华人总裁列传：不疯魔，不成活【科普】是自然语言太深，还是科大讯飞失真？

AI周榜：“平头哥”败给了科大讯飞（文末附《2018世界人工智能产业蓝皮书》）

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！