查看原文
其他

科大讯飞王士进:智能人机交互与万物互联产业浪潮|2016智能+未来峰会

2016-12-16 科大讯飞王士进 六合咨询

九宇资本、智东西、犀牛之星、极果、六合咨询共同主办,伙伴基金、BroadLink、UCLOUD赞助的“2016智能+未来峰会”于12月8日圆满结束,此次论坛吸引近600位投资者和产业届人士参加。来自投资界、创业圈和产业链各方40余位重量级嘉宾,围绕“新经济、新智能、新三板”主题,探讨产业变革中的投资机会、人工智能时代下的新消费模式、汽车的智能化未来等,带来最前沿的实践、思考和判断,我们将整理本次论坛精彩内容陆续对外发出,欢迎关注。 

科大讯飞研究院副院长王士进精彩观点:

1、人机交互的发展史就是走向自然交互的发展过程,从以机器为中心的人机交互,走向以人为中心的自然交互。PC时代交互是键盘+鼠标,移动互联网时代交互是多点触控、手写、手势交互,万物互联的智能生活时代即将到来,将以语音、视觉为主+键盘、触摸、手势为辅完成交互。

2、目前语音交互在移动应用、智能家居、机器人、穿戴式设备等领域都有应用,传统语音交互模式的问题:说话要靠近、发音要标注、环境要安静、不能持续对话。

万物互联时代人机交互的核心关键是远场降噪、方言识别、全双工(可以同时(瞬时)进行信号的双向传输)、纠错、多轮对话,2015年科大讯飞发布人工智能时代的人机交互界面—AIUI,具有远场精准识别、全双工持续交互、上下文对话、个性化可扩展交互等特性。

远场精准识别:麦克风阵列硬件,5米外远场定向拾音(收集声音)、降噪、回音消除;方言口音普通话自适配,近20种方言精准识别;适配优化远场拾音特征;结合上下文动态修正,应用场景热词优化。

全双工持续交互:持续录音,连续识别;过滤无效语音;基于语义智能断句;随时可打断,支持主动式交互。

上下文对话:基于上下文和历史知识理解,基于内容提问;多对话场景管理,跨场景信息共享。

个性化可扩展的交互:唤醒词定制(科大讯飞和京东合作的智能音箱可以定制唤醒词)、发音人定制、业务对话场景定制、外部交互扩展等产品特性定制,基于身份的个性化回答、基于用户环境的个性化提示等用户个性化交互。

3、科大讯飞提供人机智能交互整体解决方案,包括软硬一体化、云端一体化、技术服务一体化。

科达讯飞做了很多相关产品:1、讯飞听见智能会议,很多大型会议噪声、回响大,这种场景下科达讯飞的语音识别率领先。2、讯飞听见便携翻译机,中、英、维即时互译,随身携带,远程实时交流,即将上线。3、讯飞电视助理,尝试用语音、语义控制,精准找到所需内容和资源。4、讯飞飞鱼汽车助理,汽车噪声环境下的语音识别。5、机器人,自然交互,个性化定制服务。6、开放云平台,从最早语音听写到现在人脸识别、语音唤醒、语音合成等都做得很好。

详细纪要:

我今天给大家分享在万物互联产业浪潮下,我们希望提供一种智能交互方案,配合大家做很多工作。讲智能交互之前,可以回顾一下电脑出现及交互的历史,早期大家很清楚,随着电脑出现,以键盘、鼠标交互是当时最主要的交互形式。随着移动互联网的到来,我们会发现,更多是基于多点触控、手写、手势等交互形式。大家使用手机和iPad平板的时候会发现,用这样的方式操作会比原来爽很多,这是用户的爽点。

随着现在物联网万物互联,很多类似的智能硬件、设备出现,大家会发现在很多场合,可能并不是很容易能用键盘或是手去控制。我们认为使用语音、视觉交互配合传统手的控制会使交互方式有非常大提升。以前我们在交互的时候是以机器为中心做交互,比如电脑。随着交互的发展,我们会发现将来是一个以人为中心,所有设备都围绕人,人通过语音、视觉控制,配合手的操作完成整个交互,所以这是我想讲的。


将来在万物互联浪潮下,以语音为主,键盘、触摸、图像、手势为辅的交互时代,我们认为已经逐渐到来,大家从刚才很多
PPT里也看到了。我们再讲一讲产业情况,在移动端的一些手机应用,包括智能家居各个场景,视频里看到智能机器人的一些场景,包括穿戴设备、车载设备,很多类似的新一代场景都需要智能交互产品介入。

现在的智能交互,特别是涉及到语音交互方面,大家可能体验过很多,这些产品有一些什么问题?


第一个是讲话要近,这是大家用手机的习惯。
在语音距离远的时候,会有混响、噪声等很多干扰,所以原来有一款最早的语音识别产品,只要距离到1、2米甚至更远,效果马上会下降。所以现在的设备,有一些产品演示的时候要保持在一定距离以内,否则效果不太好。

第二个是发音要标准,可以参照我的发音,很多时候大部分人普通话相对来说还是比较标准。通过后台分析发现,有一些人普通话并不是很标准,甚至有一些人,基本上已经听不出是普通话了。怎么样让大家都能享受到人机,特别是语音交互操作,也是一个问题。

第三个是环境要安静,在语音操作里面,最难处理的就是噪声。只要有噪声,很多原来语音识别性能很好的,或者语音交互操作很好的,处理起来都会变的很困难。

第四个是不能持续对话。所谓的智能我们是希望机器人可以有更多的上下文知识理解,更多基于用户历史信息完成交互。目前来说,可能很多产品还达不到这样的要求。

我们在2015年推出AIUI(人工智能时代人机交互界面),又在2015年增加很多新特性和功能。


第一是远场降噪:
什么距离叫远,很多场景下,包括机器人和智能家居,5米以外,怎么做到在距离远、有噪声的情况下,做好语音识别。

第二是方言识别:不仅是带方言的普通话,甚至直接方言形式,也能把语音识别、理解做好。

第三是全双工:人跟人之间交流,感觉是非常自然的。但是我们发现,人跟机器交流,可能并不像人跟人交流那么简单。以前我们跟机器交流就是我讲完以后等它的动作,它会给我一个反馈,这就是一个正常的交互流程。现在新一代交互系统支持随时打断,随时插入,这样就和我们人与人之间的交流会更接近一些。

第四是语音纠错:现在无论是讯飞也好,还是市面上其他很多产品,语音识别会有或多或少的错误,怎么利用语音信息,利用上下文场景纠正一些常见的错误。

最后一点是多轮对话:以完成任务的方式,大家可以看到,在刘总的视频里面,有很多类似的任务。我们想订票或者做一些比较复杂的任务,通常人和人之间的对话需要多轮完成。现在除了可以由人发起多轮对话,甚至机器在一些情况下,可以自主发起多轮对话来达到任务所需条件。

下面我们讲AIUI4个特性,刚才讲到跟远场识别相关特性。


第一个,麦克风阵列硬件:
我们讯飞做了很多年,最近这几年有了非常好的突破。麦克风阵列硬件可完成5米之外远场定向拾音、降噪、回音消除。谷歌组织的语音比赛,就是多麦克风场景下面,怎么把语音识别率做得最好,我们一个麦克风比较微弱的优势拿到第一名。讯飞多麦克风有非常大的优势,比其他竞争对手好很多,多麦克风场景怎么做到远距离判断人的距离、方向、说话内容,做了很多工作。

第二点,方言口音适配:现在已经支持近20种方言,陆陆续续会做更多方言。我们希望更多人,包括普通话不太好的人,都可以用到我们的产品。后面会讲到,讯飞除了语音,在语义上也做了很多优秀工作。2014~2015年我们机器翻译相继拿了国际比赛第一名,今年拿了2个第一名,一个是常识知识表达和推理,一个是知识图谱推理。我们在语义做了非常优秀的工作,使得我们知道你所说的内容是什么。刚才提到,市面上很多唤醒和识别为主题,要唤醒它,还有循环识别,说完以后必须持续的说,否则背景知识或者类似信息会丢失。我们支持持续录音和连续识别,方便人和机器进行更好的交互。

第三点,刚才提到上下文,怎么利用用户上下文知识和历史知识,不仅根据一个问题给出回答,就是最近最热的语义上下文自修正技术,从今年年中开始这个技术非常热门。我们在利用历史信息和用户个人信息做更好的交流方面做了很多工作。


第四点,我们叫做更多可拓展性。
很多产品拓展性会很差,比如唤醒词,和京东合作的音箱可以定制唤醒词。和外面的交互,我们知道现在更多的互联,通过协议和外面的设备做互联。


我们提出一整套解决方案,包括本地实现软硬件一体化,既有软件服务,也有硬件麦克风服务;同时有云端一体化,既提供互联网、移动互联网服务,也有本地服务。讯飞做了很多产品,希望和大家在产业上共同探索、合作。


讯飞听见智能会议系统。
很多大型会议噪声、回响非常大,目前讯飞是唯一一家在这种场景下,能够把语音识别率做到最高的,同时支持会场说话人角色分离,现在很多会议使用我们的产品,例如法院庭审使用了我们的技术,原来3、4个小时的纪要,1小时之内就可以完成。


今年推出“讯飞小译”机器翻译产品。
大家知道出国旅游,语言沟通是非常大的障碍。我们远场识别推出这样一款翻译机,目前支持中、英、维即时互译,今年会增加8个语种,使得我们出国非常方便。


讯飞电视助理。
面对互联网海量内容,人和电视距离非常远,讯飞尝试用语音、语义控制,精准找到所需内容和资源。国内很多电视厂商,包括主流一线厂商都在和我们合作,使得未来电视可能是非常好的交互平台,也有可能是电视盒子类似形式。


还有讯飞今年最新发布推出的“讯飞飞鱼”汽车助理。
在噪声非常强的汽车场景下,我们连续2年,包括宝马、奔驰、通用组织的汽车噪声环境语音识别比赛,性能评比都拿第一名。所以大家以后除了能在很多国产车看到讯飞语音助理,很多进口车也都会使用我们的技术。


讯飞在机器人场景做了很多尝试,提供自然交互、个性化定制服务,也在人机融合方向做了很多工作。


讯飞除了自己在做,也通过“讯飞开发云平台”提供相关技术给外部开发者。我们最早只提供语音听写技术,现在提供包括人脸识别、语音评测、语音唤醒等,基本上刚才提到产品所涉及的技术点,讯飞开发云平台都有提供。
如果大家有兴趣,都可以从我们开发云平台里面取得这样一些信息和帮助。


我们希望将来在AIUI前台人机交互+后台智能服务场景下,为大家提供一些更好的智能人机交互解决方案。



六合咨询:挖掘明日之星,发现价值,传播价值。

六合咨询

微信公众号:lhzx690

加入六合新三板投资群:加微信lhzxxsb(六合咨询)

业务合作微信:48807395、LiTao_TMT

邮件联系:x3@6hezixun.com

实习生通道:zhaopin@6hezixun.com

请务必阅读文章最后免责声明与风险提示

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存