科技前沿|语音识别准确率达97%,我们离对话交互还有多远?
(更多精彩,请您留意文章后“推荐”)
上周,科大讯飞、搜狗、百度先后召开发布会,对外公布准确率均达到「97%」。
而一如阑夕所言「一旦语音识别的准确率达到99%,那将直接进入产业爆发的黎明」,在从97%迈进到99%的路程中,各大巨头和资本早已开始造势布局。
97%的准确率意味着优秀产品落地?
97%这一数字,看似散发着胜利的曙光,却仅仅是准确率而已。
大众预期的产品里面,智能语音作为人机交互层,需要达到完全理解的程度。这不仅需要高准确度的,更需要复杂动态的语义理解,机器才能准确理解用户意图。但这是两种不同的技术:仅仅将用户的语音指令与嘈杂背景音剥离开来,保证原始命令无误;而语义理解更为复杂,也是提升用户体验的关键步骤要支持在不同用户场景下,理解用户的指令,理解真正用户需求,进行上下文管理,并有效完成一次对话。
拿简单的点外卖做个比方。智能手机上点外卖方式,无非是打开app,用户自主选择、点触。而以语音交互为入口,用户会向智能终端说道:「饿了,有什么好吃的?」
「您想吃点什么?」
而用户会继续语音发布指令:「我想吃火锅,超级辣的那种。」
哪怕siri级别的助理,也足以搜索出足够多的推荐,并且语音回复:「附近的火锅有xxx,xxx」
「恩,但好像一人份的海底捞好像太多了,还是换冒菜吧。」
对话如此循环往复,机器接受语音命令,替用户筛选出有效信息,降低了用户交互成本。而现有的智能助理到这里往往会犯懵,在用户切换话题的时候回答不知所云。而这也是智能助理广为诟病的主要缺陷,即缺乏对话管理能力,导致用户体验不佳。而这一部分的提升主要依靠理解和深度学习技术的进步。
而获取不同用户场景下的海量数据进行训练,才能让机器满足复杂的场景需求。而这也是开发布会的三大团队步调一致的方向。根据科大讯飞发布会来看,业务从To B转向To C,智能硬件将是下一个突破点,产品包括智能电视、音箱等。而这些产品的背后都是同一个技术平台AIUI作为核心技术平台驱动。如果说智能硬件是科大在C端尝试开辟的入口,搜狗和百度依然是从输入法中获取用户数据。搜狗自有搜索引擎作为数据来源,而百度还有百度地图等其他产品辅助。
但是在对话交互时代,智能语音市场占据用户入口的真的会是这三家之一吗?
如果不是讯飞,下一个巨头会是谁?
一直以来大幅占据媒体版面的都是科大讯飞、搜狗、百度,而人们习惯性地忽略了安静的一方微信。而在这段跑道上最有优势的是,微信是最靠近C端的App,活跃用户惊人并天然积累了海量的语料库。
微信已具备、语义理解研发能力,并且占据了IM入口。早在2012年腾讯就建立了团队,后并入微信,逐步加入了功能。而在微信智能开放平台的和语义理解开放接口中,可以窥见微信的技术能力和产品野心。 而且讲真,微信的体验并不落后于其他团队,所谓1%或是2%的差距都是在满足小概率的场景。
当然,微信有其先发优势,但并不意味着不会有后来居上者。在交互方式迭代转变的过程中,常见多种新旧并存的情况。在开辟蓝海的混乱中,似乎看清历史循环,更有可能布局成功。
公认的上一个风口,是由智能手机开启的移动热潮。在移动互联时代,人机交互方式的物理介质是触屏,多由用户主动发起。慢慢的,App开始主动向用户push消息,试图唤醒用户,争夺用户有限的注意力。
同理,在向新型人机交互方式转变的过程中,要成为下一个巨头,不是稳坐后端(类似SaaS服务)就是占据前端,把握用户注意力的入口。那在语音技术和成熟后,机器会以何种形态陪伴用户,交互会演化到怎样的地步呢?
如同许多科幻电影着重刻画的那样,智能终端的形态非常多样。从已问世的Google Home和亚马逊Alexa到国内的Rokid,科大讯飞以及小米都在推的智能音箱,都是交互形式进化的智能硬件产物。小到个人可穿戴设备如蓝牙耳机、手表,大到智能家居全部24小时待命,随时接受用户语音指令。
但现阶段,仅仅以语音为支撑是不够的。这些24小时随时待命的智能终端,真的是随着用户语音唤起才进入工作模式吗?如果不是,那么用户在可录音范围内的活动,都会被智能硬件记录下来,那么隐私数据将会掌握在谁的手里?再设想一个极端的用户场景:戴着智能手表的用户,挤上地铁,却只能用语音对智能助手说:「嘿宝贝儿帮我订个饭,叫到公司。」万一环境嘈杂,助手宝贝儿听不懂指令,只能反复,十足滑稽。这自然不如打字与智能助手聊天来的得体。
人类总是渴望全面智能,同时也在某些方面极力对抗,维护个人隐私的体面。
对话式交互将走向何处?
自从Chirs Messina提出名为「Conversational Commerce」的概念以来,不论媒体与资本如何夸大造势,但不可否认,对话交互确实是大势所趋。与此同时,智能语音不足以全面满足用户根本需求。随着处理和的成熟,多样化的智能终端将会支撑文本和语音交互相辅相成的局面。
就比如最近大热的微信小程序,支持了websocket协议。这意味着长连接的用户场景,例如对话式交互,开发成本也会降低。届时,预计会有一大波借对话式交互为载体的场景式服务将借微信平台快速崛起,许许多多个如同「助里来也」的服务将会向你招手。
无论成熟与否,这都是对话式交互成长的必经之路。
来源: 人工智能爱好者俱乐部
【慧天地】敬告
【慧天地】是服务测绘地理信息行业的公共、公益平台,旨在:传递政府声音;发现行业亮点;增强学术交流;共享优质资源;关注本硕博学子的学习、就业;重视地理信息文化的传播、弘扬。【慧天地】高度重视版权,对于原创、委托发布的稿件,会烦请作者、委托方亲自审核通过后才正式推发;对于来自网站、期刊、书籍、微博、微信公众号等媒介的稿件,会在作者栏或者文章末尾显著标明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请及时后台留言,我们会在第一时间内删除。先做人,后做事;心有多大,舞台有多大。感谢大家一直以来对【慧天地】的关注和支持!
欢迎大家推荐精品稿件
【投稿邮箱】
geomaticshtd@163.com
编辑:杨长龙 闻小玖
审核:李茂永 王怡波 付航
指导:万剑华教授(微信号wjh18266613129)
推荐
(限于篇幅 更多精彩不再全部列出 请在相关系列中查看)
点击下文可直接阅读
科技前沿|斯坦福「人工智能百年研究」首份报告:2030年的人工智能与生活
科技前沿 | 2017年具有巨大颠覆性潜力的十大战略科技发展趋势
科技前沿|斯坦福人工智能实验室主任李飞飞专访:人生起点与AI梦想
喜欢的话别忘记点击小手给小慧点赞哦!