语音交互技术不是“你问我答”那么简单!
The following article is from 51CTO技术栈 Author summer
开启今天的文章之前,先上一段视频,这段视频展现了生活中最“贴心”的语音交互。
这条视频里展现的就是我们日常生活中常见的语音交互,与图像识别一样,语音交互是人工智能的一个分支。
在人工智能异常火热的今天,从 Siri 到小度,从小冰到小娜,语音交互正悄无声息的融入我们的生活之中。
其实,语音交互系统发展的历史并不短,早在 1952 年,贝尔实验室就开发了能够识别阿拉伯数字的系统 Audrey。
1962 年,IBM 发明了第一台可以用语音进行简单数学计算的机器 Shoebox。
2019 年全球语音交互市场规模达到 13 亿美元,预计 2025 年全球语音交互市场规模将达到 69 亿美元,目前已广泛应用到智能家居、车载语音、智能客服等行业和场景。
对于发展前景如此感人的语音交互有哪些优劣势呢,也就是我们为什么这么热衷研发语音交互?
优势
信息传递效率高:
相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势,利用语音输入普通话时,速度是传统输入方式的 3.21 倍。
空间便捷性:与触控相比,语音交互可以人机相距 3~5 米进行交互,增加了交互的便捷性。
支持组合指令:在需要支持多意图同时传递的场景下,语音交互可以一次性下达多条指令,然后分别执行,比如你可以对着手机说:“播放周杰伦的《说好不哭》并且是免费的。”
2
使用门槛低
对非文字使用场景友好:语音交互为老人、孩子,以及一些不方便使用文字的人群提供了便利,也在一些不方便使用文字或者手势的场景下,比如:驾驶、玩游戏,为使用者提供了便利。
学习成本低:语音交互与我们平时说话一样,不需要特意学习,大大降低了学习的成本。
3
传递声学信息
声纹识人:通过声纹可以进行身份判断,并且可以在下达指令的同时进行身份判断,效率更高。同时声音还可以判断性别、年龄层、情绪等信息。
声音传递情感:声音交互可以传递情感、语气,因此在有情感诉求的场景下,语音交互是一个很好的选择。
但是,有利就有弊,语音交互同时也存在着一些弊端。
弊端
信息接收效率低
当信息量大、内容较长时,语音交互的效率就会降低,同时,语音交互是线性的,也就是别人说话时,必须都听完才能理解其中的意思,这也大大降低了语音交互的信息接收效率。
嘈杂环境下语音识别精度降低
语音识别需要清晰的识别出人声,嘈杂环境使得人声的提取变得非常困难,尤其是针对远场语音交互,噪音的问题更加突出。
例如如果远场安静环境下语音识别准确率能达到 95%,但是在嘈杂环境下仅能达到 80% 左右。
虽然存在着这些弊端,但是语音交互还是在不断完善中实现着自我突破。
10 月 17 日我们请来了百度 DuerOS 首席布道师曹洪伟老师为我们讲解《面向交互的人工智能》,探知 DuerOS 语音交互在哪些方面实现了技术上的突破。
直播主题:《面向交互的人工智能》
主讲人:百度 DuerOS 首席布道师 曹洪伟
直播时间:2019 年 10 月 17 日 20:00
免费报名方式:长按识别下方二维码。
添加微信号【CTO51shequn】或长按识别下方二维码备注【AIX】进AIX大咖来了交流群