查看原文
其他

给总理展示的语音识别技术,到底有多强?

2017-03-12 任梦岩 科技富能量

3月10号,李克强总理来到安徽代表团参加审议,全国人大代表、安徽科大讯飞董事长刘庆峰向总理展示了公司正在研发的人工智能“语音识别”和“语音翻译”。

▲ 科大讯飞董事长刘庆峰

演示中,语音识别AI首先将刘庆峰说的中文识别出来,形成文字然后进行翻译,之后再用提前录好的英文语音播放出来。


这里面最重要的,就是第一步:如何将语音识别成文字?


简单来说,人的语音,就是声波,是有波形的。

“Hello”的声波波形

AI把我说的每一句话都变成图形,然后把每一段图形都切成无数个小段,通过训练,告诉AI这一段长这样,下一段是那样,那么这两段一起出现时,就是某某意思。

“Hello”频谱图,音调等元素都被转化为更容易被AI理解的图形

比如我说了10秒的话,人工智能会把这10秒钟切成每25毫秒一段,且每段之间还有15毫秒的交叉,再通过声学提取,识别每一段里面的音素,这样,汉语的声母、韵母等等就能一点点被识别出来,之后再把若干个音素组合成单独的字词,结果就这么出来了。

当然,汉语同音字词很多,如果不在一定的前后语境下,人工智能很难识别出来。更别提“立早章”还算“弓长张”了,现在的语音识别,如果在前后文中说“弓长”还是“立早”了,那么AI在翻译时就会识别到,文字变成提到的那个“zhang”字,如果没上下文怎么办?人工智能就会根据几率自我判断,“弓长张”更多,那先写上这个吧。

以人类语言及口语之复杂,AI表示心好累

人工智能通过不断地训练和学习,才能有今天这样的准确率,各大公司都说自己已经可以识别97%的语音了,但从实际操作来看,背景噪音、说话者的口音、专业术语等等,都会影响识别的准确度。我从网上随机选取了几段讲话者有口音且内容比较专业的录音,比如高分子化学、国际象棋之类的,加上口音,我听得是七荤八素,但国内几家主流的语音识别软件,基本上能把七成左右的内容准确识别出来。而如果是吐字清晰标准的广播节目,识别率立马达到了95%以上。

美国斯坦福大学曾用一项实验专门对比了现阶段下语音输入和打字输入到底谁更快、更准确。结果是语音输入赢了。打字速度(左)和语音输入速度(右)

这项技术这么强,未来究竟能应用在哪些领域呢?


去年6月,浙江西湖区法院已经开始尝试用阿里的语音识别来完成庭审笔录了,准确率达到96%,毕竟这是严谨的庭审笔录,所以还需要书记员手动校准。但可以想象,在不久的未来它的准确率都不用达到100%,到99%的时候,普通人就能校准,谁还需要速记员呢?况且速记员,也不是100%准确呀。

语音识别可以让检索增加一个新的维度。现在我们在网上搜索关键词只能搜索出文字顶多是图片,而语音识别今后可以让我们搜索声音,搜索电影或者电视剧的对白。我们会更习惯于一心多用,这边跟人聊着天,那边语音识别已经把隔壁的一堂讲座捞了干货。我们的双手在操作一个软件,语音指令却再给另一个软件下达命令。


未来随着人工智能进一步发展,语音的识别率、不同语言之间的翻译更加精准、人工发音更加柔和,动画机器猫里那种“自动翻译机”不再是科幻,现在有翻译软件已经可以实现多个不同国家的人在一起通过APP实时沟通了。

2016年年末,微软发布了一款语音识别应用,具有多人、多语种实时翻译功能。简单的说,在它的协助下,你只是讲了一句中文,但周围讲英语的、法语的、韩语的都懂了

不过由于翻译和识别还不一样,目前让AI别说达到“信达雅”,我用各APP翻译其他国家报纸,长句子都只能达到“猜出个大概”的水准,距离沟通还差得很远。


不过纵向比较一下,语音识别和翻译相比两年前已经成熟太多了,它们依靠神经网络技术,就像AlphaGo学棋谱一样,每一天都在不断学习和进步。人机交互的下一个台阶就是解放双手,而语音识别就是通向未来,最重要的基石。

任梦岩│音频

阿喂│编辑


点击图片查看往期精彩图文

逛商店or逛网店?雷军是这样选的


无人驾驶涉及国家机密?

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存