查看原文
其他

微软语音识别技术屡破世界纪录的秘密都在这里了

2017-08-22 语音识别 微软丹棱街5号


丹棱君有话说:还记得 2016 年 10 月 18 日吗?那一天,微软语音团队在 Switchboard 语音识别基准测试中了刷新自己的纪录,词错率低至 5.9%,达到了人类的水平。306 天后,2017 年 8 月 20 日,这一纪录再次被微软刷新,Switchboard 词错率从 5.9% 降低到 5.1%,成为行业新的标杆。想知道标杆是怎样炼成的吗?且听丹棱君为大家揭晓~


8 月 20 日,微软语音和对话研究团队负责人黄学东宣布微软语音识别系统继软对话语音识别技术达至人类专业水平,开启人工智能新征程之后再次取得重大突破,错误率由 5.9% 进一步降低到 5.1%,可与专业速记员比肩。此次突破大幅刷新原先记录,并在语音识别行业树立新的里程碑。


在微软转录系统达到 5.9% 的错误率之后,其他研究人员在此基础上分别进行研究,采用了更多参与的多转录程序,成功在语音识别准确性道路上更进一步。


这两次研究转录的都是 Switchboard 语料库中的录音,Switchboard 是一个电话通话录音语料库,自上世纪 90 年代以来一直被研究人员作为测试语音识别系统的样本。语音识别测试任务包括对陌生人对话交流中的不同话题,比如体育和政治方面的讨论,进行从语音到文字的转录。


研究人员通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约 12% 的出错率,同时引入了 CNN - BLSTM(convolutional neural network combined with bidirectional long-short-term memory,带有双向 LSTM 的卷积神经网络)模型,用于提升语音建模的效果。并且,系统中以前就在使用的从多个语音模型进行综合预测的方法,如今在帧 / 句音级别和单词级别下都可以发挥效果。


除此以外,研究人员还对整个对话过程进行历史记录分析,预测接下来可能会发生的事情,进一步加强识别器的语言模型,使其能够有效适应对话话题和语境的快速转变。


微软认知工具包 Microsoft Cognitive Toolkit 2.1(CNTK)在研究过程中表现突出,研究人员充分利用 CNTK 探索模型架构和优化模型的超参数。此外,微软对云计算基础设施(特别是 Azure GPU)的投资,也帮助提升了训练模型、测试新想法的效果和速度。


实现识别准确率上的“人类对等”是语音识别领域过去 25 年来一直奋力追求的研究目标,微软始终坚持深耕语音识别,并力争将新技术最快、最好地运用到 Cortana 、Presentation Translator 、Microsoft Cognitive Services 等微软产品和服务中,让用户能够亲身体验新技术的魅力。微软的研究团队非常高兴可以看到每天有数百万的用户在使用这些产品,未来将更加努力,创造出更具突破性的工作成果。


Presentation Translator:利用语音识别实现多语言观众实时翻译演示文稿


在语音识别领域,业界和学术界有许多研究团队都有重大进展,微软研究团队在行业的整体发展下同样获益良多。尽管目前在 Switchboard 语音识别任务中实现了 5.1% 的低错误率,事实上语音研究领域仍然挑战重重,例如嘈杂环境、录音距离较远场景下的语音识别,方言识别,有限训练数据条件下的语音识别或较少人使用的语言的语音识别,这些距离达到人类相近水平还相差甚远。而且,计算机学会将语音转换为文字并非语音识别的终点,让计算机能够理解其中的含义和目的才是道阻且长。从语音识别到话语理解,将会是语音相关技术的下一个重要前沿。


点击“阅读原文”,即可下载 “The Microsoft 2017 Conversational Speech Recognition System” 论文原文。


本文转自微信公众号:微软研究院AI头条


了解更多:




后台入驻微软小冰

如果你很萌,请跟她一决高下!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存