突破 | 语音识别新里程碑，微软将错误率降至6.3% (附论文） | 自由微信

突破 | 语音识别新里程碑，微软将错误率降至6.3% (附论文）

2016-09-14 新智元

月新智元报道

来源：微软官方博客

译者：胡祥杰

今天是2016年9月14日AI WORLD 2016世界人工智能大会倒计时33天启航期5折抢票倒计时 5 天

【新智元导读】微软的语音识别技术又获得了新的突破：9月13日，微软语音与对话研究团队在arxive上发表论文，宣布在作为行业标准的 Switchboard 基准上，微软的错误率做到了6.3%，比上周 IBM 公布的 6.6 % 有小幅提升。要实现微软 CEO 纳德拉提到的“对话即平台”AI战略，语音识别准确度的提升是不可或缺的。

进入新智元后台，回复“0914”下载论文。

昨天，微软研究院在让计算机理解语音上又获得了里程碑式的突破。

在作为行业标准的Switchboard 语音识别任务中，微软研究团队将词汇错误率（WER）降到了6.3%，打破了此前的记录。

昨天在arxive发布的论文中，微软写到：“在NIST 2000 Switchboard 测试集上，我们最好的单一系统错误率为6.9%。我们认为，这是目前有报道的、不基于系统结合的语音识别系统中最好的表现。在与声学模型合并的情况下，这一系统在 Switchboard 数据集上的错误率能降到6.3%”。

历年来语音识别词语错误率的发展趋势，图中绿线代表在Switchboard上的表现。

上周末，在旧金山举行的语音通信与技术国际会议——Interspeech上，IBM称已经将WER错误率降到6.6%。20年前，已发布的最好的研究系统的WER还是43%以上。

黄学东

微软语音研究的首席科学家黄学东（音译）是这个系统的主要研发者之一，他说：“这一里程碑式的突破，离不开过去20年间AI社区中不同机构在各种技术上的发展”。

微软在官方博客中写道：一些研究者现在认为，这些技术很快将会发展到一个新的阶段，让计算机可以像人一样理解人类的语言。这与微软通过自己的技术，比如私人助理小娜、Skype 翻译以及语音和语言相关的认知服务，来提供更加个性化的计算机体验的战略是一致的。

此外，语音上的研究突破对于微软整体的人工智能战略来说也至关重要，微软希望提供可以预测用户需要而不是只根据命令做回应的系统。更长远地看，微软希望提供的是一个能看、能听、能说，甚至能理解和增强人类工作方式的智能系统。

IBM 和微软都认为，深度神经网络的出现是语音识别获得突破的一个关键原因。计算机科学家在过去的几十年间一直在尝试训练计算机系统，让它们可以执行识别图像或者理解语音的任务，但是不久前，这些系统依然因为误差太大而被诟病。

神经网络有多层。今年年初，微软的研究员通过使用一个深度的残差网络系统赢得了ImageNet 计算机视觉挑战赛。这一系统使用的是一种新的跨层网络连接。

微软另一个关键的研究是深度学习工具包（CNTK），采用复杂的优化后，CNTK 能让深度学习算法运行得更快。通过 CNTK 和 GPU 的结合，小娜的语音训练现在在相同的时间内，能消化的数据是以前的10倍。该工具包已经在今年1月份时在 Github 上开源。

Geoffery Zweig

微软语音与对话研究小组的首席研究员和主任 Geoffery Zweig 领导Switchboard 语音识别研究工作。他说：“我们的研究团队学习了一个世纪以来的语音研究与发展的经验，推动语音识别技术不断获得突破”。

本年度的开发者大会上，微软曾把自己的AI战略描述为“对话即平台”（Caap）。微软 CEO Satya Nadella 说，Caap 给我们的计算机体验带来的影响，将会和此前的图像用户交互界面以及网页和移动端一样深刻。

“这是一个很简单的概念，但是在影响力上却是非常强大的。它利用人类语言的力量，并把这种力量更加广泛地运用到我们的计算机上”，Nadella说。

论文摘要

我们将介绍微软的对话语音识别系统，在这个系统中，我们将最近基于神经网络的声学和语音模型进行组合，在Switchboard 识别任务上获得突破。受机器学习组合技术的启发，这一系统使用了一系列卷积和递归神经网络。 I-vector 建模和 lattice-free MMI 训练，为所有的声学模型架构提供了显著的帮助。使用多个前向和后向运行的RNNLMs，语言模型可以rescoring，此外，一个基于词后的系统的融入，能提供20%的提升。使用一个ResNet 架构声学模型，加上RNNLM rescoring，在NIST 2000 Switchboard 任务上的错误率为6.9%。组合的系统错误率为6.3%，代表了在这一基准任务上对此前任务的一个提升。

作者：W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu, G. Zweig

进入新智元后台，回复“0914”下载论文。

AI WORLD 抢先看
神秘中国“大狗”机器人亮相2016世界人工智能大会
看过美国波士顿动力大狗机器人意犹未尽？其实，我国“四足仿生机器人”的研究也早在几年前开展，
神秘的国产机器人大狗将亮相北京·AI WORLD 2016大会现场
先来一睹为快

机器人大狗来自山东大学，负载能力超过80kg，运动速度达1.8m/s，由我国自主研发，技术水平国际领先。
山东大学李贻斌教授
大会还特别邀请到山东大学机器人研究中心主任李贻斌教授在AI WORLD2016-技术分论坛分享“中国大狗”的研发之路。想近距离接触机器人大狗，了解大狗背后的故事？
『AI WORLD 2016 世界人工智能大会』10月18日·北京·国家会议中心我们不见不散！
戳阅读原文，启航期5折抢票，倒计时5天

反向激励，在加速这个社会的黑化

从俄核泄露看信息的不透明

周末大瓜 | 被指受贿、嫖娼、婚外恋：中央音乐学院系主任遭“同门”前任实名举报

受贿、嫖娼、婚外情：中央音乐学院系主任遭“同门”实名举报

涉嫌学术不端！福建一人被通报