WMT 2019国际机器翻译大赛：微软亚洲研究院以7项第一成为冠军

Original 微软亚洲研究院微软研究院AI头条 2020-02-14

近日，由国际计算语言学协会ACL（The Association for Computational Linguistics）举办的WMT 2019国际机器翻译比赛的客观评测结果揭晓（点击文末阅读原文查看），微软亚洲研究院机器学习组在参加的11项机器翻译任务中，有7项获得了第一名，另外4项获得第二名，凭借多维度的技术创新成为冠军团队。

图片来自大赛网站，横向为源语种，纵向为目标语种

比赛结果遥遥领先：７项任务获第一，４项任务获第二

WMT的全称为 Conference on Machine Translation (http://www.statmt.org/wmt19/)，是全球学术界公认的国际顶级机器翻译比赛。自2006年至今，WMT机器翻译比赛已经成功举办14届，每一次比赛都是全球各大高校、科技公司与学术机构展示自身机器翻译实力的较量，更是见证了机器翻译技术的不断进步。

在本届WMT 2019大赛中（http://www.statmt.org/wmt19/translation-task.html），共有来自全球的50多支队伍参加，包括微软、Facebook、百度、字节跳动、平安、日本情报通信研究机构（NICT）等企业、科研机构和高校。大赛共设置了19项不同语言之间的翻译任务，微软亚洲研究院参加了11项，其中7项翻译任务荣获第一，包括：德语－英语、德语－法语、法语－德语、中文－英语、英语－立陶宛语、英语－芬兰语、俄语－英语。另外4项任务获得第二，包括：英语－德语、立陶宛语－英语、芬兰语－英语、英语－哈萨克语。来自微软的另外一支团队则在英语-德语的任务上获得了第一名。

结果显示，此次大赛的亚军团队在3项任务中获得了第一，季军团队则有两项获得第一，来自微软亚洲研究院的神经网络机器翻译算法的表现遥遥领先于其他参赛队伍。

多维度的算法改进，让机器翻译更优秀

2018年3月，由微软亚洲研究院与微软雷德蒙研究院共同研发的机器翻译系统便在WMT 2017大会上发布的通用新闻报道测试newstest2017的中-英测试集上，达到了可与人工翻译媲美的水平。该机器翻译系统融合了微软亚洲研究院机器学习组的最近研究成果——对偶学习（Dual Learning）和推敲网络（Deliberation Networks），以及自然语言计算组的最新技术——联合训练（Joint Training）和一致性规范（Agreement Regularization），成为首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统。

在WMT 2019的比赛中，微软亚洲研究院机器学习组再次将多个创新的算法运用在了机器翻译的任务中，从学习机制、预训练、网络架构优化、数据增强等方面，大大提升了机器翻译结果的质量。

此次使用的创新算法包括：

• MADL：Multi-agent dual learning，多体对偶学习

• MASS：Masked sequence to sequence pre-training，屏蔽序列到序列的预训练

• NAO：Automatic neural architecture optimization，自动神经网络架构优化

• SCA：Soft contextual data augmentation，软性上下文数据增强

其中，关于NAO的论文已被NIPS 2018收录，关于MADL的论文已被ICLR 2019收录，关于MASS的论文则被ICML 2019收录。

新的学习机制：MADL多体对偶学习

在机器翻译中，训练数据的数据量越大、质量越高，其训练的翻译结果越好。基于对偶学习，创新的MADL算法利用正向与反向翻译的多个模型对单语数据进行前向和后向翻译并打分，然后将得分最高的数据放置到训练数据中从而获得更多高质量的数据，或者将单语数据的前向后向重建误差加入到损失函数里来增强学习过程。MADL不局限于某个语种，可以在任何源语种和目标语种之间提供这样的对偶学习能力。

更好的预训练：MASS屏蔽序列到序列的预训练

MASS是针对序列生成设计的预训练算法，比BERT以及GPT/2更加通用。BERT模型通常是屏蔽掉句子中的一个单词，然后通过分类来预测这个词；GPT模型是给定前面的词，通过分类生成后面的词，直至一句话或整篇文档；两者都是预训练一个编码器。而翻译则是基于编码器-解码器-注意力框架，因此BERT和GPT/2并不能很好地适用于翻译任务。但MASS则能将句子中的部分连续片断随机屏蔽，然后训练一个编码器-解码器-注意力模型预测生成该片断，从而利用海量单语数据预训练然后初始化翻译模型。因此，MASS比BERT和GPT/2都更适用于机器翻译这个应用场景。实验证明，MASS屏蔽翻译句子中50%的片断效果最好。

网络架构优化: NAO自动神经网络架构优化

NAO是从神经网络结构优化的角度去提升机器翻译水平。不同的网络结构通常对于翻译结果有着较大影响，NAO把离散的网络结构嵌入到连续的向量空间，从而通过连续优化找到更好的网络结构。与固定的Transformer相比，NAO可以找到更多样的网络结构，和Transformer形成互补优势，使得机器翻译多模型集成的结果更佳。

数据增强：SCA软性上下文数据增强

所谓SCA软性上下文数据增强，是在双语训练数据中随机屏蔽某个词，再基于语言模型利用上下文来预测这个词，随后选择概率最高的几个词，根据预测概率把这些预测的词线性组合到一起，替换原来被屏蔽的词。这样一个句子/句对可以生成多个句子/句对，同一个句子的翻译就可以出现多个合理的翻译结果，这也与实际翻译过程中翻译结果并不唯一这一事实相吻合。通过如此软性上下文数据增强，从而扩大训练数据的规模，增强数据质量，得到更好的翻译结果。

在此次的11项机器翻译任务中，微软亚洲研究院的研究员们在每个翻译任务上采用了上述不同的技术，便已取得了不俗的成绩。未来，研究团队计划将这四个层面的创新技术整合，并且通过与微软翻译产品部门的合作，将新技术尽快转化到微软翻译产品中。

机器学习组招聘

研究员和研发工程师

工作性质：全职员工

研究领域：深度学习，强化学习

工作地点：北京或上海

工作职责：

参与深度学习、强化学习的算法研究、开发
参与深度学习、强化学习算法的实践应用
参与开源项目的开发和应用
面对大规模数据下深度学习/强化学习的挑战，提高现有算法的效率和准确度

任职要求：

计算机或相关专业
具备良好的数学基础，深度学习或强化学习知识
具有较强的编程实现能力，良好的沟通能力和团队协作精神
对科学研究或工程开发有激情
研究员职位：有机器学习、人工智能、自然语言处理或者计算机视觉顶级会议论文
研发工程师职位：使用过深度学习框架(PyTorch, TensorFlow 等), 有开源软件开发经历

如有意向请发简历至：taoqin@microsoft.com

你也许还想看：

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天