谷歌神经网络研究报告：Transformer解决翻译难题

其他

谷歌神经网络研究报告：Transformer解决翻译难题

2017-09-01 人工智能学家

来源：亿欧

概要：神经网络通常通过生成固定的或变长的向量空间模型表示来处理语言。从单个单词或是部分单词的表示开始，神经网络便从周围的单词中收集信息，以确定上下文中特定语言的含义。

神经网络，特别是循环神经网络（RNNS），是语言建模、机器翻译和问答系统等语言理解任务的主要核心方法。本文介绍了Transformer，这是一种基于自我关注机制的新型神经网络架构，并且非常适用于语言理解。

神经网络，特别是循环神经网络（RNNS），是语言建模、机器翻译和问答系统等语言理解任务的主要核心方法。本文中我们将介绍Transformer，是一种基于自我关注机制的新型神经网络架构，并且非常适用于语言理解。

Transformer优于英语到德语及英语到法语之间翻译基准的反复性和卷积模型。对于更高的翻译质量而言，Transformer只需要较少的计算来进行训练，同时更加适合于现代机器学习硬件。

语言理解的准确性和效率

神经网络通常通过生成固定的或变长的向量空间模型表示来处理语言。从单个单词或是部分单词的表示开始，神经网络便从周围的单词中收集信息，以确定上下文中特定语言的含义。例如，在“I arrived at the bank after crossing the…”这句话中，要确定句中“bank”的意思代表“银行”还是“河岸”，那么就必须知道句子结尾是“路”还是“河”。

近年来，RNNs成为典型的翻译网络架构，以左向右或右向左的方式顺序处理语言。一次读一个单词，这迫使RNNs执行多个步骤来做出决定，这些决定依赖于这些不相连的单词之间的关系。在上述例子中，RNN只能通过逐步阅读“bank”和“river”之间的每个单词后才能确定“bank”在这里意味着“河岸”的意思。之前的研究表明，决策需要的步骤越多，循环网络就越难做出这些决定。

RNNs的顺序特性也使得充分利用诸如TPUs和GPUs等现代快速计算设备变得更加困难，因为这些设备擅长并行处理而不是顺序处理。卷积神经网络（CNNs）的序列比RNNs要少得多，但在CNN的架构中，要整合来自远端输入信息的步骤数量随着距离的增加而增多。

Transformer

相比之下，Transformer只需执行少量的、持续的步骤。在每个步骤中，它应用了一种可以直接与句子中所有单词建立关系的自我关注机制，且不需要考虑单词所在的位置。在上述例子中，“我过河后达到了河岸。（I arrived at the bank after crossing the river.）”这句话中，Transformer只需识别到““river”就能对“bank”的意思做出决策。

具体来讲，如果要计算出给定单词“bank”的意思，Transformer会将其与句子中的其他单词进行比较。这种比较的结果是对句子中的每个单词赋予其关注度得分。这些关注度分值决定了每一个单词对“bank”意思的贡献度。例如，消除歧义的单词“river”对“bank”表示“河岸”的意思做出巨大贡献值，也得到很高的关注度得分。这些关注度得分的加权平均值被输入到一个全连通的网络，从而生成“bank”的意思是与河岸相关。

机器翻译的神经网络通常包含一个编码器来读取输入语句并生成其表示。然后，译码器在咨询编码器生成的表示时，逐字生成输出的句子，这些由未填充的圆圈表示；然后通过自我关注，Transformer从所有其他的单词中聚合信息，在整个上下文中生成一个新的表示，由填充的圆圈表示；最后这个步骤并行重复多次，从而形成一个新的表示。

解码器运行规律类似，但每次都按照从左到右的顺序生成单词。它不仅包括之前生成的单词，还包括由编码器生成的最终表示。

信息传输

除了计算性能和更高的准确性以外，Transformer还能够形象化地显示如何处理给定的单词，以及信息是如何在网络中传输。

为了说明这一点，我们选取了一个众所周知的挑战机器翻译系统的案例：指代消除。让我们来看一下下面的句子及其法语翻译。

很明显，在第一个句子中，“it”指的是动物，第二个句子中，“it”指的是街道。

在将这些句子翻译成法语时，“it”的翻译取决于名词的阴阳性，而法语中的“animal”和“street”则有不同的属性。与现行的谷歌翻译模型不同的是，Transformer能将这两句话正确地翻译成法语。当计算“it”的最终表示时，Transformer注意到编码器所关注的单词，从而揭示了网络是如何做出决定的。在其中的一个步骤中，Transformer清楚地确定了“it”所指代的两个名词，并在不同语境中做出正确选择。

编码器将其自我关注分布在Transformer英译汉训练模型中的第5层和第6层。

鉴于此，Transformer在句法选区解析的经典语言分析任务中表现良好，也不足为奇，这也是自然语言处理群体几十年来针对高度专业化系统的突破。

谷歌自然语言理解部门的软件工程师Jakob Uszkoreit表示，我们对Transformer的未来潜力非常感兴趣，并且已经开始将其应用到其他问题，不仅包括自然语言，还包括不同的输入和输出，例如图像和视频。

反向激励，在加速这个社会的黑化

户外一姐不慎拍到“女主播X澡画面”！直播间已被封禁！本人回应，并透露封禁时长！

“我们的国关”主题视频征集活动最终评选结果公告

老娘是正宫，徐梦尧撕兰梦莎！天佑回应王冕登央视！

最快下个月直播？小团团二台爆出“正在搬家”！团团新家近况被爆！恐将被洗劫！