其他
来源:arXiv编译:Bot编者按:今天外网有一篇论文非常火,它提出了一种序列到序列预测的新方法,无需编码器和解码器,只用一个2D卷积神经网络就能超过现有方法的性能。当然,论文内容绝不是点赞的唯一理由……重点是,真的好萌摘要当前最先进的机器翻译系统都基于Encoder-Decoder框架:输入序列后,系统先对序列进行编码,然后基于输入序列的编码生成输出序列。为了让系统能基于解码器状态重新组合源语句单词的固定编码,现在编码器和解码器中间往往会有一个注意力模型。我们提出了一种替代方法,它依赖于跨两个序列的单个2D卷积神经网络。网络的每一层都会根据到目前为止产生的输出序列重新编码源语句单词。因此,其实类似注意力的属性在整个网络中都是普遍存在的。实验证明,我们的模型产生了出色的结果,它优于最先进的Encoder-Decoder框架,同时,它在概念上更简单,参数也更少。简介现如今,深层神经网络对自然语言处理技术产生了深远的影响,其中以机器翻译(MT)最为明显。这是一种序列到序列的预测问题,解决它的最先进方法是使用带注意力模块的编码器-解码器模型。注意力模块能在解码过程中重复地重新访问源序列,提高模型的预测效率和精度。但是,注意力机制存在局限。它的常规做法是在源语句上做简单加权,用到的权重也只是源单词和目标单词之间的浅匹配结果。它只能重新组合相同的源单词编码,在解码时并不能重新编码,也无法重新解释源序列。为了解决这些局限,我们提出了一种基于深层2D卷积神经网络(CNN)的新方法。它和图像、音频生成模型的自回归模型类似,用源序列和目标序列的输出空间定义网络中的2D网格,同时禁止卷积filter从目标序列的单词中获得未来信息。具体如下图所示:卷积层的filter大小是3×3,它只能根据先前的输出计算,不能读取目标序列内容。图中深蓝色表示一层感受野,浅蓝色是二层感受野,灰色部分是filter被禁止查看的部分输入源-目标张量:设给定源语句的长度为|s|,目标对(s,