查看原文
其他

Google发布神经机器翻译系统,误差最高减少85%

2016-09-28 谷歌黑板报 谷歌黑板报


机器智能的快速发展已经给语音识别和图像识别能力带来了巨大的提升,但改进机器翻译仍然是一个极具挑战的目标。



今天,Google发布神经机器翻译(GNMT:Google Neural Machine Translation)系统,该系统使用了当前最先进的训练技术,大幅提升了机器翻译水平,将翻译误差降低了 55%-85%




十年前,Google发布了Google Translate,这项服务背后的核心算法是基于短语的机器翻译,将输入句子分解成词和短语,然后对它们进行独立翻译,而神经机器翻译则将输入的句子作为一个整体翻译。


下面的动图展示了Google神经机器翻译的中英翻译过程。首先,将这句中文的词编码成一个向量列表,其中每个向量都表示了到目前为止所有被读取到的词的含义(编码器“Encoder”)。读取完整个句子,解码器就开始工作——一次生成英语句子的一个词(解码器“Decoder”)。




为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关编码的中文向量的权重分布(注意“Attention”;蓝色连线的透明度表示解码器对一个被编码的词的注意程度)。


在被首次提出时,神经机器翻译系统在中等规模的数据集上就与基于短语的翻译系统水平相当。现在,Google通过让神经机器翻译战胜在非常大型的数据集上工作的许多挑战,打造了这一在速度和准确度上都已经足够为用户带来更好翻译的系统。




但机器翻译的问题并没有完全解决。Google神经机器翻译系统仍然会犯一些人类译员不会出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或上下文。


为了给用户带来更好的服务,Google还有更多的工作要做。但Google神经机器翻译仍代表着一个重大的里程碑,Google希望与过去几年在这个研究方向上有所贡献的研究者和工程师们一起庆祝它的诞生。


目前, Google神经机器翻译系统已投入到了中文-英语的翻译中。现在,移动版和网页版的 Google Translate 的中英翻译已完全使用神经机器翻译——每天大约 1800 万条翻译。中文到英语的翻译是 Google Translate 所支持的超过 10000 种语言对中的一种,在未来几个月,Google还将继续把神经翻译系统扩展到更多的语言对上,为用户提供更优质的服务!






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存