查看原文
其他

神器?神话?谷歌翻译又出来赚眼球了

2016-09-29 语言锋标 锋标



昨天晚上十点钟,锋标君刚刚用尽洪荒之力听译完半个小时的专访稿,亲爱的老师便发来一条新闻链接,标题是:谷歌发布神经机器翻译,直追人工译者


纳尼?谷歌发神经了?


噢不是,是发明了一种新的机器翻译模式,“比起之前基于短语的翻译系统,在翻译多种语言时,神经学习翻译系统的错误率已经降低了60%,其中包括英法互译,英西互译以及英汉互译。附加实验的结果显示,翻译系统的质量将和笔译人员平均水准更加接近。”


纳尼?这个消息为什么不提早两小时告诉我?简直欲哭无泪。




神器真的不是新笑点?


好吧,这个新闻很快会扩散,并且标题会演变成“效果直追同声传译”,“取代人力翻译”,“翻译可以下岗了”云云。这种现象叫标题党的“套路”,昨天,小苏打君已经给大家详尽解释了什么是“套路”,想温习的同学请戳这里:一封来自“小苏打君”的深情表白


今天早上我打开电脑搜索,果然:







大家是有多希望翻译人员下岗,看着他们微微翻动嘴皮或是轻轻敲击键盘就把我们搞不懂的事解决了,想想都来气呀。


心塞归心塞,可惜那些又双叒叕次传出新闻,发布声明,声称能取代人工翻译的各大科技公司的机器翻译们,到目前为止,给人们留下的最宝贵遗产似乎还是:各,种,段,子。


比如这个:


这个:




还有这个:



容我大笑三声。“chicken without sex”被广泛传播后,现在已改译成“spring chicken”(春鸡)了(事实上,中式烹饪中所用的童子鸡,确实是指生长刚成熟但未配育过的小公鸡)。


机器翻译到底是怎么给出这些光怪陆离,惊天地泣鬼神的翻译结果的呢?我们需要先来了解一下电脑进行多语种翻译的工作原理。




规则翻译(RBMT)和统计翻译(SMT)




机翻不是单纯地照搬词典,而是在浏览器内部进行了非常复杂的处理。其原理大致基于规则翻译(RBMT)和统计翻译(SMT)两种。


基于规则翻译,是运用输入了所有语言词典的“单词数据库”。工程师将名词复数,动词不定式等所有活用形式,全部录入到这个数据库里,然后程序基于各种语言的“语法”,把输入的内容翻译成其他语言。


例如,要翻译“孩子们吃小松饼”这句话,将其输入翻译软件后,程序就开始分析它的主语、谓语、宾语等语法成分。




接着软件开始分析词态(Morphology),将句子拆成冠词、名词词干、后缀等拥有最小意义的单位。




最后,程序逐个地分析单词在文中起到的作用,用目标语言所对应的单词和语法单位进行替换。




我们知道,各种语言的形态和语法规则千姿百态,一些语言的语法比较特殊,比如在德语中,即使单词顺序改变,只要词的形式不变,句子的意思也能说得通,但是在英语和汉语里,主语和宾语互换位置后,“孩子们吃小松饼”就变成了“小松饼吃孩子们”,句子意思完全不同了。还有,词态上也会存在翻译问题,例如斯洛文尼亚语“两个孩子”和“三个或更多的孩子”中的“孩子”的复数形式并不相同,而俄语没有定冠词,搞不清楚是“这些孩子吃了这些小松饼”,还是“随便什么孩子随便吃了些小松饼”。翻译“吃”这个单词时,不能正确分析出仅仅是“吃”(eat),还是“狼吞虎咽地吃”(devour),这些都是基于规则的机械翻译不能克服的缺陷。


机翻的另一个方法是基于统计翻译,就是把需要翻译的文章,和人工翻译的书以及文件的数据库结合起来进行翻译。基于统计翻译的翻译质量,由数据库的丰富程度决定,翻译重复的次数越多,翻译的准确度就越高。




用“神经网络”训练的谷歌翻译(钛媒体语)




十年前,谷歌推出谷歌翻译,其背后的核心算法是基于短语的机器翻译(PBMT:Phrase-Based Machine Translation)。现在,谷歌宣布发布谷歌神经机器翻译(GNMT:Google Neural Machine Translation)系统,该系统号称使用了当前最先进的训练技术,能够实现到目前为止机器翻译质量的最大提升。


刚开始,谷歌使用循环神经网络(RNN:Recurrent Neural Networks)来直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射 。其中基于短语的机器学习(PBMT)将输入句子分解成词和短语,然后很大程度上对它们进行独立地翻译,而神经机器翻译(NMT)则将整个输入句子视作翻译的基本单元。


这种方法的优点是:相比于之前的基于短语的翻译系统,这种方法所需的工程设计更少。当其首次被提出时,NMT 在中等规模的公共基准数据集上就达到了可与基于短语的翻译系统媲美的准确度。


后来,研究者又陆续推出了很多改进 NMT 的技术,其中包括模拟外部对准模型(external alignment model)来处理罕见词 ,使用注意(attention)来对准输入词和输出词 以及将词分解成更小的单元以应对罕见词。


谷歌克服了让 NMT 在非常大型的数据集上工作的许多挑战,以及如何打造一个在速度和准确度上都已经足够能为谷歌的用户和服务带来更好的翻译的系统。



下图展示了 GNMT 将一个汉语句子翻译成英语句子的过程。首先,该网络将该汉语句子的词编码成一个向量列表,其中每个向量都表征了到目前为止所有被读取到的词的含义(「编码器(Encoder)」)。一旦读取完整个句子,解码器就开始工作——一次生成英语句子的一个词(「解码器(Decoder)」。


为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关的编码的汉语向量的权重分布(「注意(Attention)」,蓝色链接的透明度表示解码器对一个被编码的词的注意程度)。




使用人类评估的并排比较作为一项标准,GNMT 系统得出的翻译相比于之前的基于短语的生产系统实现了极大的提升。在双语人类评估者的帮助下,谷歌在来自维基百科和新闻网站的样本句子上测定发现:GNMT 在多个主要语言对的翻译中将翻译误差降低了 55%-85% 以上。



系统产出一个翻译案例,其输入句子采样自一个新闻网站。


谷歌还宣布将 GNMT 投入到了一个非常困难的语言对(汉语-英语)的翻译的生产中。现在,移动版和网页版的 Google Translate 的汉英翻译已经在 100% 使用 GNMT 机器翻译了——每天大约 1800 万条翻译。


汉语到英语的翻译是 Google Translate 所支持的超过 10000 种语言对中的一种。谷歌宣布,在未来几个月,还将继续将GNMT 扩展到更多的语言对上。


最后,谷歌自己也承认,机器翻译还远未得到完全解决。GNMT 仍然会做出一些人类翻译者永远不出做出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或页面的上下文。为了给用户带来更好的服务,供应商还有更多的工作要做。但是,毕竟,GNMT 代表着一个重大的里程碑。

 

看完以后,锋标君一脸慈祥,对GNMT有了大致的了解,和广大吃瓜同学一样,迫不及待要试一试新的谷歌翻译器,希冀它最起码能在论文要求的英文摘要这方面拯救我们于水火。


于是发现了谷歌的实力:








图片来源:百度图片




 
猜你喜欢




  
本期撰稿人:孔婧炜 



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存