翻译人机大战中,评委竟然是……
之前小线菌和大家聊了聊技术的发展史,见证了机器翻译从基于规则到基于统计模型到基于神经网络的演变(戳这里复习:机器翻译的技术进化史——机器翻译专题(一))。
然而在整个演变中,不可或缺的除了技术的进步本身,还有着评价体系的建立与不断完善。究竟什么才是好的翻译?如何针对大量的机器翻译数据快速给出客观公正的评价?这样的评价体系是否真的“客观公正”,是否能真的代表人类阅读的体验和感受?
今天,小线菌想和你一探机器翻译评分的究竟。
小线菌在正式开始讨论之前,小线菌想邀请你做一道选择题,从下列的三个译文中选出你觉得最为准确优雅的一个。
原文: In an added irony, the announcement came on the same day that Mr Trump was due to sign into law new tariffs on imports of solar cells and washing machines - his first significant move to erect trade barriers.
翻译一:更具讽刺意味的是,特朗普宣布将在同一天签署新的太阳能电池和洗衣机进口关税法案,这是他为建立贸易壁垒而采取的第一项重大举措。
翻译二:额外的一个讽刺是,上述消息宣布的同一天,特朗普签署了对进口太阳能电池板和洗衣机征收新关税的法案——这是他设置贸易壁垒的首个重大举措。
翻译三:另外还有一个讽刺,那就是特朗普应该签署关于进口太阳能电池和洗衣机的新关税的同一天,这是他第一个设置贸易壁垒的重大举措。
上述选择节选自试译宝与Financial Times共同推出的人机(翻译)大战活动。
而在上述这道选择中,选择翻译一的人数约为选择翻译二的人数的两倍。
事实上,
翻译一来自搜狗机器翻译;
翻译三来自谷歌翻译,
而翻译二则是由FT的编辑进行的人工翻译。
也就是说,至少在这句句子上,认为机器翻译的比人好的占到了绝大多数。从过往的60场人机翻译战役来看,这一现象并不是偶然。事实上,总体而言,机器翻译已经成为了翻译市场中不可小视的中坚力量。
可是如果我们抛开机器的参与,只是单纯考虑翻译评分这事,我们就必然会意识到,对于翻译的评分是很难有客观标准的。很多时候,评分人或者阅读者也会有自己强烈的主观喜好。那么在我们尚不能准确客观地评价人类的翻译好坏的时候,我们要如何才能对机器翻译地好坏做出一个界定呢?
一个简单直白的答案是人工主观来判断。根据微软VTTChallenge2016,人工主观打分能更好地评价流畅度、相关性、助盲性。这三个重要指标能够呈现翻译是否逻辑通常具有可读性,是否与原段落有着很强的关联性,以及对于缺乏背景知识的人而言的理解容易程度。尽管有一定的优点,但人工判断有着两个很大的缺陷。一则人工判断太为主观,很难用作稳定的、统一的评价标准,二则时间与经济成本均极高,在大规模的机器翻译评分中很难起到作用。
在人工判断不达标,然而机器翻译的需求日益增长的双重因素下,用机器方法来评价机器翻译的成果的技术应运而生。市面上较为主流的评价指标有BLEU(并不是BLUE),Rouge,Meteor,CIDEr等。在这里,我们将为大家介绍使用最为普遍的指标:BLEU与Meteor。
BLEU (Bilingual Evaluation Understudy)最早由IBM提出,重点关注机器译文与参考译文的相似程度。这一算法的核心思想是比较机器译文中单词与词组与参考译文的重合程度,并通过引入BP (Brevity Peanlty) 来解决算法本身对于短文本的倾向性。Meteor同时考虑了基于整个语料库上的准确率和召回率,并且将同义词纳入了考虑。但总体而言,两种评价机制在遇到长难句的时候往往只关注细节,而很难将句法和句子内容相关度纳入评价指标。
这一现状类似与机器翻译技术发展到基于统计模型时的瓶颈。或许将神经网络的方法纳入评价体系的算法将可以优化这一技术,并且在将来对机器翻译作出更全面的评价。
用机器给机器翻译评分,来判断人类的阅读感受,似乎听上去充满了荒谬。
机器能够读取信息,这没什么。可是如果机器能够将这些信息里深藏着的逻辑挖掘出来,通过”理解",将一种语言“信、达、雅”地翻译成另一种,机器就获取了真正打开人类世界大的钥匙。如果机器已经能够感受到人类的感受,那机器是不是就能在未来的某一天取代一部分人类来为另一部分人类提供服务?
至少从今天的技术而言,这还不是事实。
尽管机器可以给机器翻译评分,但这评分是基于机译与人类翻译的相似程度,而非从各指标来直接判断这翻译的好坏。这说明机器只能获取信息,还未能做到真正的“理解"。而在此类算法上推演出的机器翻译技术进步,也还只是尽可能地贴近人类的翻译,在长难句的流畅度上还远远不及。
但是,请别忘了文章开头提到的那个例子:机器翻译正在快速地崛起中。说不定在不远地将来,对于信息类文章,我们就会更偏好机器的翻译版本。撇开对技术发展的惊叹,我们将有望通过这类工具更好地提升工作效率。
讲到这里,希望大家都对机器翻译有了初步的印象与了解。
机器翻译对人工翻译市场会有怎样的冲击和影响呢?各大机器翻译厂商都处于怎样的地位,会怎样实现机器翻译的商业应用呢?
我们下期再见。
参考资料:
K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a method for automatic evaluation of machine translation,” in ACL, 2002.
M. Denkowski and A. Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in EACL Workshop on Statistical Machine Translation, 2014.
五分钟,你可以掌握一个科学知识。
五分钟,你可以了解一个科技热点。
五分钟,你可以近观一个极客故事。
精确解构科技知识,个性表达投融观点。
欢迎关注线性资本。
Linear Path, Nonlinear Growth。