机器翻译质量评估:人工评估 vs 自动评估
本文转载自翻译技术沙龙
一、机器翻译质量自动评估指标
对机器翻译进行质量评估是提高机器翻译质量的关键。但是,衡量机器翻译(MT)质量的最佳指标是什么呢?
衡量机器翻译(MT)质量的方法有两种类型:人工评估和自动评估。人工综合评估往往是最有效的解决方案,但也主观性强、耗时长、花费高昂。因此,行业学者引入了标准的、自动的指标来衡量 MT 的表现。许多研究表明,这些指标产出的结果甚至能和人工评估相差无几。
随着神经机器翻译(NMT)的出现,对数据驱动的 MT 质量量化方法的需求不断增长。NMT 的输出特性明显不同于统计机器翻译(SMT),因此研究人员正在寻找新的指标,以便更可靠地评估神经机器翻译的质量。
”
指标一:BLEU
BLEU 评分是业内第一个常用的评估指标,其原理是比较机器翻译和人工翻译。假设一个文档由人工翻译一次,由机器翻译一次,BLEU的值为同时出现在机器翻译和人工翻译中的单词的比例。
BLEU在10到15年前普及时,人们都认为这种方法和人工的质量评估最为相似。该方法广为应用,尽管有着众所周知的局限性。例如,它不能很好地处理同义词或语法上的单词变化,而且也非常不平衡,因为只进行从机器翻译到人工翻译一个方向的比较。
指标二:METEOR
METEOR 的算法更加细致,因为它不仅双向比较了机器翻译和人工翻译,而且还考虑到了语言语法等因素。与BLEU不同, METEOR考虑到了语言的变化性。在英语中,ride 或 riding 在BLEU方法中算作不同的词,但在 METEOR 中它们算作同一个单词,因为词根相同。
二、译后编辑质量自动评估指标
评估译后编辑的重要部分是比较机器翻译译文和译后编辑译文的差异,用的指标是改动的数量,其中改动包括删减、替换和增加单词。通过一个公式,计算改动的数量,并给出一个数值结果。
那么,常用的评估译后编辑手段有哪些呢?
Levenshtein Distance 算法(编辑距离算法)
Levenshtein Distance 算法(编辑距离算法)可计算机器翻译译文和译后编辑译文的差别。举个例子,如果机器翻译输出是“the cat is barking”,译后编辑将其修改为“the dog is barking”。那么差异值是6,因为从“cat”改到“dog”,删掉了3个字母、增加了3个字母,然后用整个部分的字母数除以6,得到一个百分比的结果。
TER (Translation Edit Rate)
TER方法与“编辑距离算法”的不同在于,“编辑距离算法”计算字符级别的变化数量(即字符的增删、替换),而TER方法基于编辑的次数、而非基于字符变化的数量,计算译文变化的类型。
在“the cat is barking”与“the dog is barking”的例子中,“编辑距离算法”既计算了被删的3个字符,也计入了增加的3个字符;而TER只识别出一处替换:也就是一个字符串被另一个字符串替换,这个字符串有三个长度。因此,它计入一次长度为三个字符的编辑。
因此, 在实际上只进行了一次长编辑的情况下,Levenshtein 实际上可能高估译后编辑的幅度——例如,如果你在长句的各处替换一两个字符,Levenshtein 不能分辨出这种编辑与重写整个句子之间的差异。在这种情况下, TER 更可靠,因为它的逻辑更符合实际的译后编辑。
三、机器翻译的质量评估:人工评估还是自动评估?
自动化评估的目的是模仿人工评估的结果。但最终,自动化评估只能显示机器翻译与人工翻译或编辑后翻译之间差异的百分比。
相反,人工评估可以更加精细,人类可以给出更详细的机器翻译质量概述。我们通常使用 TAUS DQF 基准来指导人工评估,在此过程中,我们可以更好地了解语言质量的不同方面,比如准确性(信息传递的好坏)和流畅性(拼写和语法),而自动化度量返回的单个数字更容易准确性高。
流畅度更难衡量,因为语言的流畅度是主观的。但是,我们可以通过开发自动化的指标,检测同时出现的单词词组,即n-grams (其中“ n ”代表连续出现的单词的数量)。理论上, 机器翻译和人类翻译中出现的相同词序的词组越长,机器翻译译文就越流畅。
Ref:
英文原文:https://www.rws.com/insights/rws-moravia-blog/interview-with-an-expert-how-do-you-measure-mt/#
封面图:https://www.entrepreneur.com/
往期精彩回顾
用导图读论文 | 王华树 刘世界:人工智能时代翻译技术转向研究