翻译技术资讯 | MT-Ranker，一个新的机器翻译评价系统

张梓琦国际翻译动态

2024-09-10

自动评估机器翻译（MT）对于测量MT系统的进度很重要，与人工评估相比，它的主观性较低（更多信息请访问MT质量评价与估算的区别）。

然而，传统的方法将机器翻译评估视为一个回归问题，以产生绝对的翻译质量分数，在基于参考的评估的情况下可解释性、与人类注释者分数的一致性以及对参考对的依赖方面遇到了限制。

为了应对这些挑战，宾夕法尼亚州立大学的Ibraheem Muhammad Moosa、Rui Zhang和Wenpeng Yin在2024年1月30日的论文推出了MT-Ranker。MT-Ranker是一个系统，旨在直接预测给定对中的哪个翻译更好，而不是提供绝对的质量分数。

正如作者所解释的，所提出的方法将无参考MT评估公式化为成对排序问题。成对排序方法在很大程度上开发不足，以前的应用仅限于基于参考的评估场景。“我们是第一个将无参考的MT评估建模为成对排序问题，”他们说。

实用效用

作者强调，成对排序方法对于自动评估度量的最重要的用例是足够的：比较MT系统。它的优点是多方面的：

简单，因为成对排序被认为比基于回归的评估更直接。
在没有引用的场景中的适用性。
减少对高质量手动注释的依赖。

“通过消除对人类提供的参考翻译和比较数据的依赖，我们的系统展示了增强的实用价值，”他们指出。

通过利用多语言T5的编码器作为他们模型的主干，作者探索了该模型的三种参数计数不断增加的变体：基本款（2.9亿）、大款（6亿）和超大款（55亿）。MT-Ranker使用多语言自然语言推理和合成数据（即，合成生成的翻译对，其中一个翻译可以被认为比另一个更好）通过三阶段训练过程在没有任何人工注释的情况下进行训练：

间接监督预训练：这一阶段是对模型的间接监督，使其更喜欢与原文不矛盾的翻译。
区分人工翻译和机器翻译的微调：在这个阶段，训练对是基于这样的假设构建的，即人类书写的参考翻译通常比机器翻译更好。
对弱监督合成数据进行进一步微调，以解决基于参考的方法的局限性：为了解决前一阶段依赖参考翻译带来的潜在限制，作者对弱监督合成数据进行了进一步的微调。这一步骤的目的是减轻参考资料方法带来的偏差，并更全面地涵盖翻译质量范围。

ICLR 24#1：如何评价机器翻译？而不是学习一个如BLEU/T5Score那样的分数，这项工作（w/Prof。@瑞章_nlp）将其建模为一个排名问题，其论点是“我们真正关心的是一个系统是否优于其他系统”。

链接：https：//t.co/KxAHsBuu4Gpic.twitter.com/4M9QVSjo1H

-文鹏_Yin2024年1月31日

SOTA与人类判断的相关性

作者集中研究了七种X到英语和英语到X的语言对：捷克语</>英语、德语</>英语、日语</>英语、波兰语</>英语、俄语</>英语、泰米尔语</>英语，还有中文到英文。

该系统在基准数据集上进行评估，包括WMT20共享度量任务、MQM20、MQM21、MQM22和ACES。Kendall-like Tau相关性用于测量由MT-Ranker系统产生的排名和人类判断之间的相关性。

对比分析表现最佳的MT评估指标包括COMET-QE、OPENKIWI和T5-SCORE，展示了MT-Ranker在所有基准数据集和语言对中“与人类判断的最新相关性”。

GitHub上的代码的可用性进一步促进了MT社区内研发工作的透明度和可重复性。

机器翻译，轻度译后编辑，仅供参考。

原文链接:https://slator.com/meet-mt-ranker-new-machine-translation-evaluation-system/