翻译技术资讯 | MT-Ranker,一个新的机器翻译评价系统
自动评估机器翻译(MT)对于测量MT系统的进度很重要,与人工评估相比,它的主观性较低(更多信息请访问MT质量评价与估算的区别)。
然而,传统的方法将机器翻译评估视为一个回归问题,以产生绝对的翻译质量分数,在基于参考的评估的情况下可解释性、与人类注释者分数的一致性以及对参考对的依赖方面遇到了限制。
为了应对这些挑战,宾夕法尼亚州立大学的Ibraheem Muhammad Moosa、Rui Zhang和Wenpeng Yin在2024年1月30日的论文推出了MT-Ranker。MT-Ranker是一个系统,旨在直接预测给定对中的哪个翻译更好,而不是提供绝对的质量分数。
正如作者所解释的,所提出的方法将无参考MT评估公式化为成对排序问题。成对排序方法在很大程度上开发不足,以前的应用仅限于基于参考的评估场景。“我们是第一个将无参考的MT评估建模为成对排序问题,”他们说。
实用效用
作者强调,成对排序方法对于自动评估度量的最重要的用例是足够的:比较MT系统。它的优点是多方面的:
简单,因为成对排序被认为比基于回归的评估更直接。
在没有引用的场景中的适用性。
减少对高质量手动注释的依赖。
“通过消除对人类提供的参考翻译和比较数据的依赖,我们的系统展示了增强的实用价值,”他们指出。
通过利用多语言T5的编码器作为他们模型的主干,作者探索了该模型的三种参数计数不断增加的变体:基本款(2.9亿)、大款(6亿)和超大款(55亿)。MT-Ranker使用多语言自然语言推理和合成数据(即,合成生成的翻译对,其中一个翻译可以被认为比另一个更好)通过三阶段训练过程在没有任何人工注释的情况下进行训练:
间接监督预训练:这一阶段是对模型的间接监督,使其更喜欢与原文不矛盾的翻译。
区分人工翻译和机器翻译的微调:在这个阶段,训练对是基于这样的假设构建的,即人类书写的参考翻译通常比机器翻译更好。
对弱监督合成数据进行进一步微调,以解决基于参考的方法的局限性:为了解决前一阶段依赖参考翻译带来的潜在限制,作者对弱监督合成数据进行了进一步的微调。这一步骤的目的是减轻参考资料方法带来的偏差,并更全面地涵盖翻译质量范围。
ICLR 24#1:如何评价机器翻译?而不是学习一个如BLEU/T5Score那样的分数,这项工作(w/Prof。@瑞章_nlp)将其建模为一个排名问题,其论点是“我们真正关心的是一个系统是否优于其他系统”。
链接:https://t.co/KxAHsBuu4Gpic.twitter.com/4M9QVSjo1H
-文鹏_Yin2024年1月31日
SOTA与人类判断的相关性
作者集中研究了七种X到英语和英语到X的语言对:捷克语</>英语、德语</>英语、日语</>英语、波兰语</>英语、俄语</>英语、泰米尔语</>英语,还有中文到英文。
该系统在基准数据集上进行评估,包括WMT20共享度量任务、MQM20、MQM21、MQM22和ACES。Kendall-like Tau相关性用于测量由MT-Ranker系统产生的排名和人类判断之间的相关性。
对比分析表现最佳的MT评估指标包括COMET-QE、OPENKIWI和T5-SCORE,展示了MT-Ranker在所有基准数据集和语言对中“与人类判断的最新相关性”。
GitHub上的代码的可用性进一步促进了MT社区内研发工作的透明度和可重复性。
机器翻译,轻度译后编辑,仅供参考。
原文链接:https://slator.com/meet-mt-ranker-new-machine-translation-evaluation-system/
特别说明:本文内容仅供学习交流使用,如有侵权请后台联系小编删除。
- END -
摘译编辑:张梓琦
项目统筹:李梦轶 王雨晴
▶ 国际翻译动态
| 翻译公司篇 | “收购狂魔”Keywords Studios
| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau
欢迎大家点赞关注,支持我们~