查看原文
其他

翻译技术资讯 | MT-Ranker,一个新的机器翻译评价系统

张梓琦 国际翻译动态
2024-09-10

自动评估机器翻译(MT)对于测量MT系统的进度很重要,与人工评估相比,它的主观性较低(更多信息请访问MT质量评价与估算的区别)。

然而,传统的方法将机器翻译评估视为一个回归问题,以产生绝对的翻译质量分数,在基于参考的评估的情况下可解释性、与人类注释者分数的一致性以及对参考对的依赖方面遇到了限制。

为了应对这些挑战,宾夕法尼亚州立大学的Ibraheem Muhammad Moosa、Rui Zhang和Wenpeng Yin在2024年1月30日的论文推出了MT-RankerMT-Ranker是一个系统,旨在直接预测给定对中的哪个翻译更好,而不是提供绝对的质量分数。

正如作者所解释的,所提出的方法将无参考MT评估公式化为成对排序问题。成对排序方法在很大程度上开发不足,以前的应用仅限于基于参考的评估场景。“我们是第一个将无参考的MT评估建模为成对排序问题,”他们说。


实用效用


作者强调,成对排序方法对于自动评估度量的最重要的用例是足够的:比较MT系统。它的优点是多方面的:

  • 简单,因为成对排序被认为比基于回归的评估更直接。

  • 在没有引用的场景中的适用性。

  • 减少对高质量手动注释的依赖。


“通过消除对人类提供的参考翻译和比较数据的依赖,我们的系统展示了增强的实用价值,”他们指出。


通过利用多语言T5的编码器作为他们模型的主干,作者探索了该模型的三种参数计数不断增加的变体:基本款(2.9亿)、大款(6亿)和超大款(55亿)。MT-Ranker使用多语言自然语言推理和合成数据(即,合成生成的翻译对,其中一个翻译可以被认为比另一个更好)通过三阶段训练过程在没有任何人工注释的情况下进行训练:

  • 间接监督预训练:这一阶段是对模型的间接监督,使其更喜欢与原文不矛盾的翻译。

  • 区分人工翻译和机器翻译的微调:在这个阶段,训练对是基于这样的假设构建的,即人类书写的参考翻译通常比机器翻译更好。

  • 对弱监督合成数据进行进一步微调,以解决基于参考的方法的局限性:为了解决前一阶段依赖参考翻译带来的潜在限制,作者对弱监督合成数据进行了进一步的微调。这一步骤的目的是减轻参考资料方法带来的偏差,并更全面地涵盖翻译质量范围。


ICLR 24#1:如何评价机器翻译?而不是学习一个如BLEU/T5Score那样的分数,这项工作(w/Prof。@瑞章_nlp)将其建模为一个排名问题,其论点是“我们真正关心的是一个系统是否优于其他系统”

链接:https://t.co/KxAHsBuu4Gpic.twitter.com/4M9QVSjo1H

-文鹏_Yin2024年1月31日




SOTA与人类判断的相关性



作者集中研究了七种X到英语和英语到X的语言对:捷克语</>英语、德语</>英语、日语</>英语、波兰语</>英语、俄语</>英语、泰米尔语</>英语,还有中文到英文。

该系统在基准数据集上进行评估,包括WMT20共享度量任务、MQM20、MQM21、MQM22和ACES。Kendall-like Tau相关性用于测量由MT-Ranker系统产生的排名和人类判断之间的相关性。

对比分析表现最佳的MT评估指标包括COMET-QE、OPENKIWI和T5-SCORE,展示了MT-Ranker在所有基准数据集和语言对中“与人类判断的最新相关性”。

GitHub上的代码的可用性进一步促进了MT社区内研发工作的透明度和可重复性。

机器翻译,轻度译后编辑,仅供参考。

原文链接:https://slator.com/meet-mt-ranker-new-machine-translation-evaluation-system/



特别说明:本文内容仅供学习交流使用,如有侵权请后台联系小编删除。



- END -



摘译编辑:张梓琦

推文编辑:刘艺聪‍‍‍‍

项目统筹:李梦轶  王雨晴


▶ 国际翻译动态

| 翻译公司篇 | TransPerfect简介

| 翻译公司篇 | 全球第2名 RWS如文思

| 翻译公司篇 | “收购狂魔”Keywords Studios

| 咨询机构篇 | Nimdzi Insights简介

| 咨询机构篇 | Slator 简介

| 咨询机构篇 | CSA Research 简介

| 行业机构篇 | 国际翻译家联盟FIT

| 行业机构篇 | 美国翻译协会ATA

| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau

| 翻译院校篇 | 明德大学蒙特雷国际研究学院(MIIS)

| 翻译院校篇 | 格拉斯哥大学

| 翻译院校篇 | 埃塞克斯大学

| 热点追踪 | ChatGPT的伦理问题(上)

热点追踪 | ChatGPT的伦理问题(下)


欢迎大家点赞关注,支持我们~

继续滑动看下一个
国际翻译动态
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存