机器翻译译后编辑 |《 What Do Post-editors Correct? 》文献推介
What Do Post-editors Correct? A Fine-grained Analysis of SMT and NMT Errors
作者:Sergi Alvarez-Vidal,Antoni Oliver,Toni Badia
摘要随着神经机器翻译的不断发展,机器翻译出现由统计机器翻译到神经机器翻译的技术转向。若想要评估不同机器翻译模型对于译后编辑的影响以及了解机翻结果的特点,那么需要分析机翻译文中常见的错误类型以及这些错误对译后编辑的影响。
研究者开展了一项针对机器翻译细粒度分析的试点研究。该研究基于医学文本,先使用统计机器翻译和神经机器翻译将其从英语翻译成西班牙语,再对译文进行译后编辑。本文依托多维质量标准(MQM)对译后编辑中修正的错误进行了分类。尽管不同译员的译后编辑结果各异,但是研究仍体现出译后编辑中神经机器翻译译文修正的错误更少。与统计机器翻译译文相比,神经机器翻译译文的“准确性”类错误更少,且整体上,其错误的严重程度更低。
关键词
机器翻译;神经机器翻译;译后编辑;错误分类
研究背景
相比于人工翻译,机器翻译译后编辑在保证翻译质量的前提下生产力更高、成本消耗更低,已普遍应用于翻译行业。同时,技术发展促进机器翻译的进步,统计机器翻译逐渐转向神经机器翻译。有研究证明神经机器翻译表现要优于统计机器翻译,输出的译文更加流畅、错误更少。但现有的机翻译文质量评估多使用自动评估指标或人工评估,缺少对错误的细致分析。译文中的错误不仅反映出机器翻译的质量,不同的错误类型还会对译后编辑造成不同影响。有的错误虽然易于被发现,但修改起来并不容易。基于此背景,本文旨在对比研究在译后编辑的过程中神经机器翻译与统计机器翻译的错误类型,以及分析不同译者对相同机器翻译结果的译后编辑差异。
研究过程
1. 创建机器翻译系统
研究者选取若干公开的英西医学语料库以及网站中抓取医学内容,创建医学领域常用术语表,并建立总句段为2836580的领域专用语料库作为训练文本。使用ModernMT 2.4来训练医学领域的统计和神经机器翻译系统。
2. 评估机器翻译系统
研究者以Apertium与Google翻译为参照,使用MTEval软件评估了训练后的机器翻译系统,分别为基于短语的统计机翻系统(不考虑上下文)、基于短语的统计机翻系统(考虑上下文)、神经机器翻译系统(不考虑上下文)、神经机器翻译系统(考虑上下文),该软件可以计算单一参考下的BLEU,NIST,RIBES和WER值。
表1(本文表格均为原文截图)
结果显示,除个别数据外,训练出的机翻系统整体上要优于参照机翻系统。其中,神经机器翻译系统要优于基于短语的统计机器翻译系统。通过数据分析发现,在训练中是否考虑上下文语境对机器翻译系统的影响并不明显。基于实验结果,研究者采用考虑上下文的统计机器翻译与神经机器翻译系统来用于后续研究。
3. 机器翻译与译后编辑
研究者使用这两个机器翻译模型来翻译一篇2018年详细介绍肿瘤治疗新方法的医学论文(共791词),并邀请四位具有5-10年翻译经验、3-6年医学领域译后编辑经验的专业译者使用PET工具来对译文进行译后编辑。每篇译文对应两位译者,并追踪他们的修改过程。
4. 错误分类
研究者使用多维质量标准(MQM),将译后编辑中修正的错误按“准确性”、“流畅性”、“风格”以及“术语”四方面进行分类。分类后,统计各类别错误个数,并分别统计机器翻译与神经机器翻译的平均值以及错误的总数。
实验结果显示,在对统计机器翻译产生的译文进行译后编辑时,译者间表现出显著差异,相比之下,不同译者对神经机器翻译产生的译文进行译后编辑的结果则更加一致。
对比分析发现,神经机器翻译译文的错误修正数量平均值小于统计机器翻译,但结果缺乏统计学意义。
最显著的差别体现在“准确”类型的错误,神经机器翻译系统没有出现漏译的情况。
与前人的研究相符,机器翻译通常会展现出较多术语相关的错误。相比之下,译者在神经机器翻译中需要修正的术语错误更多。
考虑到风格方面的错误会受到译者主观判断的影响,如果将风格方面的错误修正排除在外,神经机器翻译的总错误修正数更少(统计机翻:128;神经机翻:119.5)。
表2
5. 错误程度分级与错误比例
研究者将修正的错误按照“普通”、“轻微”、“重大”及“严重”四个等级进行分级评估,发现神经机器翻译译文中“严重”等级的错误明显较少。该分级结果与前面对两者“准确性”的统计结果展现出关联性,体现了神经机器翻译在语意再现方面表现更好。
表3
最后,研究者通过计算修正的词数/修正后文本的总词数,来计算每次译后编辑的修正错误比例。结果显示,虽然统计机器翻译之间存在很大的差异,但两者译后编辑的更正平均值(25.6%)仍略高于神经机器翻译译后编辑对应的平均值(23.1%)。
表4
6. 结论与讨论
在本次医学文本英译西的翻译研究中,神经机器翻译译文错误相对较少,尤其是在漏译和错误方面,表现优于统计机器翻译。尽管神经机器翻译译文通常比统计机器翻译更加流利,但是在本研究中,两者“流畅性”错误平均值大致相同,风格方面的修正数量也相当。神经机器翻译更好地传达了源语意,但在医学领域文本中,其翻译质量距离出版级水平仍有一定差距。
同时,译者在译后编辑的过程中表现各异。尽管每篇译文仅有两名译员来进行译后编辑,我们仍能观察出修正次数更多的译后编辑版本往往会在“正确性”、“流畅性”和“风格”方面修改增多。“术语”类别的修正又另当别论。当聚焦于“流畅性”修改类别时,可以看出最大的分歧在于词序和介词使用。
未来研究者计划增加译后编辑人数,进一步研究译者在译后编辑中的多样性并聚焦于译后编辑过程中特定的错误类型。同时,还会丰富错误标注的领域和语言对,以获得更多译后编辑语料。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
- END -
翻译技术教育与研究——机器翻译译后编辑专题组致力于普及机器翻译译后编辑(MTPE)相关知识,追踪国内外机器翻译译后编辑教学与研究动态!
原文作者:路佳宁
推文编辑:鲁金桥
指导/审核:王雪红 肖志清
项目统筹:李鸣晨
资讯推荐
▶ MTPE专题推文机器翻译译后编辑 | 《基于神经机器翻译的科技文本译后编辑模式研究》文献推介机器翻译译后编辑 | 人工智能时代的译后编辑能力研究机器翻译译后编辑 | 《译后编辑及其研究简史》文献推介机器翻译译后编辑 | Lynne Bowker机器翻译素养机器翻译译后编辑 | 《ChatGPT时代机器翻译译后编辑能力培养模式研究》文献推介机器翻译译后编辑 | 《国际机器翻译译后编辑认知研究路线图(2011—2021)》文献推介机器翻译译后编辑 | 《译后编辑的能力结构与课程设置——基于国外译后编辑课程的前沿分析》文献推介机器翻译译后编辑 | 《翻译修改与译后编辑》书籍推介2机器翻译译后编辑 | 《翻译修改与译后编辑:行业实践和认知过程》书籍推介机器翻译译后编辑 | A short guide to post-editing 书籍推介 9机器翻译译后编辑 | 《机器翻译译后编辑》文献推介 (上)机器翻译译后编辑 | A short guide to post-editing 书籍推介 8机器翻译译后编辑 | A short guide to post-editing 书籍推介 7机器翻译译后编辑 | A short guide to post-editing 书籍推介 6机器翻译译后编辑 | A short guide to post-editing 书籍推介 5 机器翻译译后编辑 | 《人工智能辅助译后编辑新方向——基于ChatGPT的翻译实例研究》文献分享机器翻译译后编辑 | A short guide to post-editing 书籍推介 4机器翻译译后编辑 | A short guide to post-editing 书籍推介 3机器翻译译后编辑 | 《机器翻译视角下的翻译本质》文献分享机器翻译译后编辑 | A short guide to post-editing 书籍推介 2机器翻译译后编辑 | A short guide to post-editing 书籍推介 1