机器翻译译后编辑 | 《劳特里奇翻译技术34章-机器翻译译后编辑》文献推介 (下)
文献介绍
本篇文献摘自Routledge Encyclopedia of Translation Technology (2nd Edition),是该书第三部分的第34篇。
书籍链接
https://www.routledge.com/Routledge-Encyclopedia-of-Translation-Technology/Sin-wai/p/book/9780367767365#
作者简介
李梅,同济大学教授,留英博士、博士生导师。同济大学校务委员会委员、上海市科技翻译学会副理事长、上海市科协常务理事、中国译协理事、上海市杨浦区语言文字协会副会长、美国ETS中国唯一官方导师、《上海翻译》编委、《同济大学学报》(社科版)编委。近年来完成或正在进行的国家社科、教育部等省部级及以上(含联合国项目)科研项目8项。在《外语教学与研究》、《现代外语》、《中国翻译》等核心期刊上发表学术论文数十篇,出版专著、译著四部。
译后编辑工作
虽然越来越多的语言服务提供商(LSPs)已将译后编辑整合到翻译工作流程中,但只有很少一部分提供译后编辑作为独立的服务。这主要是因为译后编辑过程中涉及太多不确定因素。这些不确定因素包括:在进行译后编辑之前,机器翻译生成的文本应达到什么质量水平才能被接受,尤其重要的是,作为整个翻译过程的一部分,如何确定或估计在改进机器翻译译文时需要的人力投入。在评估人力投入时,应同时考虑到用于检测和确定对机器翻译文本进行修正的认知努力,以及实际执行修正所需的手动或技术努力。Krings(2001)提出了三种测量译后编辑努力的方法(自那以后已进行了大量研究),包括时间层面、技术层面和认知层面。
时间性工作是指译后编辑人员完成一项译后编辑任务所花费的时间,通常以每秒、每分钟或每天的字数来衡量。技术性工作与译后编辑人员对文本所做的实际编辑或更改的数量有关(例如插入、删除、剪切、粘贴)。这些更改,也被称为机器翻译生成文本与译后编辑文本之间的“编辑距离”,可以通过使用按键记录软件或评估指标来计算,比如莱文斯坦编辑距离(Levenshtein 1965)或翻译编辑率指标(Snover等人 2006),以及其他测量手段(Krings 2001;O’Brien 2005;Aikawa等人 2007)。认知性工作代表了编辑决策背后的思维过程,这不能直接观察到,但可以通过一些方法来估计,比如标准的认知指标,如有声思维报告(TAPs)、选择网络分析法(CAN)、停顿测量法、机器翻译错误分析法,以及近年来越来越频繁使用的键盘记录法和眼动追踪技术(Krings 2001;Timnikova 2010;Moorkens 2018)。
多年来,译后编辑研究主要集中在时间和技术努力方面,这些研究结果为译后编辑在工作场所的应用提供了基础。在上一节关于译后编辑效率的讨论中,我们已经详细探讨了时间性工作。至于技术性工作,编辑距离已被翻译服务提供商广泛接受,并被作为衡量译后编辑工作量的一种方式以及翻译报酬的一个重要参考。近年来,按键记录已成为记录编辑距离的有效方法,因为按键信息可以衡量译后编辑人员进行插入、删除、剪切、粘贴等操作时所用的总按键数,反映了在机器翻译译后编辑过程中所做的实质性和具体的语言变化。基本假设是,如果编辑距离的量越大,表示所做的修改越多,译后编辑过程中所需的努力就越大(Koglin 2015;Huang和Carl 2021)。在最新的研究中,Huang和Carl(2021年)开发了基于单词的人工编辑率(WHER)作为一种测量方法,通过使用眼动追踪和击键记录设备在词汇层面评估译后编辑工作。WHER源于HTER(Snover等 2006),用于测量句子层面的最小编辑距离,是HER的扩展,通过词对齐将目标语言词的编辑操作映射到相应的源文本位置。他们的实验涉及21名学生译员,要求他们完成英汉视听文本的译后编辑任务。在译后编辑过程中,按键信息被收集,作为技术努力实际量化的指标。WHER通过衡量每个英文源文本单词的最小中文目标文本编辑操作的数量,来评估WHER与译后编辑行为的相关程度,因此可能适用于估计译后编辑工作(Huang和Carl 2021)。
20世纪80年代初以来,认知性工作一直是翻译过程研究(TPR)的一个测量指标,但直到2001年,在Krings 将其作为衡量译后编辑努力的指标之后,它才与译后编辑工作相关联。他使用TAP(译后编辑人员对决定的有声评论)来发现MT中“补救给定缺陷”所需的“认知过程的类型和程度”(Moorkens 2018)。然而,TAP的一个显著问题是它会影响效率,因为没有使用TAP时的处理速度大致快了30%(Shreve和Diamond 1997;Krings 2001)。因此,我们需要寻求其他方法来评估认知性工作。随着现代技术的发展,越来越多的技术工具被应用于认知性工作的研究,包括按键记录和眼动追踪技术、功能性磁共振成像(fMRI)和脑电图(EEG),这些方法可以单独使用,也可以与其他方法结合使用(Chang 2009;Dragsted 2010;Moorkens 2018)。
自O’Brien(2006年)发表了她关于模糊匹配编辑和译后编辑努力的试验研究以来,眼动追踪技术近年来在翻译研究中越来越受欢迎,尤其是在测量译后编辑努力方面。由于译后编辑工作的人工评级可能非常主观,并受到之前评级以及“疲劳或厌倦”的影响(O’Brien 2011),因此采用眼动追踪技术可以客观地从时间、技术和/或认知方面衡量译后编辑工作。这一点在后续引用的实验中进一步得到验证,这些实验从眼动追踪中收集数据以进行译后编辑努力的分析。在一项实验中,24名翻译人员被要求在Casmacat界面上对英-德谷歌翻译输出文本进行译后编辑。人工翻译和译后编辑文本之间的比较表明,尽管所有参与者都声称没有译后编辑经验并且更愿意从零开始翻译,但他们在译后编辑中在时间、技术和认知努力方面都更高效。研究结果表明,与译后编辑相比,从零开始翻译时,源文本的复杂性对处理工作的影响更大(Carl et al. 2015)。在另一个实验中,通过调查译后编辑努力的估算是否准确预测了实际工作的结果,得出的结论是“译后编辑工作的人工评级与译后编辑所需的实际时间没有很强的相关性”。在译后编辑工作的测量和平均用户评级之间发现了适度的相关性,这说明翻译人员在浏览译后编辑文本时,分类的“交通灯”颜色方案和时间以及技术工作的测量之间存在联系(Moorkens等人 2015)。
这些实验表明,使用击键记录和眼动追踪等技术工具可以对译后编辑的工作进行更准确和可靠的评估,否则可能会被人类的自我感知所误解。
此外,机器翻译错误分析也被证明是衡量后编辑努力的重要手段。大量研究结果表明,无论是在时间、技术还是认知方面,译后编辑工作都在一定程度上受到机器翻译错误的影响(Temnikova 2010;Koponen等人 2012;Daems等人 2017;Carl和Cristina 2019)。
Vilar等人(2006)将机器翻译错误分为四类:漏词、词序、错词和标点错误。基于这种机器翻译错误分类法、Baddeley的工作记忆理论(Baddeley和Hitch 1974)以及阅读的认知模型(Harley 2008),Temnikova(2010)提出了一种“认知机器翻译错误排序”,通过收集译后编辑人员在识别和纠正机器翻译错误时所进行的信息编码和认知努力,丰富了Vilar的机器翻译错误类型。根据错误类型和句子跨度,错误按难度排序,如表34.5所示,其中(1)最容易,(10)最难。
许多感兴趣的研究人员进一步测试了这种方法(Koponen等人 2012年;Lacruz和Martín 2014;Hu 2020)。Hu (2020)进行了一项实验,八名参与者被要求对百度翻译生成的文本进行译后编辑。这旨在通过使用两个认知译后编辑工作的指标:停顿与单词的比率(PWR)和平均停顿比率(APR),去测试认知机器翻译的错误等级,具体数据如表34.5所示。有关停顿数据的分析表明,花在修改机器翻译错误上的认知努力与错误所嵌入的文本的长度正相关,从而产生以下相关性排序:标点错误<词汇错误<句法错误。对机器翻译错误的另一种观点将我们带到了研究译后编辑的另一种途径:单语译后编辑,即在工作过程中,译后编辑工作人员在不接触源文本的情况下完成任务。这种单语译后编辑方法背后有多重目标:研究机器翻译系统是否能够生成足够优质的输出文本,以根据翻译要求适当地传达源文本中的信息,确定译后编辑人员的译后编辑能力,以及评估译后编辑者所需的译后编辑努力。Krings(2001)指出,使用机器翻译并未减少译后编辑过程中的认知努力,并且与从零开始翻译相比,译后编辑机器翻译文本需要更多的认知努力,无关机器翻译译文的质量。他观察到,唯一能确切减少认知努力的译后编辑任务是在不参考源文本的情况下进行的(Koponen和Salmi 2015)。
他认为,不接触原文的译后编辑需要较少的认知努力,这听起来很有道理。但是没有原文的译后编辑文字质量能有多可靠?
根据Koehn (2010)的说法,参与他实验的学生译后编辑人员似乎并没有注意到机器翻译语言的错误,因为他发现在相当多的情况下,一个句子中并不是所有错误都得到纠正,甚至还有些情况是这些错误根本没有被注意到。更糟糕的是,译后编辑人员本身还会造成语言错误,并且这些错误甚至不在原始的机器翻译输出文本中。翻译文本的低质量可能是导致这种不令人满意的译后编辑结果的原因,因为学生抱怨翻译错误的数量使他们的译后编辑变得繁琐和繁重。Mitchell等人(2013年)还指出,有无原文的译后编辑对译后编辑的流畅性和可理解性没有太大影响,但没有原文的单语译后编辑则会导致准确度的降低,这意味着译后编辑人员不能完全理解原文传达的信息。Koponen和Salmi (2015)进行了一项实验,要求48名学生译员在不接触源文本的情况下对英语翻译成芬兰语的机器翻译文本进行译后编辑,以检验译后编辑人员能够在多大程度上解读源文本的含义。事实证明,译后编辑人员成功地推断出了大约一半句子的正确含义,更容易根据上下文理解来修正词汇形式和混乱关系的错误,但更难以从错误翻译的习语和缺失内容中构建出正确含义。对于经过译后编辑的句子,有29.5%被认为在含义和语言两方面都是完全正确的。这一结果与之前的研究相媲美,不同系统和语言对的研究结果在26%到35%之间(Koehn 2010)。此外,一些在机器翻译文本中没有的错误却在经过译后编辑的句子中发现了。该实验还揭示了原始机器翻译输出的质量:120个句子中只有6个(5%)被评估为完全正确,另外24个句子(20%)被评估为在含义方面正确但有语言错误(Koponen和Salmi 2015: 125)。需要注意的是,这里报道的所有实验都是在NMT出现之前进行的。最近,李(2021)进行了一项比较实验,以探讨在译后编辑过程中,有、无接触源文本的译后编辑人员所做的努力是否不同。共有42名专业译员被要求对NMT系统生成的文本进行译后编辑:分别是从英语到中文的谷歌翻译和从中文到英语的百度翻译。参考表34.6中的基准指标,使用两个不同级别的编辑标准来分析不同机器翻译错误的难度,并衡量译后编辑人员的生产力。
这个比较性实验的统计数据表明,有无源文本对译后编辑人员的时间成本和译后编辑输出的文本质量都没有太大影响,但语言方向对译后编辑工作的影响更大,如图34.1所示。对比分析表明,随着机器翻译文本质量的提高,译后编辑人员对源文本的依赖程度降低。这一研究结果是令人鼓舞的,因为它证明了在没有参考源文本,或至少在很少参考源文本的情况下进行译后编辑是可行的。从理论上来看,这将在短期和长期内都减轻译后编辑人员在时间、技术和认知层面上的工作难度。研究还发现,更高质量的机器翻译文本使译后编辑人员能够更多地专注于风格的改进,而不仅仅是语法和拼写错误的修正。这与以前的报告相矛盾,即使是单语译后编辑人员能够修正语言,但机器翻译质量仍然不足以可靠地传达源文本的含义(Krings 2001: 139)。
如图34.1所示,针对“准确性”类别(包括术语、语法、标点和拼写指标)进行的编辑非常有限,在“综合性”类别下的句法更改也较少,因此译后编辑在纠正机器翻译错误中的拼写和语法方面付出了更大的努力。相比之下,对于从英文到中文的译后编辑,在“综合性”类别中,没有参考源文本的语义编辑记录占92.88%,访问了源文本的语义编辑记录占91.63%,而“风格性”类别下,没有访问源文本的编辑占72%,访问了源文本的编辑占72.88% (李 2021: 97)。
还有一个因素对译后编辑人员的表现起着重要作用:本身的能力。一个好的译后编辑人员应该具备什么样的技能来武装自己,从而以更少的时间和成本获得高质量的翻译产品?众所周知,一个质量上乘的译文与译后编辑人员所掌握的技能密切相关。然而,除此之外,还有一个技能对译后编辑人员尤为重要:决定机器翻译生成的文本是否适合进行译后编辑的能力,正如我们之前在译后编辑指南讨论中谈到的由微软提出的“2秒决策基准”所反映的那样。如果译后编辑人员知道哪个机器翻译系统能为某个领域提供更好的文本,那么他或她的工作效率就会更高。Almeida和Obrian (2010)提出了一个优秀译后编辑人员应具备的三项技能:识别原始机器翻译输出的问题并进行“基本更改”的能力;以平均每天5000字的速度进行译后编辑的能力以及遵循译后编辑指南进行“优先更改”的能力。我们建议,一个合格的译后编辑人员应该能够:a)快速决定是否使用机器翻译输出的文本;b)尽可能保留机器翻译输出的内容;c)进行必要的更改以满足预期的质量要求。由于本章字数限制,我们将不会详细讨论这个问题。感兴趣的读者可参考Offersgaard等人(2008年)、Almeida和O’Brien (2010年)、Guerberof (2014年)、TAUS (2010年)、ISO (2017年)以及这些论文中引用的参考文献。
衡量译后编辑人员所付出的努力非常重要,因为它在决定其生产力方面起着决定性的作用,而生产力又会反过来调节其定价。没有生产力,译后编辑就不太可能成为本地化工作流程中的独立实践。要做到这一点,需要充分利用神经机器翻译在提高翻译质量方面的前沿技术和显著进步。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
- END -
翻译技术教育与研究——机器翻译译后编辑专题组致力于普及机器翻译译后编辑(MTPE)相关知识,追踪国内外机器翻译译后编辑教学与研究动态!
原创编辑:谈津雷
推文编辑:梁鑫茹
指导/审核:肖志清 王雪红
项目统筹:李鸣晨
资讯推荐
▶ MTPE专题推文机器翻译译后编辑 | 徐彬老师讲座推介——图书翻译的译后编辑
机器翻译译后编辑 | 人工翻译还是机器翻译?人工翻译和神经机器翻译译后编辑的难度比较
机器翻译译后编辑 | 徐彬老师讲座推介——AI潮来,翻译何为?机器翻译译后编辑| 国际机器翻译与译后编辑领域——学者推介(一)
机器翻译译后编辑 | 阿里翻译 Alynx 平台机器翻译及译后编辑:问题、成因与对策
机器翻译译后编辑 | 《劳特里奇翻译技术34章-机器翻译译后编辑》文献推介 (中)机器翻译译后编辑 | 《小说文本机器翻译译后编辑努力的实证研究》文献推介
机器翻译译后编辑 | 《译前编辑和机器翻译研究综述 (1990-2023)》文献推介
机器翻译译后编辑 |《 What Do Post-editors Correct? 》文献推介
机器翻译译后编辑 | 《人工智能时代机器翻译的伦理问题》文献推介
机器翻译译后编辑 | 《翻译修改与译后编辑》书籍推介 3机器翻译译后编辑 | 《基于神经机器翻译的科技文本译后编辑模式研究》文献推介机器翻译译后编辑 | 人工智能时代的译后编辑能力研究机器翻译译后编辑 | 《译后编辑及其研究简史》文献推介机器翻译译后编辑 | Lynne Bowker机器翻译素养机器翻译译后编辑 | 《ChatGPT时代机器翻译译后编辑能力培养模式研究》文献推介机器翻译译后编辑 | 《国际机器翻译译后编辑认知研究路线图(2011—2021)》文献推介机器翻译译后编辑 | 《译后编辑的能力结构与课程设置——基于国外译后编辑课程的前沿分析》文献推介机器翻译译后编辑 | 《翻译修改与译后编辑》书籍推介2机器翻译译后编辑 | 《翻译修改与译后编辑:行业实践和认知过程》书籍推介机器翻译译后编辑 | A short guide to post-editing 书籍推介 9机器翻译译后编辑 | 《机器翻译译后编辑》文献推介 (上)机器翻译译后编辑 | A short guide to post-editing 书籍推介 8机器翻译译后编辑 | A short guide to post-editing 书籍推介 7机器翻译译后编辑 | A short guide to post-editing 书籍推介 6机器翻译译后编辑 | A short guide to post-editing 书籍推介 5 机器翻译译后编辑 | 《人工智能辅助译后编辑新方向——基于ChatGPT的翻译实例研究》文献分享机器翻译译后编辑 | A short guide to post-editing 书籍推介 4机器翻译译后编辑 | A short guide to post-editing 书籍推介 3机器翻译译后编辑 | 《机器翻译视角下的翻译本质》文献分享机器翻译译后编辑 | A short guide to post-editing 书籍推介 2机器翻译译后编辑 | A short guide to post-editing 书籍推介 1