查看原文
其他

机器翻译译后编辑 | 人工翻译还是机器翻译? 人工翻译和神经机器翻译译后编辑的难度比较

编辑:杨淞幄 翻译技术教育与研究
2024-09-09

人工翻译还是机器翻译?

人工翻译和神经机器翻译译后编辑的难度比较


作者:贾艳芳  湖南师范大学  孙三军 北京外国语大学

摘要:本研究旨在源文(ST)复杂度和机器翻译(MT)质量水平两个因素考量下,比较神经机器翻译(NMT)译后编辑和人工翻译之间的任务难度。研究数据来自60名翻译实习生,内容涉及译后编辑和人工翻译任务的感知难度和客观难度以及参与者的表现。通过本研究,我们发现:(1)与人工翻译相比,NMT译后编辑任务的难度受到NMT质量和ST复杂度的显著影响;只有在高质量NMT与复杂ST相匹配的情况下,译后编辑任务的难度才显著低于人工翻译任务,而不同NMT质量和不同ST复杂度交互时,结果则不尽相同;(2)对于译后编辑和人工翻译任务,参与者的感知难度与客观难度和任务表现的之间没有发现强相关性。


关键词:任务难度;译后编辑;人工翻译;源文本复杂度;机器翻译质量



01

引言/背景

机器翻译不断发展,MT译后编辑(PE)在专业翻译中广泛使用。神经机器翻译(NMT)相对于统计机器翻译,翻译结果更流畅,但鉴于存在一些难以预测和识别的错误,人工评估结果不尽相同。普遍认为,相对于人工翻译(HT),PE更快,但因为涉及因素更多,PE任务更复杂。


本研究旨在考虑HT和NMT+PE复杂度和MT质量两个变量下,通过感知难度、客观难度和任务表现来比较HT和NMT+PE的任务难度。据此提出以下两个问题:

(1)当同时考虑到ST的复杂度和MT的质量时,NMT+PE是否总是比HT更容易?

(2)感知难度是否与客观难度和任务表现相关?


02

人工翻译与译后编辑比较

根据Meshkati(1988)的观点,任务难度或工作量可以按任务、环境因素、任务执行者特征和调节因素进行分组。这些因素对任务难度的整体影响可以通过测量任务执行者的主观自我感知(即感知到的难度)、过程中客观观察到的行为活动或生理反应(即客观难度)以及任务表现(例如任务时间和错误)观察。


译后编辑和人工翻译之间的任务难度受到源文本和所使用的工具影响。源文本是人工翻译时译员的唯一信息来源。相反,译后编辑却提供了两个信息来源:源文本及其机器翻译输出内容。除源文本差异外,与人工翻译相比,译后编辑更依赖于工。因此,译后编辑任务中,源文本复杂度和机器翻译质量相互作用,影响译后编辑任务的整体难度,如图1所示。


图1 

PE和HT中不同ST复杂度和MT质量下任务难度的比较


03

研究方法








3.1 参与者









来自中国两所大学的60名翻译硕士学生(其中58名女性和2名男性),并满足以下条件。

  • 所有参与者年龄均为22至26岁

  • 母语是普通话,第二语言是英语,且通过了英语专业八级考试。

  • 专业翻译经验少,实验前接受了三小时的译后编辑培训。作为回报,参与者均获得了两个学分和一个U盘。

  • 所有参与者打字时均可盲打,视力正常或者矫正视力正常。

  • 本研究已经获得了大学伦理委员会的批准,所有参与者签署了知情同意书。









3.2 研究材料









1. 源文本为四篇英文新闻文本,长度在128到145个单词之间,具备独立性、面向普通观众、涵盖非专业化主题。

2. ST1、ST2和ST4选自Newsela,而ST3选自英国报纸The Times。

3. 四篇源文本总共有34个句子(ST1,n = 12;ST2,n = 12;ST3,n = 5;ST4,n = 5)。

源文本的翻译难度和复杂度通过可读性和句法复杂度进行了评估,结果显示ST1和ST2偏易,而ST3和ST4则偏难。接着,使用谷歌翻译、必应翻译、有道翻译、百度翻译及SYSTRAN等五种神经机器翻译引擎对这四篇源文本进行了预翻译,专业译员评估了五种机器翻译输出的质量,认为谷歌翻译的质量最理想。选择了谷歌翻译和SYSTRAN的输出进行进一步分析,结果显示,谷歌翻译在流畅性和充分性方面明显优于SYSTRAN。









3.3 实验程序









a.实验安排

本实验总共有12个不同任务,分别是对ST1、ST2、ST3和ST4进行的人工翻译(HT),通过谷歌高质量机器翻译输出(MTH)后进行的译后编辑,以及通过SYSTRAN低质量MT输出(MTL)后进行的译后编辑。12个任务采用了3 × 4设计,每四名参与者为一组,每组参与者分别完成两个PE任务和一个HT任务。本实验总共收集了来自60名参与者的180个任务且于2018年8月至2019年9月在湖南大学的眼动实验室进行。在每个任务一结束后,就要求参与者使用Pass(1992)主观评估自己的任务难度感受。如果需要,参与者可以选择在两个任务之间休息十分钟。参与者的眼动采用Eyelink 1000 plus(SR Research)记录,键盘操作由Translog-II记录。眼动追踪仪连接到一个23英寸的液晶显示器作为展示屏,屏幕分辨率设置为1280*1024像素。


b.实验准备工作

为了最小化背景知识对PE和HT任务难度的影响,参与者在每个任务之前都会阅读一篇短英文新闻,介绍了每个ST的背景。


c.实验结果

共分析了147个会话,占总数据的81.7%,其中高质量机器翻译译后编辑(MTPE)的会话有49个(高质量源文本STH为25个,低质量源文本STL为24个),低质量MTPE有48个(STH为25个,STL为24个),HT人工翻译有50个对话(STH为26个,STL为24个)。最终PE和HT输出的翻译质量根据多维质量指标(Lommel等,2014)的自定义错误类别进行评估,包括准确性(错误翻译、增加和遗漏)和流畅性(词形、连贯性、词序、标点、不可理解和拼写)。错误由两名专业译员进行标注。两名评分者对识别出的74.4%的错误达成了一致,讨论并消除了剩余的25.6%的差异。









3.4 数据准备和统计分析









首先,使用Translog-II生成的会话表包含了所有与键盘记录、眼动追踪和最终结果错误标注相关的信息。


其次,采用线性混合效应模型(LMEs)对数据进行分析,其中包括固定效应和随机效应,以弥补自然翻译任务中变量控制的不足。采用lmerTest包计算标准误差、效应大小和显著性值,并使用anova函数执行固定效应的Type III检验。


接着,采用effects包绘制模型效应图,并使用emmeans包进行事后分析。数据集包括147个观测值,针对8个因变量建立了8个LME模型,考虑了ST复杂度、任务类型以及它们的交互作用。

最后,通过残差图和Levene's Test检查了同方差性。


04

结果

人工翻译(HT)、译后编辑高质量机器翻译(PEMTH)和译后编辑低质量机器翻译(PEMTL)在两种ST复杂度水平(STH和STL)下的任务难度进行了对比分析。主要比较了感知难度、客观难度(以总注视次数和总击键次数作为衡量指标)、任务表现(任务速度和产品质量,即准确性和流畅度相关错误)之间的差异。显著的交互效应表明任务之间的差异很大程度上受到ST复杂度水平的影响。研究中每个因变量的交互效应都进行了绘图。(注意:本段H、L均为下标。)









4.1 感知难度









通过参与者主观评价,发现在高质量和低质量ST复杂度条件下,人工翻译(HT)在某些情况下比机器翻译译后编辑(PEMTH和PEMTL)更容易,但在其他情况下没有明显差异。


图2  

ST复杂性与任务类型在感知难度方面的交互效应









4.2 客观难度









通过眼动注视总次数和击键活动的客观测量,发现HT和PE在不同任务类型和ST复杂度条件下的注视次数和击键次数存在差异。


a.眼动注视总次数

  • 对于STH,HT的注视次数显著高于PEMTH,但低于PEMTL,但差异不显著。PEMTL的注视次数明显高于PEMTH。对于STL,HT、PEMTL和 PEMTH之间的注视次数没有显著性差异。


  • 对于STH,HT的注视次数最高,显著高于PEMTH,略低于PEMTL。PEMTH对ST的注视明显少于PEMTL。对于STL,HT、PEMTL和PEMTH之间对ST的总注视次数没有显著差异。


  • 在TT分析中,任务类型和交互效应显著。对于STH,HT记录的注视次数少于PEMTL,而明显多于PEMTH。PEMTH对TT的注视次数明显少于PEMTL。对于STL,HT、PEMTL和 PEMTH对TT的注视次数均无显著性差异。


图3 

 ST复杂度与任务类型对总注视次数的交互作用


图4 

 ST复杂度与任务类型对ST上的总注视次数 (左侧) 和TT上的总注视次数 (右侧) 的交互作用


b. 总按键次数

总按键次数是指插入和删除次数,击键次数越多,表明付出的努力越多(图5)。ST(F = 5.16,p < .05)、任务类型(F = 201.57,p < .001)和交互作用(F = 5.3,p < .01)的主效应显著。针对STH和STL,HT按键次数最高,显著高于PEMTL和 PEMTH。PEMTH的按键次数最低,显著低于PEMTL。


图5

ST复杂度与任务类型对按键次数的交互作用









4.3 任务难度和表现









4.3.1 任务速度

  • 任务速度定义为每秒处理的ST字的数量,其中速度越慢,表示任务难度越高(图6)。

  • 任务类型(F = 28.73,p < .001)和交互效应(F = 9.39,p < .001)显著(图6)。

  • 对于STH,HT的速度显著慢于PEMTH,但与PEMTL相似,无显著差异。PEMTH明显快于PEMTL


图6 

ST复杂度与任务类型对任务速度的交互作用


4.3.2.产品质量

人工翻译和译后编辑输出内容的准确性和流畅性,可通过各自错误的数量单独进行评估错误少表明文本更准确、更流畅(图7)。HT和PE仅在准确性上有显著差异,在流畅性上没有显著差异(图7和图8)


图7  

ST复杂度和任务类型对准确性错误(左)和流畅性错误(右)之间的交互效应









4.4 任务难度









六个任务难度指标的固定效应结果及其STH和STL之间的HT和PE差异分别总结在表2和表3中。


表1 

六个任务难度指标的固定效应


表2 

HT 和 PE 在六个任务难度指标上的差异









4.5 感知难度与实际难度测量之间的相关性









感知难度与客观难度和任务表现的相关性通过肯德尔τ(Kendall's tau τ)计算,并在表4中进行了总结,值在±.1左右, 则认为是弱相关,值在±.3左右,则认为是中等相关,值在±.5左右,则认为是强相关(Corder&Foreman,2009)。HT中的感知难度与任务速度呈显著负相关,而与ST和TT上的总体视觉注意力呈显著正相关。最后,HT中的感知难度与总体准确性和流畅性错误的产品质量呈正相关。PEMTL的感知难度与任务速度呈显著负相关而与视觉注意力呈显著正相关。然而,PEMTH的感知难度与其他难度测量没有关联。


05

论述








5.1 比较PE与HT









研究发现,HT、PEMTH、以及PEMTL之间的差异受原始文本(ST)复杂度水平的影响较大。此外,NMT PE并非总比HT更容易。只有对更为复杂的ST进行了PEMTH的情况下,PE的任务难度才明显低于HT。PE可能会降低感知难度和客观难度,从而提高任务速度和产品质量。然而,在其他情况下,PE除了显著减少技术操作,在其他难度方面可能与HT不相上下。


这些发现强调比较PE和HT的难度时应当考虑到机器翻译质量和原始文本的复杂度。因此,在比较HT和PE难度时,都需要对所用的MT方法及其质量水平进行人工评估或自动评估。此外,不同NMT质量水平的PE和HT 之间的差异受到所涉及的ST复杂度水平的影响。









5.2. 感知难度和实际难度测量之间没有强相关性








对于译后编辑(PE)和人工翻译(HT)任务而言,感知难度和实际难度测量之间没有强相关性。对于PEMTH而言,感知难度与其他测量没有关联,而对于PEMTL和HT,则存在一定程度的弱相关性或中等相关性。


表3

基于Kendall的tau τ的感知困难和实际困难测量之间的相关性









5.3. 实践建议









尽管在翻译市场上,通常被认为译后编辑(PE)比人工翻译更快且报酬较低,但是定价PE比定价人工翻译更具挑战性。当前没有一种确定机器翻译后编辑(MTPE)定价的单一方法。


为了建立更公平、更具预测性的PE价格模型,建议考虑机器翻译(MT)质量和源文本(ST)复杂度。这些结果为初级翻译人员和公共NMT引擎提供了初步发现,但对于使用公共和定制化NMT引擎的专业人员,还需进一步研究,确定针对PE的最低可接受MT质量水平,对于该MT,无论进行人工评估还是自动评估,其与不同复杂度的ST交互时,都比传统的HT付出的努力更少。


08

结论

本文讨论了感知难度和实际难度测量之间的相关性,以及对翻译任务的实际表现的影响。研究结果显示,译后编辑中任务复杂度受机器翻译质量和源文本复杂度的影响;只有高复杂度的文本遇上高质量的机器翻译,译后编辑的难度才明显低于人工翻译;其他情况下,译后编辑的难度并非总是低于人工翻译。无论对于译后编辑还是人工翻译,感知难度与实际难度和任务表现之间均没有强相关性。以上发现表明,对两种任务的多维性,源文本复杂度和机器翻译质量进行考虑,不仅能更好地理解人工翻译与译后编辑之间的任务难度,而且有助于建立更公平的译后编辑定价方案。

鉴于篇幅所限,本文仅摘选了本研究的部分重要信息,本研究还有很多值得学习和借鉴的方法和结论,如有感兴趣者,请点击【阅读原文】查看文献原文。 


特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。


- END -


翻译技术教育与研究——机器翻译译后编辑专题组致力于普及机器翻译译后编辑(MTPE)相关知识,追踪国内外机器翻译译后编辑教学与研究动态!

内容编辑:杨淞幄 李鸣晨

推文编辑:李鸣晨

指导/审核:王雪红 肖志清  

项目统筹:李鸣晨

资讯推荐


答读者疑:翻译搜索能力与外语学习有何关系▶ MTPE专题推文机器翻译译后编辑| 国际机器翻译与译后编辑领域——学者推介(一)
机器翻译译后编辑 | 阿里翻译 Alynx 平台机器翻译及译后编辑:问题、成因与对策
机器翻译译后编辑 | 《劳特里奇翻译技术34章-机器翻译译后编辑》文献推介 (中)机器翻译译后编辑 | 《小说文本机器翻译译后编辑努力的实证研究》文献推介
机器翻译译后编辑 | 《译前编辑和机器翻译研究综述 (1990-2023)》文献推介
机器翻译译后编辑 |《 What Do Post-editors Correct? 》文献推介
机器翻译译后编辑 | 《人工智能时代机器翻译的伦理问题》文献推介
机器翻译译后编辑 | 《翻译修改与译后编辑》书籍推介 3
机器翻译译后编辑 | 《基于神经机器翻译的科技文本译后编辑模式研究》文献推介机器翻译译后编辑 | 人工智能时代的译后编辑能力研究机器翻译译后编辑 | 《译后编辑及其研究简史》文献推介机器翻译译后编辑 | Lynne Bowker机器翻译素养机器翻译译后编辑 | 《ChatGPT时代机器翻译译后编辑能力培养模式研究》文献推介机器翻译译后编辑 | 《国际机器翻译译后编辑认知研究路线图(2011—2021)》文献推介机器翻译译后编辑 | 《译后编辑的能力结构与课程设置——基于国外译后编辑课程的前沿分析》文献推介机器翻译译后编辑 | 《翻译修改与译后编辑》书籍推介2机器翻译译后编辑 | 《翻译修改与译后编辑:行业实践和认知过程》书籍推介机器翻译译后编辑 | A short guide to post-editing 书籍推介 9机器翻译译后编辑 | 《机器翻译译后编辑》文献推介 (上)机器翻译译后编辑 | A short guide to post-editing 书籍推介 8机器翻译译后编辑 | A short guide to post-editing 书籍推介 7机器翻译译后编辑 | A short guide to post-editing 书籍推介 6机器翻译译后编辑 | A short guide to post-editing 书籍推介 5 机器翻译译后编辑 | 《人工智能辅助译后编辑新方向——基于ChatGPT的翻译实例研究》文献分享机器翻译译后编辑 | A short guide to post-editing 书籍推介 4机器翻译译后编辑 | A short guide to post-editing 书籍推介 3机器翻译译后编辑 | 《机器翻译视角下的翻译本质》文献分享机器翻译译后编辑 | A short guide to post-editing 书籍推介 2机器翻译译后编辑 | A short guide to post-editing 书籍推介 1

修改于
继续滑动看下一个
翻译技术教育与研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存