查看原文
其他

机器翻译译后编辑 | A short guide to post-editing 书籍推介 1

MTPE

A short guide to  post-editing

书籍推介



中文译名:译后编辑指南

作者:Jean Nitzke, Silvia Hansen-Schirra

ISBN:978-3-96110-333-1

DOI:10.5281/zenodo.564689

出版社:Language Science Press

网址:https://langsci-press.org/catalog/book/319


译后编辑(Post-editing)已经成为专业译者的既定任务。原始的机器翻译结果可以帮助译后编辑者加快翻译过程,让客户享有更多利润和较低成本。然而,专业的译后编辑者需要掌握机器翻译和译后编辑的基本知识,来评估译后编辑任务并作出正确的决策。


本书是了解并学习译后编辑的入门指南,总共分为十章,我们将带着读者从零开始,一步步学习译后编辑,同时也将译后编辑相关的话题同步介绍给大家。


本系列推文将按本书的章节顺序,基于中文译本(由武汉科技大学2020级MTI研究生陈美欣同学翻译),对“译后编辑”进行较为完整的介绍:从译后编辑的定义、指南等基础知识出发,分别从基本工具、风险、流程及能力等方面进行全方位分析,从而带领各位读者由浅入深,学习并掌握译后编辑,助力翻译实践。







本篇推文将简要介绍本书第一至三章的重点内容,包括译后编辑的定义、译后编辑在翻译研究中的新视角、机器翻译的基本方法,为后续推文做铺垫。

01

什么是译后编辑?

译后编辑(PE)“是由人工译者根据特定的指导方针和质量标准对原始的机器翻译结果进行校正”(奥布莱恩, 2011: 197-198)。

该定义指出了译后编辑两个非常重要的特点
译后编辑应当由人工译者完成,而不能由掌握源语和目的语,甚至只掌握目的语的外行来完成。因此,我们可以假设译后编辑与翻译有共同的特点。
与人工翻译工作的翻译纲要一样,译后编辑的具体指南和质量标准也很重要。它们决定各项译后编辑工作需要多大工作量。

在后续推文中,我们将讨论译后编辑的不同方法,这些基本要点按二分法包括如下分类:
轻度译后编辑和深度译后编辑(详见第4章)
单语译后编辑和双语译后编辑(详见第4章)
译后编辑和交互式机器翻译编辑(详见第6章)
自20世纪90年代起,专业译者就开始使用计算机辅助翻译工具(CAT tools),该术语通常指翻译记忆系统、术语管理系统以及项目管理系统。然而,文字处理程序或电子/在线词典的使用也都被认为是迈向自动化的一步。当使用这些工具时,我们会谈到机器辅助人工翻译(MAHT)。人类仍然处于翻译流程的中心,但由机器辅助。

离自动化更进一步的是人工辅助机器翻译(HAMT)。这里涉及到机器翻译系统人类必须“单独”为机器准备源文本(译前编辑)和/或优化机器翻译输出(译后编辑)。后者是本书的重点内容(在上图中用虚线标出)。

请谨记,机器翻译结果仍然只是专业译者的工具(如果你现在不赞同,读完本书之后也许会赞同)。译前编辑和译后编辑更加关注机器以及由机器完成的一定量的工作。但是,专业译者仍要负责将机器翻译结果变成符合目标文本质量标准的译文。







02

译后编辑为翻译研究带来新视角

正如艾伦(2003)所指出的,译后编辑给翻译研究引入了一个新视角,因为译者以前从不需要处理“半成品”文本。在译后编辑中,目标文本不需要从零生成。译者已经拥有最终译文的初稿。因此,译后编辑和人工翻译可看作不同的任务。

此外,机器翻译的文本具有不同于人工翻译的特征。因此,译后编辑也可以看作是另一种形式的校对。例如拼写和笔误等错误几乎不会在机器翻译中出现,而语法或词汇等错误几乎不会在人工翻译中出现。因此,为界定译后编辑的性质,还有许多有趣的问题尚待回答。这里,我们列出了一部分:
有多少机器翻译能被接受?
必要的译后编辑的工作量是多少?
可以节省多少时间(和成本)?
经译后编辑的目标文本的质量如何?
与人工翻译/审校的区别是什么?

从研究的角度来看,译后编辑“是人工译者和机器相遇的领域——也是机器翻译和翻译科学这两个学科相遇的领域”(库洛等, 2014: 35)。因此,译后编辑的跨学科研究也很有趣。


首先,我们想说明译后编辑基础理论研究的一些初步途径。由于认知和语用层面的结合,关联理论方法似乎是适合用于描述译后编辑现象的理论译后编辑者是经过训练的专业人员,能够在目标语境中编辑机器翻译输出来弥合语言之间的交际鸿沟。这项任务是以源文本、预期接受者、目标文化和译后编辑纲要相关的充分决策为基础。


在认知层面,关联理论认为应考虑在有效且成功的交际下,用最少的努力编辑机器翻译结果。阿尔维斯等人(2016)从关联理论层面对译后编辑进行了讨论。


然而,这就意味着读者需要投入更多的认知努力,因为目标文本在语言和/或风格上并不完美卡尔和舍费尔(2019)将关联理论与噪声信道模型相结合,从理论上探讨译后编辑。他们提出了一个“模型,其中[关联理论]通过增加关联原则建立的刺激、语境和诠释之间的因果关系的约束条件来补充‘噪声译者信道’。”(卡尔、舍费尔, 2019: 60)


除了这些理论上的考虑,还有一系列实证研究来比较译后编辑和从零开始翻译,以解决以下研究问题:
相比人工翻译,译后编辑的效率如何?
译后编辑机器翻译的认知努力可以衡量吗?
译后编辑文本的质量如何?
可以预测机器翻译的错误吗?可以预估译后编辑的工作量吗?
译后编辑的工作量是否与机器翻译质量相关?
某些语言对是否比其他语言对更加适合机器翻译和译后编辑?
哪种文本类型、体裁和形态更加适合译后编辑?
学生和专业译者的译后编辑能力是否存在差异?

从方法学的角度来看,大部分研究都依赖于眼球追踪和键盘监听数据相结合的多元方法。此外,问卷描述了有关参与者的元数据,如个人资料、翻译和语言能力及经验。CRTT翻译过程研究数据库(CRITT TPR-DB,卡尔等, 2016)是一个广泛建立的研究数据库,包括多个语言对和专业的译后编辑和翻译数据。该数据库能实现不同类型数据库的三角测量,进而揭示连续和平行的认知处理行为、阅读和协作过程、译后编辑和研究策略。







03

机器翻译基本方法

不同的方法将翻译过程自动化。在此,我们将讨论基于规则的、统计和神经机器翻译的优缺点,以及他们在译后编辑工作流中的可用性。


3.1

基于规则的机器翻译(RBMT)


基于规则的方法是机器翻译发展的催化剂。通常,这些系统试图定义源语言的个体特征,以及这些特征转换为目标语言的方式。多年来制定了不同以规则为基础的方法来生成机器翻译:


直接机器翻译:这类机器翻译是专为一种语言对和一个翻译方向搭建的。从本质上而言,对源文本的单词进行形态分析,然后在字典中查找,这意味着所有形态学规则都在理想情况下得到了定义,因此字典只需包含单词的词干。在接下来的步骤中,源语言的单词被替换成目标语言的单词,且应用目标语言所需的所有形态变化。


基于转换规则的机器翻译基于转换规则的方法构造源文本(通常是树结构)无歧义的句法表达等。接着,在包含双语迁移规则的语法的帮助下,为目标语言生成这一表达。此时可生成目标文本。理论上,这些系统可能运用在两个语言方向上,但在实践中,迁移规则通常不能在两个方向上应用。


基于中间语言的机器翻译:针对这种方法,需要创建所谓的中间语言。这种中间语言以抽象的形式表示意义,理论上可以通过自然语言或人工语言或独立于语言之外的表述来实现。


对于译后编辑,这种方法似乎特别适合翻译遵循受控语言的文本。受控语言由一组规则定义,理论上可以直接在基于规则的系统中实现。但是,这些方法的主要缺点是,开发系统需要花费大量精力,因为预期系统越完善、越全面,需要定义的规则就越多。如今,基于规则的方法已经过时,并且通常只能在混合系统或者非常老旧、已建成的系统中找到。

3.2

统计机器翻译(SMT)


几十年以来,统计机器翻译一直是最先进的技术。这种方法的基本思路是:通过计算源语言中最有可能等同于目标语言的单词/短语/句子,从平行训练语料库中生成翻译。统计翻译模型是基于语料库数据进行生成和训练的。单语语料库和多语语料库都用于捕捉相关语言的典型语言结构——单语语料库生成目标语言模型,多语语料库生成翻译模型。此外,统计机器翻译使用所谓的n-gram——按照概率分配的对齐单词(通常n≤7)的序列,该概率表示单词序列在训练语料库中出现的可能性


另外,还可以在训练阶段提取额外的信息,例如相对句子长度模型。如果有对齐的平行语料库,则可以相对快速地实现统计机器翻译。在这种情况下,训练在这种情况下意味着对源文本进行分析。


译后编辑统计机器翻译文本的优势在于能较大程度地预测待纠正的错误。只要没有使用新的或扩展的训练语料库进行训练,统计机器翻译系统通常会产生同样的错误。统计机器翻译系统的代码是公开透明的,翻译概率的计算也很简单。对于给定的语言方向,可以识别出典型错误。


近期涉及统计机器翻译的开发试图将不同的方法——通常是基于规则或统计——结合到混合系统中,以便结合每种方法的优点。深度系统集成是建立一个结合两种方法优点的全新系统。而浅度系统集成是将两个或两个以上现有的系统结合为一个新系统。

3.3

神经机器翻译(NMT)


最新的机器翻译方法是使用神经网络,该方法同样可应用于平行训练语料库。神经机器翻译系统建立了大型神经网络进行翻译,而统计机器翻译系统是由许多子组件组成。神经机器翻译系统采用深度学习方法并自动学习训练数据


在神经机器翻译中至少涉及三个基本层输入层、输出层以及中间的隐藏层。输入层处理源文本,输出层创建目标文本。隐藏层即为处理步骤。该模型可以以更精细的方法工作,当系统包含更多隐藏层时,可以处理更加复杂的任务。


神经机器翻译中常见的两种方法transformer模型循环编码器-解码器模型在编码阶段,源文本的含义被编码成一个固定长度的向量。transformer系统和循环系统在源文本的编码方式上有所不同。在解码阶段,目标片段逐字生成。产出时,神经网络机器翻译系统会考虑周围的单词作为语境。该系统的缺点在于处理长句存在困难。为克服这些问题,应用了所谓的对齐模型。这些模型通常都称作注意力模型。


关于译后编辑,神经机器翻译的一大优点在于,其机器翻译结果至少在流畅度方面要比其他系统架构好得多。但是,只有用足够的训练材料来训练该系统,我们才能得到更好的机器翻译结果。如果没有足够的训练材料,我们得到的质量并不佳。小语种和罕见语种组合往往会出现问题,因为它们缺乏代表性且资源贫乏。


此外,与所有数据驱动的机器翻译系统一样,结果的良好程度取决于训练数据的质量。因此,如果我们用质量较差的数据来训练系统,我们就会得到较差的结果。这同样也适用于特定领域的翻译。如果系统在特定领域没有经过良好的训练,结果同样会不好。总之,该系统更容易受到噪声数据的影响


然而,最新的研发成果中将神经机器翻译和特定术语的训练相结合,这就解决了领域问题(例如米雄等, 2020)。


神经机器翻译系统的另一个优点在于,其拥有一个紧凑的系统,而非由多个组件组成。但是,相对于统计机器翻译,它需要更多的训练时间和更强的计算机处理能力。

最后,需要指出的是,高质量的神经机器翻译结果带来了以下悖论:神经机器翻译的译文越好,就越难发现错误,因为神经机器翻译结果似乎更加流畅,更少出错。一方面,这对译后编辑过程提出了更高的要求,需要译后编辑者付出更多的认知努力。另一方面,由于没有“真正的”错误,译后编辑者更多地倾向于纠正风格错误,这样反倒造成了过度编辑(详见瓦尔达罗等, 2019)。因此,译后编辑者需要针对错误类型进行大量的训练和识别,以便能够有效地校正文本







以上是本书一至三章的主要内容,请继续关注该系列后续连载~

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。


- END -



翻译技术教育与研究——机器翻译译后编辑专题组致力于普及机器翻译译后编辑(MTPE)相关知识,追踪国内外机器翻译译后编辑教学与研究动态


推文编辑:王晨谕

指导/审核:肖志清  王雪红

项目统筹:王晨谕

资讯推荐


AIGC时代的翻译技术沙龙——于占国


▶ 技术与工具

高级译员的秘密武器——语料库大全集

国内外常见语料工具一览

国内外常见术语管理工具

翻译必备术语库和语料库合集(附网址)

翻译必备的计算机翻译辅助软件(附网址)

AntConc:实用的本地语料库检索工具

TREX:有海量例句、丰富语料的在线词典

Netspeak:一款免费的单词搭配检索工具

WantWords反向词典,内含开发团队公开文档

Cymo Booth:同声传译员的专属虚拟同传间

MateCat:一款免费的在线CAT工具

Visuwords:可视化在线词典,帮你一键构造记忆宫殿

Linggle:语料+搭配检索工具(实操演示)

Ludwig: 地道英文写作辅助神器,告别中式英语

Reverso:辅助写作与翻译神器


▶ 国际语言服务动态

| 翻译公司篇 | TransPerfect简介

| 翻译公司篇 | 全球第2名 RWS如文思

| 翻译公司篇 | “收购狂魔”Keywords Studios

| 咨询机构篇 | Nimdzi Insights简介

| 咨询机构篇 | Slator 简介

| 咨询机构篇 | CSA Research 简介

| 行业机构篇 | 国际翻译家联盟FIT

| 行业机构篇 | 美国翻译协会ATA

| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau

| 翻译院校篇 | 明德大学蒙特雷国际研究学院(MIIS)

| 翻译院校篇 | 格拉斯哥大学

| 翻译院校篇 | 埃塞克斯大学

| 翻译院校篇 | 利兹大学

| 热点追踪 | ChatGPT的伦理问题(上)

热点追踪 | ChatGPT的伦理问题(下)

| 热点追踪 | GPT-4面世——AI引领语言行业革新


▶ 专访

王华树:机器翻译将要取代人工翻译吗?

崔启亮:机器翻译对语言服务企业有多大作用?

韩林涛:文科生如何学习机器翻译?

魏勇鹏:机器翻译质量评估为什么重要?

徐彬:熟练掌握翻译技术,就能做出漂亮的活儿

曹首光:如何打造一款受欢迎的机器翻译产品? 

李梅:机器翻译对未来翻译教育有何影响?

周兴华:高校翻译教师如何学习翻译技术?

丁丽:译后编辑人员与译者身份是否对等?

王巍巍:疫情背景下远程口译的挑战和应对
卢家辉、陈晨:口译员在远程口译中面临的主要问题


▶ 行业洞察

2021年语言服务行业回顾与展望

2022年全球百强语言服务商榜单

2022年翻译行业将迎来哪些新变化

后疫情时代,语言服务行业如何发展转型?

何钦:中国电影对外译介的现状与思考

冯志伟:关于机器翻译行业发展的三点建议

张霄军:伦理视角下,机器翻译的能与不能

黄友义:如何突破中外文化差异,让世界更了解中国?

韩林涛:与ChatGPT共舞


▶ 教育创新

李长栓:MTI论文千篇一律,如何破局?

王华树 刘世界:数字人文视域下译者数字素养研究:内涵、问题与建议

王华树 刘世界:人工智能时代翻译技术转向研究

王华树 刘世界:智慧翻译教育研究: 理念、路径与趋势

曹达钦 戴钰涵:人工智能时代高校翻译技术实践环境建设研究

李梅:如何给“技术小白” 开设计算机辅助翻译课程?

实践导向的MTI人才培养模式——以对外经济贸易大学为例

数字化口译教学资源建设:欧洲经验与启示

如何将翻译项目管理模式应用到CAT教学课堂中?


继续滑动看下一个
翻译技术教育与研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存