热点聚焦 | 翻译评估实践与研究

Original iResearch 外研社外语学术科研

2024-09-09

翻译评估旨在以科学的方式衡量翻译学员的翻译质量或能力，通过加强对翻译过程、翻译细节及翻译成果的关注，助力翻译教学或培训方法的优化与创新，进而提升学员的翻译能力。可以说，翻译评估问题关系到翻译人才的选拔和培养，在当前翻译专业蓬勃发展的时代背景下具有深刻的现实意义（杨志红，2020）。本期栏目聚焦翻译评估的实践与研究，包括三本著作的内容。第一篇“八种具体的翻译能力评估途径”选自《翻译能力研究》（赵秋荣、葛晓华著），提供了具体的翻译评估手段；第二篇“翻译质量的宏观评价和诊断评价”选自《翻译质量评价的标准与自动评价方法研究》（秦颖著），通过简述宏观评价和诊断评价各自的特点与不足，提出了层级性翻译评价体系；第三篇“翻译测试与评估研究的挑战及其发展前景”选自《翻译测试与评估研究》（杨志红著），指出了当前研究的问题及未来发展方向。希望本期热点聚焦能为大家带来些许启发。

八种具体的翻译能力评估途径

1. 翻译文本

翻译文本评估适用于评估不同类型的翻译学习者，如评估新手、职业译者的相关能力。它是应用最广泛的评估方法，可以判断译者对目标语言的掌握情况。

然而，翻译文本评估只是对翻译终端产品的评估，很难观察到翻译过程中学员解决实际翻译问题的能力，包括他们如何发现翻译问题，如何运用语言内和语言外的策略解决翻译问题等。

2. 反思日记

学员可以结合自我评估问卷内容，撰写反思日记。日记可以涉及他们学习过程中遇到的问题、相关问题的解决情况、使用的工具等。

译者的自我管理能力是翻译能力发展中至关重要的部分。因此，在课堂上为学员介绍自我管理或自我反思的策略很有必要。教师/培训者可以指导学员反思他们认为有挑战的问题，询问学员如何计划、管理和评估他们自身的翻译学习和翻译过程，帮助他们提升自我管理能力。

3. 翻译过程记录

键盘记录工具可以记录学员翻译过程中的键盘输入活动，如停顿、修改错误、借助外部资源如查找工具等。眼动仪等设备可以追踪学习者眼球的移动过程。这些都可以作为形成性或终结性评估工具。冯佳、王克非（2016）对键盘记录和眼动追踪工具进行了细致介绍，认为这两类研究工具对于考察翻译过程及译者的认知分配有重要作用。

4. 报告

报告也是非常重要的评估形式。完成一项翻译任务后，学员可以就翻译过程中遇到的问题、解决问题的方法、参考的资源等撰写书面报告，可能比反思日记更正式些。对任何一名译者来说，翻译问题都很难避免，且须在翻译任务中得以解决。Nord（1997：96-100）指出，翻译错误通常是没有得到解决的翻译问题，可以被观察到，因此翻译报告有助于教师识别学员是否解决了翻译过程中遇到的难题。

点击图片即可购买图书

5. 问卷调查

评估过程可以涉及多种问卷，如诊断型问卷、关于翻译问题和翻译知识的问卷等。诊断型问卷的问题可以涉及学员的翻译经历、工作、语言能力、技术能力等，这些都有助于教师了解学员的翻译能力。此外，问卷可以涉及翻译过程中遇到的翻译问题，如询问学员是否认为自己已解决了问题以及解决的方法等。问卷也可以设计自我评估的内容，帮助学员反思是否完成了既定任务，个人翻译能力是否有提升等。

6. 学习档案

学习档案可以在形成性评估或终结性评估中使用。它能够提升学员的学习自主性、反思能力、批判性思维以及自我评估能力，有助于翻译能力的发展。学习档案包括学员的翻译学习反思，它可以体现学员在一段时间内的进步，也包括未来工作任务，如翻译、修改、问卷设计和术语库建设等，也可能包括学员的错误记录和学员的解释，以及终极自我评估报告等，因此可以综合考察学员的能力。

7. 量表

评估人员可以借鉴量表的等级描述评估学员的翻译能力，尤其是主观试题评估。该评估法涉及评分标准的规范，但往往很难统一评分量表。评分员评分时对标准的不同理解也会对译文成绩产生影响。张新玲、刘君玲（2011）在分析1999—2010年间10本外语类核心刊物中主题为“英汉/汉英笔译测试”的文献后指出，评分量表的制定、评分员培训、评分过程研究和计算机辅助人工评分等领域均需进一步深入探讨。Bachman & Palmer（2010：253-254）认为，为了保证评分的公平公正，应尽可能保证评分过程的一致性并详细记录评分步骤，任用有资质的评分员并提前培训，保证评分员评分内部的一致性和评分员之间的一致性。

8. 多种工具的整合

Orozco & Hurtado Albir（2002）着重介绍学员笔译能力习得中综合使用的多种测量工具。该研究的测试构念是翻译能力习得，三个测量指标为该研究的三个因变量，即翻译概念（notions about translation）、学员面对翻译问题时的表现、学员面对错误时的表现。这三个变量都对翻译的整个过程产生影响，可以被观察和评测，并间接反映翻译策略。研究最终确定了三种相应的测量工具：翻译概念测量工具、翻译问题测量工具、翻译错误测量工具。每一种测量工具都在培训开始时（本科一年级开始时）和课程结束时（培训开展8个月后）使用。

随着译后编辑的广泛开展，译后编辑能力评估也逐渐成为翻译能力评估的一部分。Doherty（2020：343）认为，译后编辑评估研究涵盖了客户（包括译本最终使用者）、译者、技术人员等参与方，综合评估翻译水平。评估内容包括计算机辅助翻译软件、译后编辑软件等的使用情况，人机互动中人的个体因素与认知努力等，评估方法从印象式评估扩展到录屏、眼动追踪、心理测试、调查、采访、有声思维等多种形式。

为了弥补欧盟执委会翻译总署制定的基于量化的质量评估工具的不足，Martinez Mateo et al. （2017）提出了一个翻译质量评估方案，包括理论模型和实践工具两个部分。理论模型被称为功能–成分模型，从功能学视角和整体质量观出发，采用质性模型中的自上而下视角建立质量评估工具，以提升评分员内部以及评分员之间的可信度；实践工具称为“评估模块包”，基于自由译者的译文组成的语料库对该评估工具进行前测和后测检验。研究结果显示，采用自下而上和自上而下的混合评估方法具有较好的优势，但功能–成分模型也暴露出一些不足，未来需要开展更多实证研究进一步论证其可操作性。

翻译质量的宏观评价和诊断评价

译文质量评价中评价的粒度有多种情况，目前大致可分为宏观评价与诊断评价两类。

宏观评价就是评价者通过对译文的阅读，并参照原文，对待评译文进行一个整体的质量估计，给以一个实数分数或是质量档次的评价结果，也就是评分。宏观评价不要求指出译文存在的问题，是评价者凭借个人对译文总体的主观印象进行估计打分。

宏观评价常用于大规模翻译考试或大量机器译文的评价，不关注译文质量的细节问题，评价所用的时间代价也较少。它主要依靠评价人员的直观印象，评价结果极易受个人的语言能力、理解水平、疲劳程度、严厉度等主客观因素的影响，不便于有针对性地提高翻译质量。

点击图片查看图书详情

诊断评价也称分析性评价，多见于语言学习者日常翻译训练，在机器翻译领域的评价中开展得很少。人工诊断评价的角度涉及译文的很多方面，比如语法形式是否正确、语义表达是否准确、语体是否恰当，甚至包括文化背景是否符合等等都可以列为诊断评价的内容。通常的情况下，诊断评价的结果是以文字说明的形式给出错误有关内容的描述。

在机器翻译评测中有少数研究开始关注此类诊断评价，目的是发现机器译文的具体问题。WMT（Workshop on Machine Translation）国际翻译比赛自2013年开始增加了译文词汇错误标注任务。译文词汇级的错误分类主要依据Vilar et al.（2006）的分类框（见下图）。由于错误识别的正确率太低，2015年WMT又将错误类别简化为good和bad两类。

俞士汶在评价机器翻译系统时，最早采用的也是诊断评价的思路（Yu，1991）。综合来看，诊断评价需要评价人员付出更多的劳动和时间，需要详细标定译文中的问题，再依据问题的多少和严重程度进行评价。

为尽量克服质量评价中的主观因素，提高评价的信度，实施诊断性评价一般都要对评价人员进行事先的培训和指导，明确正误等级和评价标准，有时也提供参考答案和各种档次的评价样例，才能得到一致性较好的评价结果。

宏观评价和诊断评价各有特点和优势，实际应用中，对译文评价的需求是多方面的，也是多变的。有时既需要从宏观评价中得到一个整体的质量区分度，又需要了解译文在哪些方面存在问题。为此，我们提出了构建层次化翻译评价体系的思想。层次化评价体系以功能语言学的思想为基础，从粗到细分为多个层次对译文的质量进行评估，以适用于多种应用需求。

译文质量评价体系设计为四层：整体评价层（L₀层）、质量分解层（L₁层）、错误类型层（L₂层）、具体错误层（L₃层），如下图所示。L₀和L₁层采取等级评分法，将整体质量、质量分解划分为0-4级的得分。在错误类型层评价时，需要标注错误的种类，基于标注结果可统计某一类型翻译错误的发生频次。基于错误类型并结合错误的严重程度，利用减分法从满分中扣除错误分，可得到上一层质量分解层的得分。

翻译测试与评估研究的挑战及其发展前景

总体来讲，虽然翻译测试与评估研究正在稳步发展，已经取得了长足的进步，但就研究的深度和广度而言，我们还面临以下挑战：

1）翻译测试的构念（即对于翻译能力的认识）还需不断完善。目前，不同的学者提出了不同的翻译能力模式，翻译能力成分日益庞杂，各个模式之间既有内容重合的部分，也有迥异之处，有些模式内部甚至还存在表述不清、自相矛盾的地方，如何对这些模式进行整合是一个值得关注的课题。

2）翻译测试的设计还需更多地借鉴语言测试其他方面的研究成果。从本质上来讲，翻译测试属于语言测试的一个分支，语言测试研究历史悠久，研究成果丰富，业界关于测试的设计流程、具体步骤等方面已经形成了较为统一的认识，而翻译测试还未能全方位地借鉴和吸收相关成果。国内外各类翻译水平测试虽然蓬勃开展，但这些测试的设计是否科学、题型是否合理等问题还有待探讨，相关信息也很难为普通研究者所获取。翻译教学测试也存在同样的问题，以往的一些调查表明，在考查学习者的翻译能力时，教师设计的翻译测试存在题型单一、翻译任务与所测能力不相符等问题。

3）翻译测试与评估的研究方法较为单一。与针对阅读、听力、口语与写作能力的测试研究相比，对于翻译能力的研究明显较为薄弱。当前研究主要以理论探讨为主，实证研究还有待加强，实证研究的具体手段有待丰富；当前对于学生翻译能力的研究主要运用的是横向对比法，很少见到通过较长时期的跟踪来考查翻译能力发展的研究。由于当前研究方法与手段存在局限性，我们对翻译能力的性质、特点和发展规律等方面的认识还有较大的提升空间。

点击图片即可购买图书

针对这些问题，未来研究可关注以下几点：

1）进一步从认知心理的角度来认识翻译的认知过程。翻译过程涉及源语信息解读、信息语际转换、译语信息表达等多个认知思维活动。我们先要了解翻译是怎么回事，才能有效地测量翻译能力。

2）提高翻译测试的交际性和真实性，尤其要加强翻译任务的取样研究，确保测试结果能充分反映考生完成实际翻译任务的能力，从而提高翻译测试的效度。

3）对当前翻译能力模式进行对比分析及进一步整合，加强翻译测试设计的理论建构。

4）针对翻译测试的题型设计、评分方式等方面开展实证研究，研究手段要多样化，充分借鉴听、说、读、写等其他类型语言测试研究的方法，进一步提高翻译测试实证研究的水平。

5）开展对翻译学习者的长期跟踪研究，进一步探索翻译能力的发展过程，以获取更多的数据来探究影响翻译能力及其发展过程的因素。研究者一方面可以从翻译的认知心理过程入手；另一方面可以加强对学习者的翻译文本的研究，通过对译文常见错误类型、词汇句式特征等方面的分析对学习者翻译能力的表现形成更加系统的认识。这些研究结果可以指导翻译测试的设计，帮助我们更好地评价学习者的翻译能力。

相关阅读

新书速递｜《翻译能力研究》赵秋荣葛晓华著

新书速递 | 《翻译测试与评估研究》杨志红著

新书推荐 | 《翻译质量评价的标准与自动评价方法研究》

翻译能力如何评估？

热点聚焦 | 再议翻译测试与评估

读书三味 | 《翻译测试与评估研究》读书小记