译界动态｜华为翻译中心在WMT 2023通用、领域(生物医学)、文学翻译任务中斩获多个第一

翻译圈

2024-09-09

01 WMT翻译赛事介绍

WMT国际机器翻译大赛是享誉全球的顶级机器翻译比赛。在 WMT 2023主办的机器翻译赛事活动中，华为翻译中心（以下简称 HW-TSC）参加了包括通用翻译、领域翻译（生物医学）和文学翻译三个翻译类赛道；同时参加了翻译赛道的评估数据集套件任务，提供了系统化的方案以构建数据集。

华为翻译中心获得通用翻译任务英中和中英受限赛道第一，领域（生物医学）赛道de2en第一，文学赛道中英非受限第一的好成绩！

02 翻译任务介绍

通用翻译任务：该任务专注于评估通用场景下机器翻译系统的翻译能力。与以往只评估新闻领域翻译不同，本次任务的测试集包含新闻、社交媒体用户生成内容、对话和电商等多个领域的数据。HW-TSC本次参与了中英语种的赛道。

领域（生物医学）翻译任务：该任务专注于评估机器翻译系统在生物医学这个专业领域内的翻译能力。由于生物医学领域专业性很强，可利用的平行语料有限，所以进行领域自适应成为了这次任务的主要研究方向和技术难点。

文学翻译任务：该任务主要目标是提高Transformer模型在小说文本机器翻译任务上的篇章建模与连贯性，具体体现为两个指标：人名地名等实体翻译的一致性；篇章层面语义信息（如代词）的翻译质量。

MT测试套件任务：机器翻译评估的重要性不仅在于可以验证训练策略的有效性，也为未来的研究提供了方向。因此，需要一个公平高效的评估方法。然而目前为止，很少有研究考察源句子难度对评估结果的影响。

03 比赛成绩

HW-TSC获得通用翻译任务英中和中英受限赛道第一名

HW-TSC获得生物医学赛道de2en语种的第一名

HW-TSC获得文学赛道中英非受限第一名

04 技术解读

通用、生物医学和文学翻译任务技术点

技术点1 ：数据处理

HW-TSC采用重复数据删除、XML内容处理、语言检测与句对对齐过滤等处理策略，有效地提升数据的质量与可利用性。同时，引入了一种数据去噪方法，即使用语义相似度模型计算每对句子之间的相似性，过滤掉低于阈值的样本对，减少训练过程中的语义偏差问题。

这些策略确保了模型训练的数据规模既足够大，又经过细致的预处理与质量控制。下图分别为生物医学翻译、通用翻译和文学翻译赛道的训练数据。

技术点2：数据增强

HW-TSC使用了双向训练方法进行数据增强，以增加模型感知到数据的多样性。

正向翻译方法：使用Teacher模型对源语言单语料进行翻译，得到合成平行语料，并和真实平行语料一起训练Student模型。这种自学习方法经常用于数据增广，从而提高模型性能。
反向翻译方法：利用目标语言单语料进行反向翻译生成源语言数据。采样反向翻译可以避免错误积累的问题。

HW-TSC通过正向模型和反向模型生成增强数据，并融合到原始训练集中，这样可以有效提升神经机器翻译的性能，且无需额外增添计算量。

技术点3：模型框架优化

在通用翻译和生物医学翻译的两个赛道中，HW-TSC继续采用基于Transformer的神经机器翻译结构，其区别是使用了更加深层的Encoder-Decoder架构。包含25个Encoder层和6个Decoder层，参数量相当于Transformer Big模型。这种架构在保证模型表征能力的同时，大量参数也有利于学到更抽象和高级的语义表示。同时采用了dropout来正则化，不同训练阶段的dropout rate各有不同。另外在训练过程中使用了正则化随机失活，通过正则项控制不同抽样子模型输出的一致性，提高模型的泛化性。

MT测试套件任务技术点

技术点：多维度挑战性测试集构建

HW-TSC提出了一个系统性的方法，从Wiki语料库中选择具有高难度的测试语句，从词汇难度、长度难度、语法难度和模型学习难度四个维度构建挑战性测试集，并开源了中英和英中两个测试集。

其中语法难度使用句法树的third level pattern的频率，该频率越低表示句子的句法结构越复杂。具体而言，HW-TSC首先解析语料获得每个句子的句法结构，然后统计third level pattern的频率。选择频率最低的1000句作为candidates，并人工检查句子语义，最后选择其中的500句作为测试集。

05 关于华为翻译中心

华为翻译中心隶属于华为2012实验室，是一支同时具备机器翻译研发人员和专业人工译员的综合语言服务团队，专注于机器翻译、人工翻译和跨语言本地化业务的开展。

从统计机器翻译，到神经网络机器翻译，再到语音翻译，我们始终扎根机器翻译技术，吸收宇宙能量，致力于为用户提供更好的翻译体验。通过机器翻译研发人员和专业人工译员的深度协同，我们能够快速有效地进行产品迭代，并进一步探索人机协同等热点领域。同时，我们正在实验基于盘古大模型的多语言机器翻译方案，敬请期待。

我们的最新研究成果先后发表于ACL、NAACL、ICLR、ICASSP、WMT、IWSLT、CCMT、Interspeech等顶级会议；我们提供的多语言翻译能力，已广泛应用在Harmony OS、HMS Core和华为云上。