查看原文
其他

译界动态|华为翻译中心在WMT 2023通用、领域(生物医学)、文学翻译任务中斩获多个第一

翻译圈
2024-09-09

01 WMT翻译赛事介绍

WMT国际机器翻译大赛是享誉全球的顶级机器翻译比赛。在 WMT 2023主办的机器翻译赛事活动中,华为翻译中心(以下简称 HW-TSC)参加了包括通用翻译、领域翻译(生物医学)和文学翻译三个翻译类赛道;同时参加了翻译赛道的评估数据集套件任务,提供了系统化的方案以构建数据集。

华为翻译中心获得通用翻译任务英中和中英受限赛道第一,领域(生物医学)赛道de2en第一,文学赛道中英非受限第一的好成绩!

02 翻译任务介绍

通用翻译任务:该任务专注于评估通用场景下机器翻译系统的翻译能力。与以往只评估新闻领域翻译不同,本次任务的测试集包含新闻、社交媒体用户生成内容、对话和电商等多个领域的数据。HW-TSC本次参与了中英语种的赛道。
领域(生物医学)翻译任务:该任务专注于评估机器翻译系统在生物医学这个专业领域内的翻译能力。由于生物医学领域专业性很强,可利用的平行语料有限,所以进行领域自适应成为了这次任务的主要研究方向和技术难点。

文学翻译任务:该任务主要目标是提高Transformer模型在小说文本机器翻译任务上的篇章建模与连贯性,具体体现为两个指标:人名地名等实体翻译的一致性;篇章层面语义信息(如代词)的翻译质量。


MT测试套件任务:机器翻译评估的重要性不仅在于可以验证训练策略的有效性,也为未来的研究提供了方向。因此,需要一个公平高效的评估方法。然而目前为止,很少有研究考察源句子难度对评估结果的影响。


03 比赛成绩
HW-TSC获得通用翻译任务英中和中英受限赛道第一名
HW-TSC获得生物医学赛道de2en语种的第一名
HW-TSC获得文学赛道中英非受限第一名
04 技术解读
通用、生物医学和文学翻译任务技术点
技术点1 :数据处理
HW-TSC采用重复数据删除、XML内容处理、语言检测与句对对齐过滤等处理策略,有效地提升数据的质量与可利用性。同时,引入了一种数据去噪方法,即使用语义相似度模型计算每对句子之间的相似性,过滤掉低于阈值的样本对,减少训练过程中的语义偏差问题。
这些策略确保了模型训练的数据规模既足够大,又经过细致的预处理与质量控制。下图分别为生物医学翻译、通用翻译和文学翻译赛道的训练数据。
技术点2:  数据增强
HW-TSC使用了双向训练方法进行数据增强,以增加模型感知到数据的多样性。


  • 正向翻译方法:使用Teacher模型对源语言单语料进行翻译,得到合成平行语料,并和真实平行语料一起训练Student模型。这种自学习方法经常用于数据增广,从而提高模型性能。
  • 反向翻译方法:利用目标语言单语料进行反向翻译生成源语言数据。采样反向翻译可以避免错误积累的问题。

HW-TSC通过正向模型和反向模型生成增强数据,并融合到原始训练集中,这样可以有效提升神经机器翻译的性能,且无需额外增添计算量。
 
技术点3: 模型框架优化

在通用翻译和生物医学翻译的两个赛道中,HW-TSC继续采用基于Transformer的神经机器翻译结构,其区别是使用了更加深层的Encoder-Decoder架构。包含25个Encoder层和6个Decoder层,参数量相当于Transformer Big模型。这种架构在保证模型表征能力的同时,大量参数也有利于学到更抽象和高级的语义表示。同时采用了dropout来正则化,不同训练阶段的dropout rate各有不同。另外在训练过程中使用了正则化随机失活,通过正则项控制不同抽样子模型输出的一致性,提高模型的泛化性。


MT测试套件任务技术点
技术点:多维度挑战性测试集构建
HW-TSC提出了一个系统性的方法,从Wiki语料库中选择具有高难度的测试语句,从词汇难度、长度难度、语法难度和模型学习难度四个维度构建挑战性测试集,并开源了中英和英中两个测试集。
其中语法难度使用句法树的third level pattern的频率,该频率越低表示句子的句法结构越复杂。具体而言,HW-TSC首先解析语料获得每个句子的句法结构,然后统计third level pattern的频率。选择频率最低的1000句作为candidates,并人工检查句子语义,最后选择其中的500句作为测试集。
05 关于华为翻译中心
华为翻译中心隶属于华为2012实验室,是一支同时具备机器翻译研发人员和专业人工译员的综合语言服务团队,专注于机器翻译、人工翻译和跨语言本地化业务的开展。


从统计机器翻译,到神经网络机器翻译,再到语音翻译,我们始终扎根机器翻译技术,吸收宇宙能量,致力于为用户提供更好的翻译体验。通过机器翻译研发人员和专业人工译员的深度协同,我们能够快速有效地进行产品迭代,并进一步探索人机协同等热点领域。同时,我们正在实验基于盘古大模型的多语言机器翻译方案,敬请期待。


我们的最新研究成果先后发表于ACL、NAACL、ICLR、ICASSP、WMT、IWSLT、CCMT、Interspeech等顶级会议;我们提供的多语言翻译能力,已广泛应用在Harmony OS、HMS Core和华为云上。
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。

- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


转载来源:翻译技术教育与研究

转载编辑:刘柏君

核:吴志雄、刘一葶

项目统筹:吴志雄

资讯推荐


口译笔记技巧2


▶精品课程

精品课程|(今晚开课)从入门到进阶:语料库建设与统计分析实务

精品课程|从入门到进阶:语料库建设与统计分析实务

新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命

▶资源宝库

翻译技术|提升 ChatGPT 翻译质量的简单 prompt

翻译技术|以Sketch Engine为船遨游语料海洋(二)

翻译技术|The Free Dictionary-多语在线词典搜索引擎

翻译技术|字幕翻译配音恐失业,Ai翻译配音超逼真

资源宝库|小鹤音形输入法——打字,你还能更快!

资源宝库|经济学人等160多家外刊免费看!

资源宝库|哈利波特1~8季大放送

▶翻译百科

翻译百科|《中国大百科全书》中的“翻译学”

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“翻译层次”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

▶代码分享

翻译技术|代码分享——textblob情感分析

翻译技术|代码分享-提取三连词

翻译技术|代码分享——中文词云生成

翻译技术|代码分享——标准类符形符比

翻译技术|代码分享——清除符号

▶文献精读

文献精读|Explicitation in Neural Machine Translation

文献精读|Vanmassenhove:机器翻译中语言丰富性缺失

▶译界动态

译界动态|翻译公司—日本Honyaku Center简介

论坛预告 | 2023翻译技术与语言服务人才培养高端论坛

译界动态|2023“理解当代中国”多语种国际翻译大赛

译界动态|美国文学翻译协会 ( ALTA )简介

译届动态|公益沙龙之ChatGPT时代译者的搜商体系构建之道

  关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存