译界动态|华为翻译中心在WMT 2023通用、领域(生物医学)、文学翻译任务中斩获多个第一
01 WMT翻译赛事介绍
WMT国际机器翻译大赛是享誉全球的顶级机器翻译比赛。在 WMT 2023主办的机器翻译赛事活动中,华为翻译中心(以下简称 HW-TSC)参加了包括通用翻译、领域翻译(生物医学)和文学翻译三个翻译类赛道;同时参加了翻译赛道的评估数据集套件任务,提供了系统化的方案以构建数据集。
华为翻译中心获得通用翻译任务英中和中英受限赛道第一,领域(生物医学)赛道de2en第一,文学赛道中英非受限第一的好成绩!
02 翻译任务介绍
正向翻译方法:使用Teacher模型对源语言单语料进行翻译,得到合成平行语料,并和真实平行语料一起训练Student模型。这种自学习方法经常用于数据增广,从而提高模型性能。 反向翻译方法:利用目标语言单语料进行反向翻译生成源语言数据。采样反向翻译可以避免错误积累的问题。
在通用翻译和生物医学翻译的两个赛道中,HW-TSC继续采用基于Transformer的神经机器翻译结构,其区别是使用了更加深层的Encoder-Decoder架构。包含25个Encoder层和6个Decoder层,参数量相当于Transformer Big模型。这种架构在保证模型表征能力的同时,大量参数也有利于学到更抽象和高级的语义表示。同时采用了dropout来正则化,不同训练阶段的dropout rate各有不同。另外在训练过程中使用了正则化随机失活,通过正则项控制不同抽样子模型输出的一致性,提高模型的泛化性。
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。
- END -
翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!
转载来源:翻译技术教育与研究
转载编辑:刘柏君
审核:吴志雄、刘一葶
项目统筹:吴志雄
资讯推荐
▶精品课程
精品课程|(今晚开课)从入门到进阶:语料库建设与统计分析实务
新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命
▶资源宝库
翻译技术|提升 ChatGPT 翻译质量的简单 prompt
翻译技术|以Sketch Engine为船遨游语料海洋(二)
翻译技术|The Free Dictionary-多语在线词典搜索引擎
▶翻译百科
▶代码分享
▶文献精读
文献精读|Explicitation in Neural Machine Translation
文献精读|Vanmassenhove:机器翻译中语言丰富性缺失
▶译界动态
CATTI和MTI资讯
语言服务就业信息
翻译名师真知灼见
翻译学习精品课程