【金猿技术展】多语言预训练框架——mRASP
火山引擎技术
大数据产业创新服务媒体
——聚焦数据 · 改变商业
●问题
目前绝大多数AI 任务都是建立在数据的基础之上的统计学习,模型的表现效果很大程度上依赖于数据的质量和数量。利用大量较易获得的数据来预训练模型,在具体应用场景再利用少量标注数据微调来实现实际场景可用的模型,已经成为NLP新的成功范式。不过,在多语言的机器翻译中,通过预训练再微调的范式还未取得普遍的成功。以前的NLP预训练方式例如BERT、GPT训练目标与翻译关注的目标之间差距过大,不易直接使用。mRASP提出了全新的思路,利用多个语言已经积累的大量双语平行语料,合并起来联合训练一个统一的模型,之后再基于此微调,让预训练和微调目标尽可能接近,这样才能更大发挥预训练模型作用。
●应用
mRASP模型支持通过预训练技术、再在具体语种上微调,即可达到领先的翻译效果,当前已应用于「火山翻译」扩语种项目。
●技术优势
1. 通用性极强
a. 打破了资源场景的限制
不论平行双语资源高低都能有提升。En->De wmt 2016测试集上达到了30.3 (tokenized BLEU), En->Fr wmt 2014测试集上达到了44.3 (tokenized BLEU)
b. 打破了语种的限制
任何语言的翻译,无论是孟加拉语到古吉拉特语还是印地语到菲利宾语,基于mRASP 模型微调,新拓展的语种效果可期。即使是不包含在预训练阶段平行句对中的语向上微调,也能取得很大的提升。这类方向也称作"Exotic Directions",在Exotic Directions上是否有效果,体现了 mRASP 是否具有很好的扩展性和泛化能力。
Exotic Directions分为四种情况:
1.Exotic Pair: 源语言和目标语言都经过了单独的预训练,但模型还没有见过它们组成的双语对;
2.Exotic Source: 模型在预训练阶段只见过目标端语言,源端语言完全没见过;
3.Exotic Target: 模型在预训练阶段只见过源端语言,目标端语言完全没见过;
4.Exotic Full: 模型在预训练阶段完全没见过源端语言和目标端语言。
这四种未见语对情况下训练机器翻译都很难。当然其中难度最大的是最后一种,相当于要求只学习了中文和英语的人,读少量拉丁语和印地语的句子就可以从拉丁语到印地语翻译。
2. 模型简单易复现,资源消耗低
仅使用了共1.1亿对平行句对(由于同一对平行句对对两个方向都适用,所以一共是2.2亿个训练样本),词表大小仅64k个bpe subword,相比于其它预训练方法,动辄百亿数据几十层网络,训练难度更小,单机8卡不到一周在32个语言上就可以完成预训练。当然在更多语言上的预训练模型也可以简单扩展获得。
mRASP 遵循了通用的预训练-微调框架。预训练阶段,不同于传统预训练模型大量堆叠无监督单语数据的方式,mRASP 另辟蹊径,采用了多语言平行数据作为预训练的主要目标,将几十种语言的平行数据放到同一个模型进行联合训练。神经网络结构采用Transformer,加上语言标识符(Language token)标识源语言和目标语言。为了保证不同语言的句子和词语能嵌入到同一个空间,同一个意思的句子无论中文还是英文说得都应该是对应同一个向量表示,又引入了随机替换对齐技术RAS,来制造更丰富的上下文。
●RAS:随机替换对齐
一句中文的句子"我 爱 北京 天安门"中的"爱"有一定概率被替换成"aime"(法语),"北京"也有一定概率被替换成"Pékin"(法语),于是原句就可能会变成"我 aime Pékin 天安门"。训练集中的一对平行句对可以变为两对(甚至三对、四对,……):
我 爱 北京 天安门 ==> I love Beijing Tiananmen Square
我 aime Pékin 天安门 ==> I love Beijing Tiananmen Square
对模型来说,通过大量学习这样的平行语料,它就会很自然地根据这种“人为制造”的“语境”学习到不同语言的同义词之间的对应关系。实际上,这种基于平行词典的随机替换方法,拉近了不同语言的同义句在空间上的分布。在上例中,“爱”和"aime"(法语)计算出来的词向量期望是尽可能接近的。
而在微调阶段,只需要使用预训练阶段的参数作初始化,之后采用和传统单向机器翻译相同的训练方法即可。因此使用mRASP并不需要掌握任何额外的技能。
●带队负责人:林泽辉、潘骁
林泽辉,2018年厦门大学本科毕业,2018-2021年于复旦大学NLP组作为硕士生从事自然语言处理相关研究。2020年5月起作为实习生加入字节跳动,从事机器翻译的研究。在实习期间,参加WMT机器翻译大赛,并获得德语->英语、德语->法语两项第一;同时在自然语言处理顶级会议EMNLP上以一作发表一篇论文。
潘骁,2016年同济大学本科毕业,2016-2018年在法国巴黎高科高等电信学院攻读工程师学位,2018年底加入字节跳动,初期负责英法翻译模型的训练,后来从事多语言翻译相关研究,2020年参加WMT机器翻译大赛,其参与的翻译方向中,德语->英语、德语->法语两项获得第一。
●其他重要成员:林泽辉、潘骁、王明轩、封江涛、周浩、李磊
●隶属机构:火山引擎
火山引擎是字节跳动旗下的数字服务与智能科技品牌,基于公司服务数亿用户的大数据、人工智能和基础服务等技术能力,为企业提供系统化的全链路解决方案,助力企业务实地创新,给企业带来持续、快速增长。
所获专利:一种翻译模型的获取方法、装置、设备和存储介质。
提示:了解更多相关内容,点击文末左下角“阅读原文”链接可直达该机构官网。
—— / END / ——
以下内容更精彩︾2020年度产业图谱: ●2020中国数据智能产业图谱1.0版 ●从产业图谱看中国2020年数据智能行业的发展态势2020数据猿《#榜样的力量#寻找新冠战“疫”,中国数据智能产业先锋力量》大型公益主题策划活动:
●《看过大佬们发的朋友圈之后,我相信:明天会更好,明年定会春暖花开》条漫
2019数据猿年度金猿榜: