【NLP论文分享&&机器翻译】多语言标记训练中NMT对语言失衡的鲁棒性
引言
在训练多语言标记器时,是否在为平衡不同语言的数据而苦恼?亦或者在为新语言使用预先训练过的多语言标记器时犹豫不决?那么本文主要研究成果或许可以帮助到你。
研究内容
多语言标记器是多语言神经机器翻译的基本组成部分。它是从多语言语料库中训练出来的。由于偏态数据分布被认为是有害的,因此通常使用采样策略来平衡语料库中的语言。
之前的工作主要是在模型训练和分词器训练中使用温度采样来平衡不同语言的数据。但是,还不清楚它们如何影响下游性能。因此,我们主要研究多语言标记训练中NMT对语言失衡的鲁棒性如何。
实验及结论
通过8种语言的双语和多语实验,本文得出了5个结论。
(1) 相比我们预期,NMT对标记器训练中的语言不平衡表现具有通过对 8 种语言的双语和多语种实验,通过对 8 种语言的双语和多语种实验,更强的鲁棒性:当两种脚本共享语言的比例相差达到时,性能就会下降。
(3)英语“永远不会”短缺,因为英语标记经常出现在其他语言的单语数据中。
(5) NMT 在模型训练中比在分词器训练中对语言不平衡更敏感。
两个实用建议
(1)在训练多语言标记时,尽可能保持语言的平衡。
(2)在应用现有的标记化器之前,需要在开发集上评估它,以确保每种语言的UNK率和字符级别的接近度较低。
推荐阅读
[1]必看!!【AINLPer】自然语言处理(NLP)领域知识&&资料大分享
[2]【NLP论文分享&&语言表示】有望颠覆Transformer的图循环神经网络(GNN)
[2]【NLP论文分享&&中文命名实体识别】如何构建一个优秀的Gazetteer/地名词典(浙大&含源码)
论文&&源码
Title: How Robust is Neural Machine Translation to Language Imbalance in Multilingual Tokenizer Training?
Author: MetaAI && Uncnlp
Paper:https://arxiv.org/abs/2204.14268