查看原文
其他

华为诺亚方舟开源预训练模型“哪吒”,4项任务均达到SOTA

CSDN App AI科技大本营 2019-12-18

出品 | AI科技大本营(ID:rgznai100)

BERT之后,新的预训练语言模型XLnet、RoBERTa、ERNIE不断推出,这次,华为诺亚方舟实验室开源了基于BERT的中文预训练语言模型NEZHA(哪吒),寓意模型能像哪吒那样三头六臂、大力出奇迹,可以处理很多不同的自然语言任务。

 

据介绍,当前版本的NEZHA基于BERT模型,并进行了多处优化,能够在一系列中文自然语言理解任务达到先进水平。

 

NEZHA模型的实验中采用了5个中文自然语言理解任务,即CMRC(中文阅读理解)、XNLI(自然语言推断)、LCQMC(句义匹配)、PD-NER (命名实体识别任务)、ChnSenti(情感分类)。

 

研究人员在中文维基百科、中文新闻、百度百科数据上训练NEZHA模型,并且和谷歌发布的中文BERT,以及哈工大和科大讯飞联合发布的BERT-WWM,还有百度发布的ERNIE-Baidu进行了比较。从下表可以看出,NEZHA在XNLI,LCQMC,PeoplesDaily NER,ChnSenti任务上达到了先进水平(SOTA)。表中NEZHA,NEZHA-WWM和NEZHA-Span分别代表由原始的BERT预训练任务训练得到的,加入全词Mask训练得到的以及加入Span预测任务训练得到的NEZHA模型(三者均使用了全函数式相对位置编码)。



GitHub链接:

https://github.com/huawei-noah/Pretrained-Language-Model/blob/master/README.md


论文链接:

https://arxiv.org/abs/1909.00204

 

此外,诺亚方舟实验室还开源了TinyBERT预训练语言模型。

 

尽管语言模型预训练(例如BERT)大大改善了许多自然语言处理任务的性能。但是,预训练语言模型通常在计算上昂贵且占用了大量内存,因此很难在某些资源受限的设备上有效执行它们。为了加快推理速度、减小模型大小并同时保持精度,华为研究人员提出了一种新颖的transformer蒸馏方法,该方法是针对基于transformer模型专门设计的知识蒸馏(KD)方法。

 

通过利用这种新的知识蒸馏方法,可以将BERT中编码的大量知识很好地转移到TinyBERT。此外,他们为TinyBERT引入了一个新的两阶段学习框架,该框架在预训练阶段和特定任务的学习阶段都执行transformer蒸馏方法。该框架确保TinyBERT可以捕获BERT的一般领域知识和特定任务知识。在GLUE基准测试中,TinyBERT相比BERT小7.5倍,比其推理的速度快9.4倍,并且在自然语言理解任务中具有竞争优势。

 

它在预训练和特定任务的学习阶段都运行了新型的transformer蒸馏方法。TinyBERT学习的概述如下所示:


 

论文链接:

https://arxiv.org/abs/1909.10351

 

NEZHA预训练语言模型的三大改进维度

 

据诺亚方舟实验室的官方资料,NEZHA(哪吒)基于BERT在模型、预训练任务和训练算法三个维度进行了改进。

 

             

模型改进:BERT的网络架构是一个多层的Transformer网络,由于Transformer并没有直接考虑输入的token的位置信息,原始的Transformer模型和BERT分别采用了函数式和参数式的绝对位置编码方式,即每一个位置上的输入的token会叠加一个与位置信息相关的一个embedding(这个embedding称为绝对位置编码:absolute position embedding,APE),前者的位置编码是一个与位置相关的函数,后者则是模型参数的一部分,在预训练过程中学到的。


此后,又有工作提出了相对位置编码方式,即在每一层计算隐状态的相互依赖的时候考虑他们之间的相对位置关系,这个相对位置信息表示为一个相对位置编码(relative position embedding,RPE),已有工作均在相对位置编码中加入了可学习的参数。本工作在BERT模型中使用了完全函数式的相对位置编码(相对位置编码没有任何需要学习的参数),实验结果表明该位置编码方式使得模型在各个下游任务上的效果均得到明显提升。

 

预训练任务:本工作引入了全词Mask技术,即不同于原始的BERT模型Mask单个中文字,该技术在MLM预训练任务中Mask整个词而不是单个字(如下图全词Mask方法Mask了一整个词“华为”),进而提升了任务难度使得BERT学到更多语义信息。

       


此外,借鉴SpanBERT ,NEZHA模型还引入了Span预测任务,该任务Mask一个连续的Span(例如下图中“机”,“很”,“不”三个字),利用Span前后的两个字的最上层表示(下图中的x3和x7)以及待预测字的位置信息来预测该字,如下图中,待预测字为“不”,Span预测任务会使用x3,x7和“不“”这个字的位置信息(就是x3和x6还有x6和x7之间的相对位置编码)来预测该字,“机”和“很”的预测也是同样的方法。


该方法使得Span前后的字的表示会包含Span中字的语义信息,由于在训练过程中,一个句子会被随机Mask很多次,所以句子中每个字都有机会成为Span的前后字,进而使得各个字学到的表示都会包含周围Span的信息,Span预测任务能够有效提高模型在下游的Span抽取任务(此任务的目标是获取一段文字中目标片段的开始和结束位置)的效果。

             

训练算法:在训练过程中,采用混合精度训练(Mixed Precision Training)方式,在传统的深度学习训练过程中,所有的变量包括weight,activation和gradient都是用FP32(单精度浮点数)来表示。而在混合精度训练过程中,每一个step会为模型的所有weight维护一个FP32的copy,称为Master  Weights,在做前向和后向传播过程中,Master Weights会转换成FP16(半精度浮点数)格式,权重,激活函数和梯度都是用FP16进行表示,最后梯度会转换成FP32格式去更新Master Weights。


优化器方面使用了LAMB优化器,通常在深度神经网络训练的Batch Size很大的情况下(超过一定阈值)会给模型的泛化能力带来负面影响,而LAMB优化器通过一个自适应式的方式为每个参数调整learning rate,能够在Batch Size很大的情况下不损失模型的效果,使得模型训练能够采用很大的Batch Size,进而极大提高训练速度。在训练BERT的研究中,使用LAMB优化器在不损失模型效果的前提下,Batch Size达到了超过30k,使得BERT的训练时间从3天降到了76分钟。


(*本文为AI科技大本营整理文章,转载请微信联系 1092722531)


精彩公开课




推荐阅读

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存