其他
【综述专栏】预训练模型-中文预训练模型
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
地址:https://www.zhihu.com/people/ma-zong-3
01
1.1 ERNIE和BERT的不同
Learned by BERT :哈 [mask] 滨是 [mask] 龙江的省会,[mask] 际冰 [mask] 文化名城。 Learned by ERNIE:[mask] [mask] [mask] 是黑龙江的省会,国际 [mask] [mask] 文化名城。 ERNIE 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是『黑龙江』的省会以及『哈尔滨』是个冰雪城市 ERNIE学习出哈尔滨、黑龙江的完整概念的语义表示,学习出哈尔滨、黑龙江实体间的语义关系
1.2 集成三种MASK策略
Basic-level:字级别的MASK phrase-level:短语(a series of) entity-level:人名,地名,组织名,产品名
1.3 多源数据
Chinese Wikepedia Baidu Baike Baidu news Baidu Tieba
1.4 DLM:Dialogue Language Model
跨语言自然语言推理,XNLI 语义相似度任务,LCQMC 情感分析任务,ChnSentiCorp 命名实体识别任务,MSRA-NER 检索式问答匹配任务,NLPCC-DBQA
02
2.1 连续学习框架
连续用大量的数据与先验知识连续构建不同的预训练任务 不断的用预训练任务更新ERNIE 模型
单词和句子的共现(co-occurrence of words and sentences) 词汇、句法和语义信息(lexical, syntactic and semantic information)
所有任务共享encoder layer的权重 sequence level loss和token-level loss,联合更新encoder
2.2 模型结构
Token enbedding,Sentence embedding,Position Embedding task embedding(0-N):任务编号依次与下面的任务对应
2.3 预训练任务
词法级别预训练任务: Knowledge Masking Task :ERNIE1.0中的MASK策略 Capitalization Prediction Task :判断一个词是否大写 Token-Document Relation Prediction Task :预测一个词在文中的A段落出现,是否会在文中的B段落出现
语法级别预训练任务: Sentence Reordering Task :将段内打乱的句子重排序 Sentence Distance Task :NSP的增强版,三分类任务来判别句子的距离(0表示邻近句子、1表示文档内非邻近句子、2表示非同文档内句子) 语义级别预训练任务: Discourse Relation Task :句对(sentence pairs) 间的修辞关系 IR Relevance Task :三分类任务来判别搜索引擎中query和title间的关系(0表示强关系、1表示弱关系、2表示无关系)
03
3.1 相对位置编码函数(Functional Relative Positional Encoding)
3.2 全词掩码(Whole Word Masking)
3.3 混合精度训练(Mixed Precision Training)
3.4 优化器改进(LAMB Optimizer)
04
4.1 N-gram Extraction
收集训练语料中所有ngram的集合(n-gram lexicon) 根据每个训练instance中ngram的位置,得到ngram match matrix
4.2 N-gram Embedding
4.3 Representing N-grams in Pre-training
05
06
A+B MLM=>PLM transformer内核(Synthesizer,Linformer) 轻量化(硬件资源),定制化
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“综述专栏”历史文章
知识蒸馏在推荐系统中的应用
如何在标注存在错标的数据上训练模型
DL:LSTM如何实现长短期记忆
卷积网络压缩方法总结
深度学习模型泛化性小结
transformer面试题的简单回答
进化吧,self_attention
如何定义目标检测网络的正负例:Anchor-based
走马观花AutoML
自然语言处理面试题
group convolution (分组卷积)详解
最简单的self-supervised方法
神经网络可解释性综述
什么是知识图谱|知识图谱入门|概述
更多综述专栏文章,
请点击文章底部“阅读原文”查看
分享、点赞、在看,给个三连击呗!