SFFAI分享 | 罗玲:From Word Representation to BERT【附PPT,视频】
关注文章公众号
回复"SFFAI24"获取PPT资料
视频资料可点击下方阅读原文在线观看
导读
在自然语言处理任务中,词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。Word2Vec等传统的词向量预训练模型都是静态且上下文无关的,不能很好的处理同一个词不同语义。Google发表的论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》提出了BERT模型解决了这样的问题。作为刷新GLUE榜单11项NLP任务(句子关系判断,分类任务,序列标注任务等)成绩的预训练模型,BERT不仅沿袭将词向量和下游任务结合在一起实现上下文相关的优点,并且通过masked语言模型实现了真正的深度双向模型。同时BERT不仅能更好的处理sentence-level的任务,在token-level的语言任务上也达到了不错的效果。BERT不仅带来了研究的热潮,它对NLP任务的影响也在持续发酵中。
自我介绍
罗玲,2018年获南开大学工学学士学位,专业计算机科学与技术,现保送至中国科学院计算科学技术研究所智能信息处理实验室,研究兴趣为自然语言处理、语义分析,意⻅挖掘,文本摘要等。2018年在IJCAI会议一作发表论文1篇,大四于计算所实习期间参与债券舆情分析与金融风险感知等多个项目,并于2018年暑期入选腾讯犀牛鸟精英人才计划,赴腾讯AI Lab交流合作。
正文
在自然语言处理任务中,词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。生成词向量的方法从一开始基于统计学(共现矩阵、SVD分解)到基于神经网络的语言模型(Word2Vec等)。但是这些训练得到的词向量都是静态且上下文无关的,不能很好的处理同一个词不同语义的情况(例如同一个“苹果”的词向量不能同时表达“我买了一个苹果手机”以及“我买了一斤苹果”中的“苹果” )。
2018年Google发表的论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,提出了BERT模型,旨在通过预训练语言模型来得到动态上下文相关的词向量(“苹果”一词的词向量在“我买了一个苹果手机”和“我买了一斤苹果”中不同)。如图所示,BERT是多层双向Transformer的encoder块:
BERT首先在大规模的语料库中pre-train,然后将下游任务输入,进行比较轻量级的fine-tuning。
(1)pre-train: 与普通的预训练语言模型不同的是,BERT的预训练目标是Mask Language Model加上Next Sentence Prediction。Mask Language Model是受到完形填空的启发,它不同于传统的语言模型,它盖住整篇文章15%的词,然后用其他的词预测这15%的词。被盖住的词用[mask]这样的一个标记代替,但是由于下游任务中没有[mask]这个符号,为了削弱这个符号的影响,15%被盖住的词中,80%的词就用[mask]符号盖;10%的词保留原来真实的词;10%的词用随机的一个词替代。因为Mask Language Model只获得了Token级别的特征,但是对于一些句间关系的推理,对话系统、问答系统需要捕捉一些句子的特征,BERT同时也采用给定2个句子,判断它们是否是连续的句子的方式捕捉句子级别的特征,该训练目标为Next Sentence Prediction。
(2)fine-tuning:BERT是一种fine-tuning的方法,预训练好的BERT直接接入下游任务随着下游具体任务进行精调。如下图所示,对于句子关系类的任务,每个句子加上起始和结束的符号,句子之间加入分割符号,经过BERT模型它起始位置的输出连接上一个softmax的分类器即可。对于序列标注的模型,加入起始与结束的符号后,对于最后BERT每个位置的输出都加入一个线性的分类器。
NLP一共有4大类的任务:
1) 序列标注:分词/词性标注/命名实体识别...
2) 分类任务:文本分类/情感分析...
3) 句子关系判断:自然语言推理/深度文本匹配/问答系统...
4) 生成式任务:机器翻译/文本摘要生成...
BERT为这4大类任务的前3个都设计了简单的下游接口,实验效果全面取得了大幅度的提升。截止2018年10月,刷新了GLUE榜单上11项NLP任务,为NLP的研究带来了热潮。
除了BERT能动态获得上下文相关的词向量以外,[Peters et al., 2017] 提出了一种Feature-based的ELMo的模型,它是通过训练基于LSTM的两个不同方向的语言模型进行目标优化的。[Radford et al., 2018]提出基于单向Transformer的GPT模型,也取得了不错的效果。与ELMo相比,BERT能够更能高效捕捉更长距离的依赖,同时能捕捉到真正意义上的双向上下文信息,用Transformer取代LSTM使得模型的并行化程度更高。与OpenAI GPT相比,BERT的训练时长和词典数量更大,优化目标是MLM和NSP两个任务,且它在fine-tuning时的学习率是根据任务变换的。
BERT的成功让我们不禁思考未来的发展方向在哪里,我们还能做什么?
1. BERT在机器翻译等生成式任务上表现还没有那么好的提升效果,未来如何将其运用机器翻译等生成式任务上值得我们探索。
2. 对预训练模型在下游任务的Fine-tuning阶段需要大量标注数据,当标注数据很少,如何提升模型的表现效果呢?微软提出了MT-DNN模型,利用多任务学习来进行模型精调,减少了单个任务对于标注数据的需求,而在MT-DNN模型9/11项任务超越了BERT。
3. BERT本身的设计也值得我们借鉴以及思考。由于预训练语言模型只获得了Token级别的特征,但是对于一些句间关系的推理,对话系统、问答系统需要捕捉一些句子的特征,所以BERT采用了训练Next Sentence Prediction的任务。这样的额外训练任务不仅在句子层面带来了良好的效果,它也不需要额外的标注信息,充分利用了无监督数据。在我们日常的训练任务中,我们也可以考虑我传统的训练目标是否真正合理从而来提升我们的效果。
SFFAI招募召集人!
Student Forums on Frontiers of Artificial Intelligence,简称SFFAI。
现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。
SFFAI自2018年9月16日举办第一期线下交流,每周一期,风雨无阻,截至目前已举办18期线下交流活动,共有34位讲者分享了他们的真知灼见,来自100多家单位的同学参与了现场交流,通过线上推文、网络直播等形式,50000+人次参与了SFFAI的活动。SFFAI已经成为人工智能学生交流的第一品牌,有一群志同道合的研究生Core-Member伙伴,有一批乐于分享的SPEAKER伙伴,还有许多认可活动价值、多次报名参加现场交流的观众。
2019年春季学期开始,SFFAI会继续在每周日举行一期主题论坛,我们邀请你一起来组织SFFAI主题论坛,加入SFFAI召集人团队。每个召集人负责1-2期SFFAI主题论坛的组织筹划,我们有一个SFFAI-CORE团队来支持你。一个人付出力所能及,创造一个一己之力不可及的自由丰盛。你带着你的思想,带着你的个性,来组织你感兴趣的SFFAI主题论坛。
当召集人有什么好处?
谁可以当召集人?
怎样才能成为召集人?
为什么要当召集人?
了解我们,加入我们,请点击下方海报!
历史文章推荐:
语音关键词检测方法综述【附PPT与视频资料】
脉冲神经网络与小样本学习【附PPT】
基于深度学习的人脑视觉神经信息编解码研究进展及挑战【附PPT】
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
基于姿态的人物视频生成【附PPT与视频资料】
阅读+验证:面向无答案问题的机器阅读理解【附PPT与视频资料】
上下文敏感的改写式回复生成模型【附PPT与视频资料】
基于人体骨架的行为识别【附PPT与视频资料】
基于深度学习的通用物体检测算法对比探索【附PPT与视频资料】
你正在看吗?👇