查看原文
其他

超详综述 | 基于深度学习的命名实体识别

马敏博 PaperWeekly 2022-03-17


©PaperWeekly 原创 · 作者|马敏博

单位|西南交通大学硕士生

研究方向|命名实体识别



论文名称:A Survey on Deep Learning for Named Entity Recognition

论文链接:https://arxiv.org/abs/1812.09449



目前已被数据挖掘顶刊 TKDE 收录,先膜拜!

目录


1. 全文简介

2. NER任务简介

3. NER标注语料库(公开评测集)

4. off-the-shelf NER工具

5. 评价指标

6. 序列标注标签方案

7. 四类NER常用方法

8. 基于规则的NER方法

9. 基于无监督学习的NER方法

10. 基于特征的有监督学习NER方法(传统机器学习)

11. 基于深度学习的NER方法

  • 11.1 深度学习在NER任务上的优势

  • 11.2 分布式表示

  • 11.3 上下文编码

    • 11.3.1 CNN

    • 11.3.2 循环神经网络 RNN

    • 11.3.3 递归神经网络

    • 11.3.4 Transformer

    • 11.3.5 神经语言模型

  • 11.4 标签解码

12. 其他研究方向的NER方法
13. NER任务的挑战与机遇
  • 13.1 面临的挑战

  • 13.2 机遇与未来可研究方向



全文简介


从摘要中可以看出全文的介绍路线分为五部分,具体为:

1. NER 任务的常用标注语料
2. 现成的 NER 工具
3. 三个角度介绍现有研究工作:分布式嵌入表示,文本编码,标签解码;
4. 其他研究方向的深度学习方法做 NER
5. NER 面临的挑战与机遇



NER简介


NER 的研究意义这里不多加赘述,任何一篇 NER 相关的论文在引言中都会有所介绍。

一句话总结该任务:命名实体识别(Named Entity Recognition, NER)是指从自由文本中识别出属于预定义类别的文本片段。

NER 任务最早由第六届语义理解会议(Message Understanding Conference)提出,当时仅定义一些通用实体类别,如地点、机构、人物等。目前命名实体识别任务已经深入各种垂直领域,如医疗、金融等。在该论文中将实体归为两类:generic(通用类)和 domain-specific(特定领域类)。


NER标注语料库(公开评测集)


论文对现有公开评测任务使用的 NER 语料库进行了汇总,包括链接地址、类别个数以及语料类型。如下图所示:


此外,论文也给出了评测集对应的 SOTA 模型及其性能表现,这个感觉很好。这里也推荐一个 SOTA 模型仓库 paperswithcode,里面收录了 SOTA 模型源码以及论文介绍,感觉还是不错。

link: https://paperswithcode.com/




OFF-THE-SHELF NER工具


论文对学术界和工业界一些 NER 工具进行汇总,工具中通常都包含预训练模型,可以直接在自己的语料上做实体识别。不过一般研究使用的话(所定义实体类别与工具预定的不符),还需要依据待抽取领域语料再训练模型,或重新训练模型。



评价指标 (Evaluation Metric)


论文将 NER 评测指标 P R F1 分为了两类介绍,这也是比赛和论文中通用评测方式:

1. Exact-match严格匹配,范围与类别都正确。其中 F1 值又可以分为 macro-averaged 和 micro-averaged,前者是按照不同实体类别计算 F1,然后取平均;后者是把所有识别结果合在一起,再计算 F1。这两者的区别在于实体类别数目不均衡,因为通常语料集中类别数量分布不均衡,模型往往对于大类别的实体学习较好。

2. relaxed match 宽松匹配,简言之,可视为实体位置区间部分重叠,或位置正确类别错误的,都记为正确或按照匹配的位置区间大小评测。


序列标注标签方案


1. BIO
2. BIOES

基本都逃不脱这两种,B 开始位置、I 中间位置、O 其他类别、S 单字表示一个实体。

句子:西南交通大学位于成都。预定义实体类别:学校、地点。上述句子按照BIOES方案标签:B-学校 I-学校 I-学校 I-学校 I-学校 E-学校 O O B-地点 E-地点



四类常用NER方法


1. 规则模板,不需要标注数据,依赖于人工规则;
2. 无监督学习方法,不需要标注数据,依赖于无监督学习算法;
3. 基于特征的有监督学习算法,依赖于特征工程;
4. 深度学习方法。

论文简要地介绍了前三种方法,着重地介绍第四种方法。如果要看前三种方法的综述可以去看 Nadeau and Sekine 07 年的综述 A survey of named entity recognition and classification,13 年 Marrero 综述 Named entity recognition: fallacies, challenges and opportunities,15 年 Potey 综述 Approaches to named entity recognition: a survey

18年出的一篇综述比较有意思,主题是复杂实体识别,也就是重叠实体或者非连续性实体。最近对此进行了一些研究,先挖个坑,后续整理一下工作,再做分享。

论文标题:Recognizing complex entity mentions: A review and future directions

论文链接:https://www.aclweb.org/anthology/P18-3006/


还有两篇 18 年较新的综述,A survey on recent advances in named entity recognition from deep learning modelsRecent named entity recognition and classification techniques: A systematic review

ps: 偷懒!这里就不给出论文的链接了。

对于论文中出现的两个名词 coarse-grained entity 和 fine-grained entity,存在一些疑问。论文中对于两者的定义为:粗粒度实体 coarse-grained entity 一个实体一个类别;细粒度实体 fine-grained entity 一个实体多个类别。

对于这样的分类,感到有些迷惑。细粒度实体在我的理解应该是指预定义实体类别是具有层级,如一级类别人、动物、地点,动物又分为了猫、狗、鸟等。也有可能是我理解不到位。这里贴出原文,欢迎讨论。

Note that the task focuses on a small set of coarse entity types and one type per named entity. We call this kind of NER tasks as coarse-grained NER [10], [11]. Recently, some fine-grained NER tasks [29]–[33] focus on a much larger set of entity types where a mention may be assigned multiple fine-grained types.



基于规则方法


1. 特定领域词典,其中还包括同义林词典;
2. 句法词汇模板;
3. 正则表达式;

论文列出了一些基于规则的 NER 系统:LaSIE-II, NetOwl, Facile, SAR, FASTUS, and LTG。总的来说,当词汇表足够大时,基于规则的方法能够取得不错效果。但总结规则模板花费大量时间,且词汇表规模小,且实体识别结果普遍高精度、低召回。


无监督学习方法


主要是基于聚类的方法,根据文本相似度得到不同的簇,表示不同的实体类别组。常用到的特征或者辅助信息有词汇资源、语料统计信息(TF-IDF)、浅层语义信息(分块NP-chunking)等。


基于特征的有监督学习(传统机器学习)


NER 任务可以是看作是 token 级别的多分类任务序列标注任务,深度学习方法也是依据这两个任务建模。

特征工程:word 级别特征(词法特征、词性标注等),词汇特征(维基百科、DBpdia 知识),文档及语料级别特征。

机器学习算法:隐马尔可夫模型 HMM、决策树 DT、最大熵模型 MEM、最大熵马尔科夫模型 HEMM、支持向量机 SVM、条件随机场 CRF。



深度学习方法


终于进入正题,下文将按照以下四点,详细介绍基于深度学习的 NER 方法。

1. 深度学习优势
2. 分布式表示
3. 上下文编码结构
4. 标签解码结构


11.1 深度学习优势


不能算深度学习做 NER 的优势,深度学习解决其他问题也是这些亮点。

1. 强大的向量表示能力;
2. 神经网络的强大计算能力;
3. DL 从输入到输出的非线性映射能力;
4. DL 无需复杂的特征工程,能够学习高维潜在语义信息;
5. 端到端的训练方式。

11.2 分布式表示


1. 词级别表示word-level representation

首先 Mikolov 提出的 word2vec(两种框架 CBOW 和 skip-gram),斯坦福的 Glove,Facebook 的 fasttextSENNA。使用这几种词嵌入方式,一些研究工作使用不同语料进行训练,如生物医学领域PubMed、NYT 之类。

2. 字符级别表示 character-level representation

字符级别通常是指英文或者是其他具备自然分隔符语种的拆开嵌入,在中文中指字级别嵌入,字符嵌入主要可以降低 OOV 率。文中给出了两种常用的字符级别嵌入方式,分别为 CNN、RNN。



着重提一下 18 年 COLING 的一项工作《Contextual String Embeddings for Sequence Labeling》,使用字符级别的神经语言模型产生上下文相关的文本嵌入。大致思路为使用双向RNN编码字符级别嵌入,将一个词的前向和后向隐层状态与词嵌入拼接作为最终词嵌入向量,如下图所示。Github 上也开源了源码库 Flair:


https://github.com/flairNLP/flairgithub.com


3. 混合信息表示 hybrid representation

除了词级别表示、字符级别表示外,一些研究工作还嵌入了其他一些语义信息,如词汇相似 度、词性标注、分块、语义依赖、汉字偏旁、汉字拼音等。此外,还有一些研究从多模态学习出发,通过模态注意力机制嵌入视觉特征。论文也将 BERT 归为这一类,将位置嵌入、token 嵌入和段嵌入看作是混合信息表示。


11.3 上下文编码


包括了卷积网络 CNN、循环网络 RNN、递归网络、Transformer。


11.3.1 CNN


基本框架如下图所示,句子经过 embedding 层,一个 word 被表示为 N 维度的向量,随后整个句子表示使用卷积(通常为一维卷积)编码,进而得到每个 word 的局部特征,再使用最大池化操作得到整个句子的全局特征,可以直接将其送入解码层输出标签,也可以将其和局部特征向量一起送入解码层。



其他一些研究者,开始考虑使用 BiLSTM-CNN 的网络结构,随之而来的还有 ID-CNNs 迭代膨胀卷积(个人认为类似多层 N-Gram 语言模型)等。


11.3.2 循环神经网络 RNN


常用的循环神经网络包括 LSTM 和 GRU,在 NLP 中常使用双向网络 BiRNN,从左到右和从右到左两个方向提取问题特征。


补充一个文中没有的网络结构 ConvLSTM,CNN 与 RNN 更好的结合方式,只不过需要将样本重构。

11.3.3 递归神经网络 Recursive Neural Networks


递归神经网络相较循环神经网络,最大区别是具有树状阶层结构。循环神经网络一个很好的特性是通过神经元循环结构处理变长序列,而对于具有树状或图结构的数据很难建模(如语法解析树)。还有一点特别在于其训练算法不同于常规的后向传播算法,而是采用 BPTS (Back Propagation Through Structure)。


虽然递归神经网络理论上感觉效果不错,但实际应用中效果一般,并且很难训练。相较之下 treeLSTM 近些年的研究经常被提及,在关系抽取以及其他任务上有不少应用。

11.3.4 Transformer


Google 的一篇《Attention is all you need》将注意力机制推上新的浪潮之巅,于此同时 transformer 这一不依赖于 CNN、RNN 结构,纯堆叠自注意力、点积与前馈神经网络的网络结构也被大家所熟知。此后的研究证明,transformer 在长距离文本依赖上相较 RNN 有更好的效果。


11.3.5 神经语言模型


语言模型是在做一件事:判断语言是否合理?

发展历史:专家语法规则模型-->统计语言模型-->神经语言模型(具体的介绍可以自行搜索,网上资源挺多)。

着重提一下现有的神经语言模型:

1. word2vec
2. Glove
3. fasttext
4. ELMO
5. BERT
6. GPT
7. GPT2
8. XLNET
9. ALBERT
10. RoBERTa

持续挖坑...... 准备 github 上维护一个预训练语言模型权重下载地址的仓库,希望赶紧填平它。


https://github.com/cloudXia777/Pretrained-Model

11.4 解码层


1. MLP+softmax
2. CRF
3. RNN
4. Pointer Network

对于 1、2 应该没什么要说的常规操作,着重看一下 3 和 4。使用 RNN 解码,框架图如下所示。文中所述当前输出(并非隐藏层输出)经过 softmax 损失函数后输入至下一时刻 LSTM 单元,所以这是一个局部归一化模型。

DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION:


Since this is a locally normalized model (Andor et al., 2016), it does not require the costly computation of partition function, and it allows us to significantly speed up training compared to using CRFs.



使用指针网络解码,是将 NER 任务当作先识别“块”即实体范围,然后再对其进行分类。指针网络通常是在 Seq2seq 框架中,如下图所示。



其他研究方向的NER方法


下面列出各类研究方向的 NER 方法,若想细致了解每个方向的文献,请移步原文。

1. 多任务学习 Multi-task Learning
2. 深度迁移学习 Deep Transfer Learning
3. 深度主动学习 Deep Active Learning
4. 深度强化学习 Deep Reinforcement Learning
5. 深度对抗学习 Deep Adversarial Learning
6. 注意力机制 Neural Attention



NER任务的挑战与机遇


13.1 挑战


1. 数据标注
2. 非正式文本(评论、论坛发言、tweets 或朋友圈状态等),未出现过的实体。


13.2 机遇与未来可研究方向


1. 多类别实体
2. 嵌套实体
3. 实体识别与实体链接联合任务
4. 利用辅助资源进行基于深度学习的非正式文本 NER(补充一点,知识图谱方向)
5. NER模型压缩
6. 深度迁移学习 for NER

总结一句,NER 的现有研究较为丰富,想要再开花,选好问题切入点是关键。
 



点击以下标题查看更多往期内容: 



#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存