查看原文
其他

NLP学习(二)——NER综述

公众号关注 “ML_NLP
设为 “星标”,重磅干货,第一时间送达!

来自 | 知乎

地址 | https://zhuanlan.zhihu.com/p/72184736

作者 | yif

编辑 | 机器学习算法与自然语言处理公众号

本文仅作学术分享,若侵权,请联系后台删文处理


本文主要围绕两篇综述:2007年《A survey of named entity recognition and classification》,2018年《A survey on Deep Learning for Named Entity Recognition》,分别侧重于传统机器学习和深度学习。

A survey of named entity recognition and classification

1991年到2006年的观察

在1991到2006年间,NER主要关注于以下几个方面:1. 语言因素(侧重于不同的语言) 2. 文本风格和领域因素(考虑不同领域的文本) 3. 实体类型因素(考虑识别不同类型的实体)

未来的方向(文中的未来指2006年以后):文中提到了这些方向:多媒体检索,半监督学习,复杂语境和等

学习方法

监督学习

几种方法:1. HMM(隐马尔可夫模型) 2. ME(最大熵模型) 3. SVM(支持向量机) 4. CRF(条件随机场)

TODO 补充模型细节

半监督学习(弱监督)

主要的半监督学习技术被称为“bootstrapping”。

例如上图所示,将带标签的数据集平均分成3等分,将其中2等分分别训练出两个两个分类器,用这两个分类起器分别对不带标签的数据进行分类,若某个无标签数据在两个分类器中得到的类别结果相同,则我们将这些数据及其伪标签放入另1等分带标签的数据中进行训练。整个过程可以迭代进行。

无监督学习

典型的无监督方法是聚类。聚类算法基于上下文的相似性将命名实体集聚在特定的聚类簇中。该项技术往往依赖于词汇资源例如WordNet,依赖于词汇模式,依赖于统计等。

NER的特征空间

传统的机器学习往往需要进行一些特征工程来提取特定的特征。一般有三种类型的特征:1)布尔型特征 2)数值型特征 3)类别特征

此外,还从三个层级考虑特征:1. Word-level features(考虑大小写,标点,字符,形态特征,词性) 2. List lookup features(有点像知识图谱) 3. Documnet and corpus features(文档特征往往定义在文档内容和文档结构上)

A Survey on Deep Learning for Named Entity Recognition

本文的动机是最近几年深度学习大火,总结和探讨了一系列基于DL的NER系统。最近的一系列深度学习NER提升了效果。

针对NER的深度学习技术

深度学习的优点:1. 端到端 2. 自动提取特征 3. 引入非线性

本综述从三个角度讲解深度学习在该领域的做出的贡献 1. Distributed Representation for input 2. Context Encoder Architectures 3. Tag Decoder Architectures

Distributed Representation for input

  1. 1. 《Character-Level Neural Network for Biomedical Named Entity Recognition》



  1. 1. 《Character-level named entity recognition》


本文与之前的工作的不同之处在于,它将命名标签精确到了每个字符,在制作数据集的时候为每个字符都打上标签。从图上可以看出,这样做的问题是不太好区分实体的边界。因此文章中对解码器部分也做了改进,有下述表中的约束关系。


  1. 1. 《Distributed Representation,LDA Topic Modeling and Deep Learning for Emerging Named Entity Recognition from Social Medial》



该模型的特点是引入了一种别的embedding形式,比如POS embedding 和LDA embedding这两个被加入到第二个LSTM中去。

  1. 1. 《End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF》



这里模型的特点是引入了Char embedding

Context Encoder Architectures

  1. 1. 《Named Entity Recognition with stack residual LSTM and trainable bias decoding》 特点:a.为了增加网络的表达能力采用了多层LSTM的形式,当然为了避免这种结构产生的degradation,引入了residual connection

b.希望直接在评估指标F-measure上训练。但为题是难以训练。作者采用一种混合的解决方案,先用传统的log-likelihood训练,然后用一个更简单的自适应模型来使模型的输出更适合F-measure.方法是在解码器中加入一个可训练的噪声项。

  1. 1. 《Named Entity Recognition with Parallel Recurrent Neural Networks》

a. 将单个LSTM分割为多个维度更小的LSTM b. 为了提升多样性,引入了一个正则化项(约束)



Tag Decoder Architectures

还有一些论文是在Tag decoder结构做文章。比如上面的第一篇文章就是对Decoder部分做出了改进。

其他的设计思路

迁移学习

《Transfer learning for sequence tagging with hierarchical current networks》



预训练模型

  1. 《Semi-supervised Sequence tagging with bidirectional language models》

  2. 《Deep Contextualized word representation》

  3. 《Contextual String Embeddings for Sequence Labeling》

  4. Bert

  5. ERNIE

截止2018年8月的榜单



最优中文命名实体识别

《Chinese NER Using Lattice LSTM》



汉语中NER的难点

  1. 汉语文本没有类似英文文本中空格之类的显示标示词的边界标示符。分词会对NER产生影响。

  2. 现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体。

  3. 不同领域,场景下,命名实体的外延有差异,存在分类模糊的问题。不同命名实体之间界限不清晰,人名也经常出现在地名和组织名中,存在大量的交叉和互相包含现象,而部分命名实体常常容易与普通词混淆,影响识别效率

  4. 命名实体构成结构比较,并且某些类型的命名实体词的长度没有一定的限制,不同的实体有不同的结构。



重磅!忆臻自然语言处理-学术微信交流群已成立

我们为大家整理了李航老师最新书籍的ppt课件,


添加小助手领取,还可以进入官方交流群

注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工大+张三+对话系统。

号主,微商请自觉绕道。谢谢!


推荐阅读:

使用 TensorFlow 做文本情感分析

通俗易懂!使用Excel和TF实现Transformer!

深度学习中的多任务学习(Multi-task-learning)——keras实现

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存