NLP学习(二)——NER综述
来自 | 知乎
地址 | https://zhuanlan.zhihu.com/p/72184736
作者 | yif
编辑 | 机器学习算法与自然语言处理公众号
本文仅作学术分享,若侵权,请联系后台删文处理
本文主要围绕两篇综述:2007年《A survey of named entity recognition and classification》,2018年《A survey on Deep Learning for Named Entity Recognition》,分别侧重于传统机器学习和深度学习。
A survey of named entity recognition and classification
1991年到2006年的观察
在1991到2006年间,NER主要关注于以下几个方面:1. 语言因素(侧重于不同的语言) 2. 文本风格和领域因素(考虑不同领域的文本) 3. 实体类型因素(考虑识别不同类型的实体)
未来的方向(文中的未来指2006年以后):文中提到了这些方向:多媒体检索,半监督学习,复杂语境和等
学习方法
监督学习
几种方法:1. HMM(隐马尔可夫模型) 2. ME(最大熵模型) 3. SVM(支持向量机) 4. CRF(条件随机场)
TODO 补充模型细节
半监督学习(弱监督)
主要的半监督学习技术被称为“bootstrapping”。
例如上图所示,将带标签的数据集平均分成3等分,将其中2等分分别训练出两个两个分类器,用这两个分类起器分别对不带标签的数据进行分类,若某个无标签数据在两个分类器中得到的类别结果相同,则我们将这些数据及其伪标签放入另1等分带标签的数据中进行训练。整个过程可以迭代进行。
无监督学习
典型的无监督方法是聚类。聚类算法基于上下文的相似性将命名实体集聚在特定的聚类簇中。该项技术往往依赖于词汇资源例如WordNet,依赖于词汇模式,依赖于统计等。
NER的特征空间
传统的机器学习往往需要进行一些特征工程来提取特定的特征。一般有三种类型的特征:1)布尔型特征 2)数值型特征 3)类别特征
此外,还从三个层级考虑特征:1. Word-level features(考虑大小写,标点,字符,形态特征,词性) 2. List lookup features(有点像知识图谱) 3. Documnet and corpus features(文档特征往往定义在文档内容和文档结构上)
A Survey on Deep Learning for Named Entity Recognition
本文的动机是最近几年深度学习大火,总结和探讨了一系列基于DL的NER系统。最近的一系列深度学习NER提升了效果。
针对NER的深度学习技术
深度学习的优点:1. 端到端 2. 自动提取特征 3. 引入非线性
本综述从三个角度讲解深度学习在该领域的做出的贡献 1. Distributed Representation for input 2. Context Encoder Architectures 3. Tag Decoder Architectures
Distributed Representation for input
1. 《Character-Level Neural Network for Biomedical Named Entity Recognition》
1. 《Character-level named entity recognition》
本文与之前的工作的不同之处在于,它将命名标签精确到了每个字符,在制作数据集的时候为每个字符都打上标签。从图上可以看出,这样做的问题是不太好区分实体的边界。因此文章中对解码器部分也做了改进,有下述表中的约束关系。
1. 《Distributed Representation,LDA Topic Modeling and Deep Learning for Emerging Named Entity Recognition from Social Medial》
该模型的特点是引入了一种别的embedding形式,比如POS embedding 和LDA embedding这两个被加入到第二个LSTM中去。
1. 《End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF》
这里模型的特点是引入了Char embedding
Context Encoder Architectures
1. 《Named Entity Recognition with stack residual LSTM and trainable bias decoding》 特点:a.为了增加网络的表达能力采用了多层LSTM的形式,当然为了避免这种结构产生的degradation,引入了residual connection
b.希望直接在评估指标F-measure上训练。但为题是难以训练。作者采用一种混合的解决方案,先用传统的log-likelihood训练,然后用一个更简单的自适应模型来使模型的输出更适合F-measure.方法是在解码器中加入一个可训练的噪声项。
1. 《Named Entity Recognition with Parallel Recurrent Neural Networks》
a. 将单个LSTM分割为多个维度更小的LSTM b. 为了提升多样性,引入了一个正则化项(约束)
Tag Decoder Architectures
还有一些论文是在Tag decoder结构做文章。比如上面的第一篇文章就是对Decoder部分做出了改进。
其他的设计思路
迁移学习
《Transfer learning for sequence tagging with hierarchical current networks》
预训练模型
《Semi-supervised Sequence tagging with bidirectional language models》
《Deep Contextualized word representation》
《Contextual String Embeddings for Sequence Labeling》
Bert
ERNIE
截止2018年8月的榜单
最优中文命名实体识别
《Chinese NER Using Lattice LSTM》
汉语中NER的难点
汉语文本没有类似英文文本中空格之类的显示标示词的边界标示符。分词会对NER产生影响。
现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体。
不同领域,场景下,命名实体的外延有差异,存在分类模糊的问题。不同命名实体之间界限不清晰,人名也经常出现在地名和组织名中,存在大量的交叉和互相包含现象,而部分命名实体常常容易与普通词混淆,影响识别效率
命名实体构成结构比较,并且某些类型的命名实体词的长度没有一定的限制,不同的实体有不同的结构。
重磅!忆臻自然语言处理-学术微信交流群已成立
我们为大家整理了李航老师最新书籍的ppt课件,
添加小助手领取,还可以进入官方交流群!
注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]
例如 —— 哈工大+张三+对话系统。
号主,微商请自觉绕道。谢谢!
推荐阅读:
深度学习中的多任务学习(Multi-task-learning)——keras实现