NLP学习(一)——初识NER
来自 | 知乎
地址 | https://zhuanlan.zhihu.com/p/70618710
作者 | yif
编辑 | 机器学习算法与自然语言处理公众号
本文仅作学术分享,若侵权,请联系后台删文处理
本文是在闲着蛋疼时所写,内容都是本人瞎想,不接受任何表扬,欢迎吐槽!!!
初识NER
什么是NER
命名实体识别(Name Entity Recognition,NER),也称作"专名识别",是指识别文本中具有特定意义的实体,包括人名,地名,机构名,专有名词等。
注意:实体是一个抽象的对象,并不制定描述它的方式,而命名实体是受“Named”约束的一类对象。
NER算法的发展:
NER数据集的发展
随着近几年深度学习的发展,NER趋向于处理更多类别实体的数据集。但目前为止最常用的数据集是:1. CoNLLo3(粗粒度) 2. OneNotes(细粒度)
NER数据标注体系
共有4种标注体系,最常用的还是BIO。
NER任务的示意图
NER可被视为多分类任务,但又不止是分类问题,还是序列问题。(所以也称为序列标注问题)
NER的评价标准
前面提到了NER是多分类的问题,那么就应该有分类问题的评价标准
常用的评价标准有:Acc,Precision,Recall和F1值 Acc是一种很常见的评价标准,但只是这个又是不够的,因为在数据不均衡的情况下,Acc往往只会给我们带来欺骗性,比如癌症检测 (我们希望关注的是minority class)
Precision和Recall往往是一对评价标准。Precision:是相对自己模型而言的,自己预测的100个正例有80个是对的整理,那么Precision就是80%。所以当我们的模型作出预测时,我们可以将Precision 作为该项预测的confidence score。
Recall:是相对真实答案而言的,假设测试集里有100个正例,那么如果Recall为40%,那么就说明只能覆盖到40个正例。
一般来说,两者不可能同时很高。因为一旦你想要Recall高,那就意味着模型要覆盖更多,而模型一旦覆盖更多,那么他就更容易出错。而如果模型的precision要高,则往往会保守地对他很肯定的样本进行预测,这样precision会很高,但这样recall覆盖的就少了,所以recall就低了
F1值是综合了precision和recall的一个指标。$$F1=\frac{2PR}{P+R}$$ F1值还可以分为:1. macro-F1(分别对美中实体类别计算对应的F1值,再求整体平均) 2. micro-F1(直接求整体数据的F1)
NER的作用
NER往往作为Natural Language applications的基础,比如QA,text summarization,machine translation等的基础
NER是一种序列标注任务,常见的序列标注任务还有分词,词性标注(POS),关键词抽取,词义角色标注等
NER的关键 1. 实体边界的确定 2. 实体类别的判断
NER的工具
重磅!忆臻自然语言处理-学术微信交流群已成立
我们为大家整理了李航老师最新书籍的ppt课件,
添加小助手领取,还可以进入官方交流群!
注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]
例如 —— 哈工大+张三+对话系统。
号主,微商请自觉绕道。谢谢!
推荐阅读:
深度学习中的多任务学习(Multi-task-learning)——keras实现