动机介绍 1.1 命名实体识别任务 命名实体识别(Named Entity Recognition,NER)是自然语言处理领域的一项非常基本的任务,在社区长久以来一直得到广泛的研究。当前的 NER 的研究重点已经从常规的扁平命名实体识别(Flat NER)逐渐转向了重叠命名实体识别(Nested/Overlapped NER)与非连续命名实体识别(Discontinuous NER)。这三类 NER 分别为:
Flat NER:抽取连续的实体片段(或者包含对应的实体语义类型);
Nested/Overlapped NER:抽取的两个或多个实体片段之间有一部分的文字重叠;
Discontinuous NER:所抽取的多个实体间存在多个片段,且片段之间不相连。
▲ 图1:重叠与非连续实体例子(a),该例子可转化成词对关系抽取(b)
以图 1 为例,“aching in legs”是一个扁平实体,“aching in shoulders”是一个非连续实体,两者在“aching in”上重叠。以上三种 NER 类型可概括为统一命名实体识别(Unified Named Entity Recognition,UNER)1.2 命名实体识别方法 截止当前,命名实体识别领域的主流方法大致可分类为四类:
基于序列标注的方法;
基于超图的方法;
基于序列到序列的方法;
基于片段的方法。
其中,基于序列标注的方法是 Flat NER 的基准模型;而基于超图的方法由于其模型结构相对复杂从而使其获得的关注相对较少。而基于序列到序列方法和基于片段的方法获得了当前最好的效果,并且也是当前 NER 社区最为流行的方法,这两种方法的基本技术思路如图 2 所示。
▲ 图2:序列到序列的方法与基于片段的方法 当前 NER 社区尝试采用一种模型框架同时将三种不同类型的 NER 同时建模,即端到端抽取出所有的类型的实体。以上四种 NER 方法均可以被设计为支持统一命名实体识别的模型。本研究亦关注于构建一种高效的 UNER 系统。 1.3 本文的方法 在绝大部分现有的 NER 工作中,普遍认为NER的核心要点在于如何准确识别实体的边界;然而我们在针对三种实体类型的共性进行深入挖掘后,认为词语之间在语义上的连接特征才是 UNER 最为关键的问题。例如图 1(a)中,识别扁平实体“aching in legs”相对而言是较为简单,因为这个实体所包含的词是天然相邻的。而要识别出非连续实体“aching in shoulders”,则一个成功的 UNER 模型需要准确高效地片为片段“aching in”和片段“shoulders”之间在语义上的邻接关系进行建模。