NeurIPS 2022 | 基于Transformer的「中文命名实体识别(NER)」新模型--NFLAT
引言
近年来,FLAT-lattice Transformer在中文命名实体识别(NER)中取得了巨大成功。然而,当处理较长的文本时,该方法会显著增加自注意模块的内存和计算成本。为此本文提出一种新的词汇增强方法InterFormer,实现NFLAT,该方法内存用量可减少50%,且实验结果优于最先进的character-word混合模型。
NeurIPS2022第五波更新,下载方式回复:历年NeurIPS
背景介绍
命名实体识别(NER)通常作为序列标记任务处理,在自然语言处理(NLP)中起着至关重要的作用。「NER经常从非结构化文本中提取有价值的信息」,这些信息可用于许多其他高级任务,如信息检索、知识图谱、问题回答、舆情分析、生物医学、推荐系统等。
「FLAT - lattice Transformer (FLAT)是一种非常流行的词汇增强方法,可以有效提取实体边界和丰富的词汇语义。然而,FLAT显著增加了计算和内存成本,这在FLAT中使用大规模词汇是非常困难的。为了解决该问题,本文提出了一种新颖而有效的词汇增强方法NFLAT」。
模型方法
FLAT方法介绍
FLAT从一开始就可以获得相对较高的性能,当与BERT一起使用时还可以进一步提高性能。其主要原因是FLAT的底层结构基于Transformer,它可以很好的提取鲁棒特征。自注意机制是Transformer的关键,它在输入的每一对标记之间建立连接。Transformer不同于RNN、LSTM、GRU等循环神经网络,在这些神经网络中,每一刻的输入都需要依赖于前一刻的输出。此外,Transformer能够捕获深度特征映射的长期依赖关系,所以说性能优于cnn和rnn。
如上图a所示,FLAT通过引入两种位置编码,构建一组平面网格作为模型的输入,对字符和单词进行建模。它解决了词边界模糊和词语义缺失的问题。然而,当处理较长的文本时,这种方法可能匹配更多的单词,导致较长的输入序列和更多的计算成本。因此,FLAT在处理长度超过200的句子时很困难。更重要的是,没有必要在自注意中的“word-word”和“word-character”之间进行计算(上图b),其主要原因是包含全局信息的词表示在解码阶段会被丢弃(上图a)。
本文方法(NFLAT)
另一种基于Transformer的中文NER方法是基于字符的TENER 。在使用Transformer进行中文NER时,TENER提出了两种优化方案:1)使用具有方向和距离感知的相对位置编码计算注意评分。2)不需要缩放因子,可以顺利计算注意评分结果。在TENER的帮助下使用InterFormer实现NFLAT。NFLAT对词汇融合和上下文特征编码进行了解耦,在准确性和效率上都比FLAT更有优势。NFLAT的整体架构如下图所示:
「步骤一」:「使用InterFormer融合词的边界和语义信息」。这里InterFormer方法包含一个多头交互注意力和一个前馈神经网络。InterFormer 旨在构建一个非平面网格并联合建模两个不同长度的字符和单词序列。它使字符序列能够融合单词边界和语义信息
「步骤二」:在InterFormer后,字符特征与词典信息融合。然后,「使用Transformer编码器对上下文信息进行编码」。
「步骤三」:使用线性层将输出投影到标签空间,并使用条件随机场「CRF作为解码器来预测序列标签」。
实验结果
使用F1评分(F1)、精度(P)和召回率(R)指标来评估所提出的NFLAT方法,并比较了几个character-word混合模型。
1、在不使用其他数据增强方法和预先训练的语言模型的情况下,NFLAT在微博、Ontonotes 4.0和MSRA数据集上实现了最先进的性能。
推荐阅读
[2]一文带你看懂NeurIPS国际顶会--附: 各年论文列表连接
论文&&源码
Paper:https://arxiv.org/pdf/2205.05832.pdf