中文NER涨点神器!基于多元数据的双流Transformer编码模型
©PaperWeekly 原创 · 作者 | 宁金忠
学校 | 大连理工大学博士生
研究方向 | 信息抽取
论文标题:
MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition
论文链接:
https://aclanthology.org/2021.acl-long.121.pdf
中文词汇增强回顾
中文 NER 的词汇增强主要分为两条路线:
▲ 模型实验结果(表中LEBERT使用的词表和预训练词向量与其他模型不同,结果在此处仅做参考,详情见论文)
论文方法介绍
文中作者的主要贡献为:
在中文 NER 模型中使用了多元数据特征(字特征,词特征以及汉字的结构特征)。 提出了一种能够将字特征、词特征和部首特征结合的双流(two-stream)模型来提高 MECT 方法的性能。 在多个中文 NER 数据集上的结果说明了模型结果的有效性。
关于 FLAT,不了解的小伙伴可以通过该帖子 [1] 进行了解。
与 FLAT 中的改进 Transformer encoder 不同的是,本文的作者提出了一种使用 Cross-Transformer 模块的 two-stream 模型。作者把汉字和包含汉字的词语看作一个“元(Meta)”,把每个汉字的包含的字根看做另外一个“元”。之后使用与 Transformer 中类似的自注意力机制,作者对两个“元”中的数据进行双路的交叉计算相关性,从而实现了多元信息的融合。
之后作者使用如下图所示的 CNN 网络来提取 Radical-level 特征。
2.3 Random Attention & 融合方法
实验结果展示
3.1 主试验
3.2 Cross-Transformer注意力值可视化
作者利用 Resume 数据集训练得到的汉字 radical-level embedding 进行了可视化,发现结构相近或者包含字根相近的字,在 radical-level embedding 空间中的距离就越近。结果如上图所示。 作者发现引入 radical-level 特征,可是使得一些常见的错误得到修正。例如在 Ontonotes 4.0 数据集中,“百分之四十三点二(43.2%)”被标注成了 PER 人名。引入 radical-level 特征后可以对该问题进行校正。
3.4 推理速度
作者设计了三个消融实验:
实验 A:把 Radical 特征和 lattice 特征拼接,使用 single-stream 模型。
实验 B:依然使用 two-stream 模型,但两个 stream 之间不再交叉计算注意力值。 -RA 实验:指去掉 random attention 的实验。
结论
参考文献
[1] Li X , Yan H , Qiu X , et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C]. ACL 2020.
[2] Wu S, Song X, Feng Z. MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition[J]. ACL 2021.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧