查看原文
其他

国防科技大学李真真等 | 学习挑选伪标签:一种用于命名实体识别的半监督学习方法

李真真,等 信息与电子工程前沿FITEE 2022-10-01

内容介绍


中文摘要:

深度学习模型在命名实体识别(NER)中实现了最先进的性能;然而,其良好性能很大程度上依赖于大量标记数据。在某些特定领域,例如医学、金融和军事领域,标记数据非常稀缺,而未标记数据则很容易获得。过往研究使用未标记数据丰富词的表示,却忽略了未标记数据中对NER任务很可能有帮助的大量实体信息。本文提出一种用于NER任务的半监督方法,其通过学习一个判别模块筛除错误伪标签,以创建高质量标注数据。伪标签是为未标记数据自动生成的标签,并被当作真实标签用来训练模型。该半监督框架包括3个步骤:为特定NER任务构建最佳单神经网络模型,学习一个评价伪标签的模块,以及迭代创建新的标记数据和改进NER模型。两个英语NER任务和一个中文医疗命名实体识别任务的实验结果表明,该方法进一步提高了最佳单神经模型的性能。当仅使用预训练的静态词嵌入且不依赖任何外部知识时,该方法可获得与CoNLL-2003和OntoNotes 5.0英语NER任务上最先进模型相当的性能。


关键词:

命名实体识别;无标注数据;深度学习;半监督学习方法
作者:
李真真,冯大为,李东升,卢锡城

  

单位:

国防科技大学计算机学院,中国长沙市,410073

本文引用格式:

Zhen-zhen Li, Da-wei Feng, Dong-sheng Li, Xi-cheng Lu. Learning to select pseudo labels: a semi-supervised method for named entity recognition[J]. Frontiers of Information Technology & Electronic Engineering, 2020, 21(6): 903-916. https://doi.org/10.1631/FITEE.1800743


本文精要导读:


点击下方“阅读全文”,下载全文PDF




关于本刊

Frontiers of Information Technology & Electronic Engineering(简称FITEE,中文名《信息与电子工程前沿(英文)》,ISSN 2095-9184,CN 33-1389/TP)是信息电子类综合性英文学术月刊,SCI-E、EI收录,最新影响因子1.604。前身为2010年创办的《浙江大学学报英文版C辑:计算机与电子》,2015年更为现名,现为中国工程院信息与电子工程学部唯一院刊。覆盖计算机、信息与通信、控制、电子、光学等领域。文章类型包括研究论文、综述、个人视点、评述等。现任主编为中国工程院院士潘云鹤、卢锡城,实行国际同行评审制,初次转达意见一般在2~3个月内。文章一经录用将快速在线。


FITEE官网http://www.jzus.zju.edu.cn

期刊Springer主页:

http://www.springer.com/computer/journal/11714

在线投稿地址:

http://www.editorialmanager.com/zusc


微信加群

为方便广大科研人员交流讨论,本平台建有以下学科微信群。有需要加群的用户,请加小编个人微信号fitee_xb,并留言想要加入的群,小编会拉您进群。营销广告人员请勿扰。

计算机科学与技术学术群

光学工程与技术学术群

控制科学与技术学术群

信息与通信学术群

电力电子学术群

人工智能学术


加关注  ID: fitee_cae

本公众号为中国工程院院刊《信息与电子工程前沿(英文)》(SCI-E、EI检索期刊)官方微信,功能包括:传播期刊的学术文章;为刊物关联学人(读者、作者、评审人、编委,等)提供便捷服务;发布学术写作、评审、编辑、出版等相关资讯;介绍信息与电子工程领域学术人物、学术思想、学术成果,展示该领域科学研究前沿进展;为该领域海内外学者提供友好互动平台。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存