全网最全!中文命名实体识别(NER)数据集大盘点(含下载)
引言
命名实体识别是自然语言处理研究的重要方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。那么做命名实体识别就少不了数据集,经过一周的时间,终于把所有的能找到的数据集做了一下汇总,同时也分享给大家。说全网最全可能有点夸张,但真的完全尽力了。下载方式放在最后了,有需要可自取,觉得有用帮忙点个赞吧。
文娱NER--Youku
文娱NER数据集主要是基于youku视频相关标题制作的,该数据集包括包括了3大类(娱乐明星名、影视名、音乐名)、9小类实体类别(例如:动漫、电影、影视、综艺等),其中训练集8001条、验证集1000条、测试集1001条。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。最近Github更新时间是2022年。
电商NER--Taobao
电商NER数据集主要基于Taobao电商数据制作的一个命名实体数据集,该数据集包括了4大类(商品名称、商品型号、人名、地名)、9小类实体类别(电脑、汽车、日用品等)。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。其中,训练数据集6000条,验证数据集998条,测试数据集1000条。最近Github更新时间是2022年。
简历 NER--新浪财经
该数据集基于新浪财经(Sina Finance4)收集了一个简历数据集,其中包括中国股票市场上市公司高管的简历。随机选择了1027份简历摘要,并使用YEDDA系统手动标注了8种命名实体[国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)]。该本数据集包括训练集(3821)、验证集(463)、测试集(477),实体类型包括,文本比较规范,实体识别模型效果通常F1 90%以上。
微博-NER
该数据集是「一个为NER标注的微博信息语料库」。相较于MSRA-NER该数据更加的具体,其主要包括:人名(具体名字和泛指名字)、地址(具体地址和泛指地址)、行政区、组织机构(特定机构和泛指名称)。该语料库主要基于2013年11月至2014年12月期间从微博上采样的1890条信息标注完成(训练数据集1350条,开发数据集270条,测试数据集270条),在数量方面相较于MSRA-NER偏少。目前Github最近一次更新时间是在2018年。
人民日报(1998/2014)-NER
该数据集同样是「一个为NER标注数据集」,本NER数据集由人民日报语料库1998版和2014版生成,包含了人名(PER)、地名(LOC)和机构名(ORG)3类常见的实体类型。对于命名实体资料其主要包括:人名、地名和机构名。其中1998版本语料库训练数据集2W+条,开发数据集2.3k+条,测试数据集4.6k+条。目前该数据集Github最近一次更新时间是在2018年。另外关于该数据集的论文出处没有找到,有知道的小伙伴可以私信给我。
MSRA-NER
该数据集是Microsoft Research Asia 「(MSRA)推出的关于中文命名实体识别的数据集」,其中主要包括:地名、机构名和人名,采用的标签策略是BIO。其中训练数据集含有4.5万个句子,3.6万多个地名,2万多个机构名,1.7万多个人名;测试数据集大概是训练数据集的十分之一,其中含有3.4k+个句子,2.8k+地名,1.3k+组织名,1.9k+人名。目前Github最近一次更新是在2018年。
Boson-NER
Boson提供的命名实体识别数据,采用UTF-8进行编码,每行为一个段落标注,共包括2000段落。数据集共包含2000个段落,实体类型有六种,主要包括:时间、地点、人名、组织名、公司名、产品名。该数据集查了出处网上都指向地址:https://bosonnlp.com/,但该网站好像已经访问不到了好在网上数据集还能找到。
CLUENER 细粒度-NER
本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注得到。其中训练集共计10748条,验证集共计1343条。,数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene),其中训练集共计10748条,验证集共计1343条。
电子病历-NER
该数据集是由全国知识图谱与语义计算大会(CCKS)公布的,它们在2017年到2020年举办了四次关于电子病历命名实体识别(简称CNER Clinical Named Entity Recognition)的竞赛,即对于给定的一组电子病历纯文本文档,任务的目标是识别并抽取出与医学临床相关的实体,并将它们归类到预先定义好的类别(pre-defined categories),比如症状,药品,手术等。其中主要包括CCKS2017-NER、CCKS2018-NER、CCKS2019-NER、CCKS2020-NER。具体CCKS2017-NER数据集,共2229条样本,5种类别,为symp、dise、chec、body和cure;CCKS2018-NER数据集,共797条样本,5种类别,为症状和体征、检查和检验、治疗、疾病和诊断、身体部位;CCKS2019-NER数据集,共1379条样本,6种类别,为解剖部位、手术、疾病和诊断、药物、实验室检验、影像检查;CCKS2020-NER,共计1887条样本,
军事装备试验鉴定-NER
该数据集源于军事科学院系统工程研究院在CCKS 2020中组织关于军事装备试验鉴定的命名实体识别评测,其中训练集和测试集分别为400条,平均长度150,最大长度358。实体类型主要包括四大类:试验要素(如:RS-24弹道导弹、SPY-1D相控阵雷达)、性能指标(如测量精度、圆概率偏差、失效距离)、系统组成(如中波红外导引头、助推器、整流罩)、任务场景(如法国海军、导弹预警、恐怖袭击)。
中文医学CMeEE-NER
CMeEE数据集出自,中文医疗信息处理挑战榜CBLUE。数据集将医学文本命名实体划分为九大类,包括:疾病(dis),临床表现(sym),药物(dru),医疗设备(equ),医疗程序(pro),身体(bod),医学检验项目(ite),微生物类(mic),科室(dep)。标注之前对文章进行自动分词处理,所有的医学实体均已正确切分,另外CMeEE-V2是对CMeEE的补充。
中国文学-NER
该数据集基于中国文学文章进行标注制作,共计包含726篇文章。一共定义了7个实体:物件、任务、地址、事件、计量单位、组织、出处等。
银行借贷2021-NER
该数据集共10000条样本,4种类别,为BANK、COMMENTS_ADJ、COMMENTS_N和PRODUCT。
任务对话2018-NER
该数据集是NLPCC2018发布的比赛任务公布出来的,主要对应任务式对话任务4,该数据集共21352条样本,15种类别,为language、origin、theme、custom_destination、style、phone_num、destination、contact_name、age、singer、song、instrument、toplist、scene和emotion。
CCIR2021-NER
全国信息检索学术会议(CCIR)由中国中文信息学会和中国计算机学会联合举办,则全国信息检索挑战杯(CCIR Cup)是由全国信息检索学术会议(CCIR)发起的技术评测比赛。数据集CCIR2021是该比赛发布的,旨在提高算法在中文命名实体识别方面鲁棒性,该数据数据集共15723条样本,4种类别,分别为LOC、GPE、ORG和PER。
瑞金MCC2018-NER
该数据集是由上海瑞金医院与阿里云联合发起主办AI大赛上发布的,其主要任务是通过糖尿病相关的教科书、研究论文来进行糖尿病文献挖掘并构建糖尿病知识图谱。该数据集共计3498条样本,18种类别,为Level、Method、Disease、Drug、Frequency、Amount、Operation、Pathogenesis、Test_items、Anatomy、Symptom、Duration、Treatment、Test_Value、ADE、Class、Test和Reason。
中医药应用2020-NER
该数据集主要是在2020年智慧中医药应用创新挑战赛中发布,该比赛主要由阿里和万科主办,旨在选出优秀的中医药人工智能大数据领域的应用创新解决方案。该数据集共1255条样本,13种类别,为药物剂型、疾病分组、人群、药品分组、中药功效、症状、疾病、药物成分、药物性味、食物分组、食物、证候和药品。
商品标题2022-NER
GAIIC2022数据集主要出自2022全球人工智能技术创新大赛。主要背景是:京东商品标题包含了商品的大量关键信息,商品标题实体识别是NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。共有标注训练样本:4万条左右;无标注样本:100万条。实体共有52种类型,均已经过脱敏处理,用数字代号1至54表示(不包含27和45);其中“O”为非实体。标签中“B”代表一个实体的开始,“I”代表一个实体的中间或者结尾。“-”后的数字代号表示该字符的实体类型。
诊疗对话2021-NER
在线问诊平台逐渐兴起,在线问诊是指医生通过对话和患者进行病情的交流、 疾病的诊断并且提供相关的医疗建议,医患对话理解旨在对问诊文本信息进行信息抽取,主要包括两个任务,分别是命名实体识别和症状检查识别。目前是从医患对话文本中识别出五类重要的医疗相关实体(Operation、Drug_Category、Medical_Examination、Symptom和Drug),数据包含2000多组对话,共98452条样本。
FNED数据集合-NER
FNED数据集包含8种事件类型,共计1.3万个具有事件信息的句子(每个句子中包含一个事件),数据来源于公开军事新闻网站(如新浪军事、凤凰军事和网易军事等),标注信息包含事件提及(触发词、事件类型和事件元素)、实体提及(实体)和关系提及(头实体、尾实体和关系类型),其中8种事件类型,7种实体类型,8种关系类型。
获取方式,后台回复:中文NER全
推荐阅读
[1]Google最新TiDE架构,比Transformer快10倍
[2]MiniGPT-4 发布,代码模型开源,支持在线体验!
[3]白泽:一个以中国神兽命名的大型自然语言模型(LLM)
[6]OpenAGI:一个开源的通用人工智能(AGI)研究平台