最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP 应用语言学研习 2022-06-09

欢迎点击上方关注我们，欢迎转发此文

本文来源：深度学习与NLP、汉语堂

资源整理了文本分类、实体识别&词性标注、搜索匹配、推荐系统、指代消歧、百科数据、预训练词向量or模型、中文完形填空等大量数据集，中文数据集平台和NLP工具等。

本文内容整理自：https://github.com/InsaneLife/ChineseNLPCorpus

文本分类

新闻分类

今日头条中文新闻（短文本）分类数据集 ：https://github.com/fateleak/toutiao-text-classfication-dataset

数据规模：共38万条，分布于15个分类中。

采集时间：2018年05月。

以0.7 0.15 0.15做分割。

清华新闻分类语料：

根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。

数据量：74万篇新闻文档（2.19 GB）

小数据实验可以筛选类别：体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn实验：https://github.com/gaussic/text-classification-cnn-rnn

中科大新闻分类语料库：http://www.nlpir.org/?action-viewnews-itemid-145

情感/观点/评论倾向性分析

实体识别&词性标注

微博实体识别

https://github.com/hltcoe/golden-horse

boson数据

包含6种实体类型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

人民日报数据集

人名、地名、组织名三种实体类型

1998：https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

2004：https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3

MSRA微软亚洲研究院数据集

5 万多条中文命名实体识别标注数据（包括地点、机构、人物）

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005：一共有四个数据集，包含繁体中文和简体中文，下面是简体中文分词数据。

MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

PKU ：http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手机搜索排序

OPPO手机搜索排序query-title语义匹配数据集。

链接:https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取码:7p3n

网页搜索结果评价(SogouE)

用户查询及相关URL列表

https://www.sogou.com/labs/resource/e.php

推荐系统

百科数据

维基百科

维基百科会定时将语料库打包发布：

数据处理博客

https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬，爬取得链接：https://pan.baidu.com/share/init?surl=i3wvfil提取码 neqs 。

指代消歧

CoNLL 2012 ：http://conll.cemantix.org/2012/data.html

预训练：（词向量or模型）

BERT

开源代码：https://github.com/google-research/bert

模型下载：BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

开源代码：https://github.com/allenai/bilm-tf

预训练的模型：https://allennlp.org/elmo

腾讯词向量

腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇，其中每个词对应一个200维的向量。

下载地址：https://ai.tencent.com/ailab/nlp/embedding.html

上百种预训练中文词向量

https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空数据集

https://github.com/ymcui/Chinese-RC-Dataset

中华古诗词数据库

最全中华古诗词数据集，唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

https://github.com/chinese-poetry/chinese-poetry

保险行业语料库

https://github.com/Samurais/insuranceqa-corpus-zh

汉语拆字字典

英文可以做char embedding，中文不妨可以试试拆字

https://github.com/kfcd/chaizi

中文数据集平台

搜狗实验室

搜狗实验室提供了一些高质量的中文文本数据集，时间比较早，多为2012年以前的数据。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然语言处理与信息检索共享平台

http://www.nlpir.org/?action-category-catid-28

中文语料小数据

包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。

https://github.com/crownpku/Small-Chinese-Corpus

维基百科数据集

https://dumps.wikimedia.org/

NLP工具

THULAC：https://github.com/thunlp/THULAC ：包括中文分词、词性标注功能。

HanLP：https://github.com/hankcs/HanLP

哈工大LTP： https://github.com/HIT-SCIR/ltp

NLPIR： https://github.com/NLPIR-team/NLPIR

jieba分词：

https://github.com/yanyiwu/cppjieba

本期责编：李嘻嘻

相关文献延伸阅读（爱书人指南）

敬告：本公号友情提供相关书讯或书目索引链接，

以便爱书人前往第三方平台自行选购

语言学图书精选推荐

推荐阅读：

会讯 | 第二届中国外语教育高峰会议（二号通知）

会讯 | 国际韩礼德语言学研究会2020年会（系列活动日程）

关于举办 “系统功能语言学与外语教育”高端论坛的通知

《天津师范大学学报（社会科学版）》国际中文教育专栏征稿启事

新中国对外汉语教学70年发展之路与未来展望学术论坛（1号通知）

海外中国学研究机构名录一览表（2020年版）

会讯 | 首届构式语法研究高层论坛（1号通知）

会讯｜语言智能与外语教育——第二届中国外语教育高峰会议

讲座预告 | “中国外语战略研究中心讲坛” 11月学术活动一览

报告全文 | 教育部高教司司长吴岩：积势蓄势谋势识变应变求变全面推进新文科建设

李宇明郭熙周洪波 | 中国语言生活研究十五年

招聘 | 上海外国语大学招聘教学科研人员及师资博士后

南师大外国语学院、文学院2021年博士研究生招生目录

讲座视频 | 沈骑：后疫情时代的国家话语能力规划

张伟年段宛云等：战略传播学视阈下特朗普涉华新冠肺炎污名化推特分析

拜登胜选演讲全文 (英文+中文+西班牙语三语对照)

语言专业师生必看的10部电影（附观看链接）

叶兆言：外国文学这个月亮，确实要比中国的圆

书讯 | 上海教育出版社推出“语言学经典文丛”

国内首部《“战疫”应急语言服务报告》发布

蔡基刚：应急语言服务与应急语言教学探索

孔子学院：践行《世界文化多样性宣言》的东方典范

王春辉：孔子学院三思 |《国际教育交流》2020年10月（总第126期）

大汇总 | 第1 - 10批推荐使用的外语词规范中文译名（附Word版下载方式）

中国外语院校本科教学质量报告（2019）

《大学英语教学指南》（2020版）发布会隆重举行（含视频回放）

何莲珍：新时代大学英语教学的新要求——《大学英语教学指南》修订依据与要点

向明友：顺应新形势，推动大学英语课程体系建设—《大学英语教学指南》课程设置评注

赵雯王海啸：新时代大学英语语言能力的建构 |《大学英语教学指南》2020版专家解读

文秋芳教授：中国外语教学70年，未来道路究竟向何方？

博后招聘｜北京航空航天大学外国语学院招收博士后

南开大学外国语学院教职工招聘与人才引进公告（2021版）

重磅 | 2020软科中国最好学科排名出炉（中国语言文学 & 外国语言文学）

重磅！USNews 2021年世界大学学科排行榜公布

书讯 | 利奇《语用学原则》中译本出版

书讯 | 《语用学与英语》中译本出版

Fodor《心理语义学》：在心灵与语言之间

文秋芳教授早年专访：学习是一辈子的事 | 21世纪英文报

心灵与认知文库 · 原典系列 | 商务印书馆学术中心

精选 | 应用语言学研习丛书（13种）一览：回顾经典分析热点

束定芳：大学英语教学与国际化人才培养 |《外国语》2020年第5期

会议征稿 | 面向教育应用的自然语言处理研讨会

陈力：西方现代教学理论真的反对语法教学吗？

会讯丨“2020国际英语教育中国大会”会议通知

全球语种谱系图，看看机器翻译需要跨越的大山

接触理论：生成语法研究的新进展 | 中国社会科学报

荐书 | 徐烈炯著《生成语法理论：标准理论到最简方案》

会讯 | 第四届“全国学科英语研究学术讨论会”通知

会讯 | 第六届“全国话语研究高层论坛”征文通知

合辑 | 双语版《美丽中国》( Amazing China )：1-58集（全）

文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》

对外汉语专业常用资料库大全

收藏！76种学术研究必备科研工具

梁茂成 | 语料库语言学研究的两种范式：渊源、分歧及前景

麦蒂森论翻译 | 系统功能语言学与翻译研究

语言趣谈 | 为什么感觉你的翻译不是说“人话”

干货 | 哲学社科领域有哪些出版项目可以申报？赶快收藏！

冯志伟教授谈计算语言学 | 中国社会科学网访谈

胡壮麟教授专访：路漫漫吾将上下而求索

荐书 | 北京大学出版社语言学图书书单

视频 | 听胡壮麟教授讲《语言学教程》那些事儿

中国访谈丨北京外国语大学校长杨丹：培养跨文化交流引领者

戴炜栋胡壮麟王初明等：新文科背景下的语言学跨学科发展

戴炜华吴国玢：论语言学的跨学科研究

大师课程 | 乔姆斯基等：语言，思维和大脑

沈家煊：比异求同融会中西 |《共和国学人》系列专题片

李葆嘉 | 索绪尔符号任意性的来源：兼及荀子约定俗成的原意

王缉思：浅谈区域与国别研究的学科基础

21世纪以来中国的太平洋岛国研究：历史、现实与未来——陈晓晨研究员访谈

程琪龙：语言研究的超学科意识 |《外国语》2020（2）

语用翻译学——中国文化走出去的出路

胡壮麟先生讲《认知隐喻学》的前世今生

申丹 | 西方文论关键词：隐性进程 |《外国文学》2019（1）

视频 | TED Ed：语言进化编年史

吴应辉：汉语国际教育面临的若干理论与实践问题

李建波李霄垅 | 外国文学和国别与区域的交叉研究：国情研究专家的视角

陈坚林：试论人工智能技术在外语教学上的体现与应用

陆小飞、刘颖颖：基于语料库的学术英语程式语研究与教学应用

特别推荐 | 语料库与语言对比研究

荐书 | 德古意特认知语言学研究丛书+应用丛书（13种）

外语教学类高被引论文排行榜 TOP 10

语言学类高被引论文排行榜 TOP 10

“国家形象研究”高被引论文排行榜 TOP 10

郭英剑：对英语专业的不当批评，可以休矣

蔡基刚：学术英语? 通用英语? 对学术英语再认识

高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题

中英文学科、专业名称对照

多位著名专家学者分享英语学习方法

乔姆斯基：三个讲座，国内少见

视频 | Metaphors We Live By 内容导读（我们赖以生存的隐喻）

多模态话语分析：以“疫情防控外语通”为例

重磅资源 | 外语教学论文写作与发表（免费下载论文写作资料大礼包）

《牛津英语》语法大讲堂（视频全集）

所以，什么是语言学？| 语言学微课堂

扫码关注，即可获取最新入群二维码

目前已有1.86万语言文学、国别区域

研习者关注↑↑↑本公众号，

欢迎加入我们，交流分享，共同学习！

赞一个，点亮在看

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

最全中文自然语言处理数据集、平台和工具整理

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

最全中文自然语言处理数据集、平台和工具整理

您可能也对以下帖子感兴趣