收藏！「自然语言处理(NLP)」中文自然语言处理可能用到的数据集(一)

Original ShuYini AINLPer 2023-07-11

喜欢我们，点击上方AINLPer，关注一下，极品干货即刻送达！

周末快乐~

引言

给大家分享一下中文自然语言处理可能用到的数据集，感兴趣的小伙伴可以收藏，以备不时之需。具体主要包括：中文常用词停用词数据集、汉语拆字词表、中文词表、人名语料库、中文缩写数据库、中文专业领域词库、中文敏感词库、维基百科词条(104万)、新闻语料json版(250万篇)、百科类问答json版(150万)、社区问答json版(410万)、翻译语料(520万对)等

微信下载论文不方便，你可以直接回复：YL001 进行打包下载。

资料整理不易，最后帮作者点个赞、点个在看吧，谢谢~~

正文开始

1First Blood

中文常用词停用词数据集

该数据集主要包括中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库四个部分。

汉语拆字词表

该词表主要用以提供字旁和部首查询的拆字字典数据库，有利于使用者去查难打汉字等用途。该数据集收录了17,803个不同汉字的拆法，分为繁体拆字表和简体字拆字表两个版本。拆字法有别于固有的笔顺字库。拆字尽量把每个字拆成两个以上的组成部件，而不是拆成手写字时所使用的笔画。

繁体eg：丳串丿

丵业丷干

简体eg：丗廿丨十凵

丘厂工厂丅一

中文词表

本词表主要包括：同义词表、反义词表、否定词表。

同义词表eg：Aa01A04= 劳力劳动力工作者、Aa01A05= 匹夫个人、Aa01A08= 每人各人每位、等等。

反义词表eg：前-后、冷-热、高-矮、进-退、等等。

否定词表eg：非、别、不、没、无、勿、等等。

人名语料库

该语料库主要包括中文人名语料库【中文常见人名（数据量：120万）、中文古代人名（数据量：25万）、中文姓氏（数据量：1千）、中文称呼（数据量：5千））】、英文人名语料库【翻译人名（数据量：48万）】、日文人名语料库【日本人名（数据量：18万）】、中文成语词典（数据量：5万）。

中文成语词库、中文名字词库（古代名字词库、中文关系称呼词库、现代名字词库、中文名字性别词库、中文姓氏词库）

中文缩写数据库

缩略语是一种跨语言的普遍现象，尤其是在汉语中。在大多数情况下，如果一个表达可以缩写，它的缩写会比它的完整形式使用的更多，因为人们倾向于以最简明的方式传达信息。对于各种语言处理任务，缩略语是提高性能的一个障碍，因为缩略语的文本形式不能表达有用的信息，除非它被扩展为完整的形式。本数据库主要是中文的简写，比如：影业是电影业的缩写、北大是北京大学的缩写、村委会是村民委员会、优种是优良的品种等。

史地: 历史/n 和/cc 地理/n

文委会: 文化/n 教育委员会/nt

营运: 营业/vn 运行/vn

中文专业领域词库

该词库主要包括IT行业、财经、汽车、成语、地名、食物、法律、历史名人、医药、诗词等。

IT.txt、car.txt、chengyu.txt、diming.txt、food.txt、law.txt、lishimingren.txt、medical.txt、poem.txt、...

中文敏感词库

该词库主要包括暴恐词库、反动词库、民生词库、敏感词词库、色情词库、贪腐词库。

暴恐词库.txt、反动词库.txt、民生词库.txt、敏感词库表统计.txt、色情词库.txt、贪腐词库.txt 等等

维基百科词条(104万)

该数据具体包含104万个词条(1,043,224条; 原始文件大小1.6G，压缩文件519M；数据更新时间：2019.2.7)，可以做为通用中文语料，做预训练的语料或构建词向量，也可以用于构建知识问答。

例子： {"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。\n\n经济学注重的是研究经济行为者在一个经济体系下的行为，以及他们彼此之间的互动。在现代，经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为，包括个体的行为者（例如个人、公司、买家或卖家）以及与市场的互动。而宏观经济学则分析整个经济体和其议题，包括失业、通货膨胀、经济成长、财政和货币政策等。..."}

新闻语料json版(250万篇)

包含了250万篇新闻。新闻来源涵盖了6.3万个媒体，含标题、关键词、描述、正文。数据集划分：数据去重并分成三个部分。训练集：243万；验证集：7.7万；测试集，数万，不提供下载。可以做为【通用中文语料】，训练【词向量】或做为【预训练】的语料；也可以用于训练【标题生成】模型，或训练【关键词生成】模型（选关键词内容不同于标题的数据）；亦可以通过新闻渠道区分出新闻的类型。

例子： {"news_id": "610130831", "keywords": "导游，门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售40元的门票，被“黑导游”加价出售，最高加到140元。故宫方面表示，请游客务必通过正规渠道购买门票，避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟，耐心排队购票也不会等待太长时间。....再反弹”的态势，打击黑导游需要游客配合，通过正规渠道购买门票。"}

百科类问答json版(150万)

含有150万个预先过滤过的、高质量问题和答案，每个问题属于一个类别。总共有492个类别，其中频率达到或超过10次的类别有434个。数据集划分：数据去重并分成三个部分。训练集：142.5万；验证集：4.5万；测试集，数万，不提供下载。可以做为通用中文语料，训练词向量或做为预训练的语料；也可以用于构建百科类问答；其中类别信息比较有用，可以用于做监督训练，从而构建更好句子表示的模型、句子相似性任务等。

{"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢，还是夏天进步好啊？", "desc": "", "answer": "你好！\r\r当然是冬天进补好的了，夏天人体的胃处于收缩状态，不适宜大量的进补，所以我们有时候说：“夏天就要吃些清淡的，就是这个道理的。” \r\r二忌以药代食。重药物轻食物的做法是不科学的，许多食物也是好的滋补品。如多吃荠菜可治疗高血压；多吃萝卜可健胃消食，顺气宽胸；多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。\r\r三忌越贵越好。每个人的身体状况不同，因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症，应以实用有效为滋补原则，缺啥补啥。"}

社区问答json版(410万)

含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】，总共有2.8万个各式话题，话题包罗万象。从1400万个原始问答中，筛选出至少获得3个点赞以上的的答案，代表了回复的内容比较不错或有趣，从而获得高质量的数据集。

除了对每个问题对应一个话题、问题的描述、一个或多个回复外，每个回复还带有点赞数、回复ID、回复者的标签。

数据集划分：数据去重并分成三个部分。训练集：412万；验证集：6.8万；测试集a：6.8万；测试集b，不提供下载。

用途介绍

1）构建百科类问答：输入一个问题，构建检索系统得到一个回复或生产一个回复；或根据相关关键词从，社区问答库中筛选出你相关的领域数据 2）训练话题预测模型：输入一个问题或描述，预测属于话题。3）训练社区问答(cQA)系统：针对一问多答的场景，输入一个问题，找到最相关的问题，在这个基础上基于不同答案回复的质量、问题与答案的相关性，找到最好的答案。4）做为通用中文语料，做大模型预训练的语料或训练词向量。其中类别信息也比较有用，可以用于做监督训练，从而构建更好句子表示的模型、句子相似性任务等。5）结合点赞数量这一额外信息，预测回复的受欢迎程度或训练答案评分系统。例子： {"qid": 65618973, "title": "AlphaGo只会下围棋吗？阿法狗能写小说吗？", "desc": "那么现在会不会有智能机器人能从事文学创作？如果有，能写出什么水平的作品？", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。它在围棋领域的突破，证明了深度学习深度强化学习MCTS技术在围棋领域的有效性，并且取得了重大的PR效果。AlphaGo不会写小说，它是专用的，不会做跨出它领域的其它事情，比如语音识别，人脸识别，自动驾驶，写小说或者理解小说。如果要写小说，需要用到自然语言处理（NLP））中的自然语言生成技术，那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

翻译语料(520万对)

该语料包括中英文平行语料520万对。每一对包含一个英文和对应的中文。中文或英文，多数情况是一句带标点符号的完整的话。对于一个平行的中英文对，中文平均有36个字，英文平均有19个单词(单词如“she”) 数据集划分：数据去重并分成三个部分。训练集：516万；验证集：3.9万；测试集，数万，不提供下载。

用途介绍

可以用于训练中英文翻译系统，从中文翻译到英文，或从英文翻译到中文；由于有上百万的中文句子，可以只抽取中文的句子，做为通用中文语料，训练词向量或做为预训练的语料。英文任务也可以类似操作；例子：{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利，公众不会真的向政府施压，要求实行新的、更公平的税收制度。"}

2往期回顾

学术圈

收藏！「NLP」AINLPer 大盘点！！重磅！一千多万公司企业注册数据集收藏！学术界全球知名学者教授信息大盘点(全)！

长按识别下方二维码关注我们

资料整理不易，帮忙点个【赞】、【在看】吧

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

收藏！「自然语言处理(NLP)」中文自然语言处理可能用到的数据集(一)

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

生成图片，分享到微信朋友圈

收藏！「自然语言处理(NLP)」中文自然语言处理可能用到的数据集(一)

您可能也对以下帖子感兴趣