收藏!「自然语言处理(NLP)」中文自然语言处理可能用到的数据集(一)
喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!
引言
给大家分享一下中文自然语言处理可能用到的数据集,感兴趣的小伙伴可以收藏,以备不时之需。具体主要包括:中文常用词停用词数据集、汉语拆字词表、中文词表、人名语料库、中文缩写数据库、中文专业领域词库、中文敏感词库、维基百科词条(104万)、新闻语料json版(250万篇)、百科类问答json版(150万)、社区问答json版(410万)、翻译语料(520万对)等微信下载论文不方便,你可以直接回复:YL001 进行打包下载。
资料整理不易,最后帮作者点个赞、点个在看吧,谢谢~~
正文开始
1First Blood
中文常用词停用词数据集
该数据集主要包括中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库四个部分。
汉语拆字词表
该词表主要用以提供字旁和部首查询的拆字字典数据库,有利于使用者去查难打汉字等用途。该数据集收录了17,803个不同汉字的拆法,分为繁体拆字表和简体字拆字表两个版本。拆字法有别于固有的笔顺字库。拆字尽量把每个字拆成两个以上的组成部件,而不是拆成手写字时所使用的笔画。
繁体eg:丳 串 丿
丵 业 丷 干
简体eg:丗 廿 丨 十 凵
丘 厂 工 厂 丅 一
中文词表
本词表主要包括:同义词表、反义词表、否定词表。
同义词表eg:Aa01A04= 劳力 劳动力 工作者、Aa01A05= 匹夫 个人、Aa01A08= 每人 各人 每位、等等。
反义词表eg:前-后、冷-热、高-矮、进-退、等等。
否定词表eg:非、别、不、没、无、勿、等等。
人名语料库
该语料库主要包括中文人名语料库【中文常见人名(数据量:120万)、中文古代人名(数据量:25万)、中文姓氏(数据量:1千)、中文称呼(数据量:5千))】、英文人名语料库【翻译人名(数据量:48万)】、日文人名语料库【日本人名(数据量:18万)】、中文成语词典(数据量:5万)。
中文成语词库、中文名字词库(古代名字词库、中文关系称呼词库、现代名字词库、中文名字性别词库、中文姓氏词库)
中文缩写数据库
缩略语是一种跨语言的普遍现象,尤其是在汉语中。在大多数情况下,如果一个表达可以缩写,它的缩写会比它的完整形式使用的更多,因为人们倾向于以最简明的方式传达信息。对于各种语言处理任务,缩略语是提高性能的一个障碍,因为缩略语的文本形式不能表达有用的信息,除非它被扩展为完整的形式。本数据库主要是中文的简写,比如:影业是电影业的缩写、北大是北京大学的缩写、村委会是村民委员会、优种是优良的品种等。
史地: 历史/n 和/cc 地理/n
文委会: 文化/n 教育委员会/nt
营运: 营业/vn 运行/vn
中文专业领域词库
该词库主要包括IT行业、财经、汽车、成语、地名、食物、法律、历史名人、医药、诗词等。
IT.txt、car.txt、chengyu.txt、diming.txt、food.txt、law.txt、lishimingren.txt、medical.txt、poem.txt、...
中文敏感词库
该词库主要包括暴恐词库、反动词库、民生词库、敏感词词库、色情词库、贪腐词库。
暴恐词库.txt、反动词库.txt、民生词库.txt、敏感词库表统计.txt、色情词库.txt、贪腐词库.txt 等等
维基百科词条(104万)
该数据具体包含104万个词条(1,043,224条; 原始文件大小1.6G,压缩文件519M;数据更新时间:2019.2.7),可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。
例子: {"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。\n\n经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。..."}
新闻语料json版(250万篇)
包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料;也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);亦可以通过新闻渠道区分出新闻的类型。
例子: {"news_id": "610130831", "keywords": "导游,门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售40元的门票,被“黑导游”加价出售,最高加到140元。故宫方面表示,请游客务必通过正规渠道购买门票,避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟,耐心排队购票也不会等待太长时间。....再反弹”的态势,打击黑导游需要游客配合,通过正规渠道购买门票。"}
百科类问答json版(150万)
含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。数据集划分:数据去重并分成三个部分。训练集:142.5万;验证集:4.5万;测试集,数万,不提供下载。可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。
{"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢,还是夏天进步好啊?", "desc": "", "answer": "你好!\r\r当然是冬天进补好的了,夏天人体的胃处于收缩状态,不适宜大量的进补,所以我们有时候说:“夏天就要吃些清淡的,就是这个道理的。” \r\r二忌以药代食。重药物轻食物的做法是不科学的,许多食物也是好的滋补品。如多吃荠菜可治疗高血压;多吃萝卜可健胃消食,顺气宽胸;多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。\r\r三忌越贵越好。每个人的身体状况不同,因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症,应以实用有效为滋补原则,缺啥补啥。"}
社区问答json版(410万)
含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。
除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。
数据集划分:数据去重并分成三个部分。训练集:412万;验证集:6.8万;测试集a:6.8万;测试集b,不提供下载。
用途介绍
1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据 2)训练话题预测模型:输入一个问题或描述,预测属于话题。3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、 问题与答案的相关性,找到最好的答案。4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。例子: {"qid": 65618973, "title": "AlphaGo只会下围棋吗?阿法狗能写小说吗?", "desc": "那么现在会不会有智能机器人能从事文学创作?如果有,能写出什么水平的作品?", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋,因为它的设计目的,架构,技术方案以及训练数据,都是围绕下围棋这个核心进行的。它在围棋领域的突破,证明了深度学习深度强化学习MCTS技术在围棋领域的有效性,并且取得了重大的PR效果。AlphaGo不会写小说,它是专用的,不会做跨出它领域的其它事情,比如语音识别,人脸识别,自动驾驶,写小说或者理解小说。如果要写小说,需要用到自然语言处理(NLP))中的自然语言生成技术,那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}
翻译语料(520万对)
该语料包括中英文平行语料520万对。每一对包含一个英文和对应的中文。中文或英文,多数情况是一句带标点符号的完整的话。对于一个平行的中英文对,中文平均有36个字,英文平均有19个单词(单词如“she”) 数据集划分:数据去重并分成三个部分。训练集:516万;验证集:3.9万;测试集,数万,不提供下载。
用途介绍
可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文;由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;例子:{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利,公众不会真的向政府施压,要求实行新的、更公平的税收制度。"}
学术圈
收藏!「NLP」AINLPer 大 盘 点 !! 重磅!一千多万公司企业注册数据集 收藏!学术界全球知名学者教授信息大盘点(全)!资料整理不易,帮忙点个【赞】、【在看】吧