查看原文
其他

收藏!「自然语言处理(NLP)」你可能用到的数据集(一)

ShuYini AINLPer 2023-07-10

喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!


科研学习固然,但也要注意休息,各位晚安~~

引言

     给大家分享一下中文自然语言处理可能用到的数据集,感兴趣的小伙伴可以收藏,以备不时之需。具体主要包括:微信公众号语料库、维基百科中文词条、Google图书n-gram数据集、人民日报1998 && 2014 中文分词语料库、中文命名实体识别标注数据集、微软亚洲研究院中文分词语料库、搜狗互联网语料及词语搭配关系数据库。

微信下载不方便,你可以直接回复:YL002 进行打包下载。    

资料整理不易,最后帮作者点个赞点个在看吧,谢谢~~

本期数据分享快照

往期语料库分享

收藏!「自然语言处理(NLP)」你可能用到的数据集(一)

正文开始



1First Blood

微信公众号语料库

    网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。数据用zip分卷压缩过的, 没有密码。预览可以看preview.json。目前数据大约3G,数据会定期更新增加。

维基百科中文词条

    维基百科开源的中文词条内容,收集了99W+词条,当然比百度少了不少。其中,zhwiki-20200801-pages-articles-multistream.xml.bz2 是主文件;zhwiki-20200801-pages-articles-multistream-index.txt.bz2 是每个词条的编号信息。

Google图书n-gram数据集(含中文简体)

    包含谷歌图书n-gram数据集(内含n-gram介绍)。该数据集以Hadoop友好的文件格式在Amazon S3上免费提供,并遵循Creative Commons attribu3.0非移植许可协议。

    在Amazon S3上有许多不同的数据集可用。对于给定的输入语料库(如英语或中文文本),每个数据集都是单一的n-gram类型(1-gram、2-gram,等等)。

    我们将数据集存储在Amazon S3的单个对象中。该文件采用块级LZO压缩的顺序文件格式。序列文件键是数据集的行号,存储为LongWritable,值是存储为TextWritable的原始数据。

人民日报语料库1998&&& 2014(中文分词语料库)

    PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。

    PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。

    2014语料库规模比1998年人民日报语料库大,98版本为人工标注,14版本在精度上相比要差一些。

中文命名实体识别标注数据

    1.  5 万多条中文命名实体识别标注数据(IOB2 格式,符合 CoNLL 2002CRF++ 标准),可以用于中文命名实体识别。数据标签说明:

微软亚洲研究院中文分词语料库

    词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。在使用规范对语料库进行加工时,将与《现代汉语语法信息词典》等项研究成果密切配合。

    该数据集主要出自SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。

  URL:MSR: http://sighan.cs.uchicago.edu/bakeoff2005/ 

  URL:PKU:  http://sighan.cs.uchicago.edu/bakeoff2005/

搜狗实验室互联网词语搭配关系库

    互联网词语搭配关系库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。涉及到的搭配样例超过2000万,涉及到的高频词超过15万。

    URL:https://www.sogou.com/labs/resource/r.php

搜狗实验室互联网语料库

    来自互联网各种类型的1.3亿个原始网页, 压缩前的大小超过了5TB。标签后一行直到标签结束的中间部分即为网页原始内容,保留了HTML标记 页面ID 页面URL 页面原始内容。

<url>标签后一行直到</doc>标签结束的中间部分即为网页原始内容,保留了HTML标记

<doc>

<docno>页面ID</docno>

<url>页面URL</url>

页面原始内容 </doc>

   URL:https://www.sogou.com/labs/resource/t.php


2往期回顾

学术圈

   收藏!「NLP」AINLPer 大 盘 点 !!    这是一篇关于Attention的综述

长按识别下方二维码关注我们

资料整理不易,帮忙点个【赞】、【在看】吧



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存