查看原文
其他

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP 应用语言学研习 2022-06-09

欢迎点击上方关注我们,欢迎转发此文

本文来源:深度学习与NLP、汉语堂

    资源整理了文本分类、实体识别&词性标注、搜索匹配、推荐系统、指代消歧、百科数据、预训练词向量or模型、中文完形填空等大量数据集,中文数据集平台和NLP工具等。

    本文内容整理自:https://github.com/InsaneLife/ChineseNLPCorpus


文本分类

    新闻分类

    今日头条中文新闻(短文本)分类数据集 :https://github.com/fateleak/toutiao-text-classfication-dataset

    数据规模:共38万条,分布于15个分类中。

    采集时间:2018年05月。

    以0.7 0.15 0.15做分割 。

清华新闻分类语料

    根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。

    数据量:74万篇新闻文档(2.19 GB)

    小数据实验可以筛选类别:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐

    http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

    rnn和cnn实验:https://github.com/gaussic/text-classification-cnn-rnn


    中科大新闻分类语料库:http://www.nlpir.org/?action-viewnews-itemid-145


    情感/观点/评论 倾向性分析

实体识别&词性标注

    微博实体识别

    https://github.com/hltcoe/golden-horse


    boson数据

    包含6种实体类型。

    https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson


    人民日报数据集

    人名、地名、组织名三种实体类型

    1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

    2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3


    MSRA微软亚洲研究院数据集

    5 万多条中文命名实体识别标注数据(包括地点、机构、人物)

    https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA


    SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。

    

    MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

    PKU :http://sighan.cs.uchicago.edu/bakeoff2005/


搜索匹配

    OPPO手机搜索排序

    OPPO手机搜索排序query-title语义匹配数据集。

    链接:https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取码:7p3n

    

    网页搜索结果评价(SogouE)

    用户查询及相关URL列表

    https://www.sogou.com/labs/resource/e.php

    

推荐系统

百科数据

    维基百科

    维基百科会定时将语料库打包发布:

    数据处理博客

    https://dumps.wikimedia.org/zhwiki/


    百度百科

    只能自己爬,爬取得链接:https://pan.baidu.com/share/init?surl=i3wvfil提取码 neqs 。

    

指代消歧

    CoNLL 2012 :http://conll.cemantix.org/2012/data.html

    

预训练:(词向量or模型)

    BERT

    开源代码:https://github.com/google-research/bert

    模型下载:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters


    ELMO

    开源代码:https://github.com/allenai/bilm-tf

    预训练的模型:https://allennlp.org/elmo


    腾讯词向量

    腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。

    下载地址:https://ai.tencent.com/ailab/nlp/embedding.html


    上百种预训练中文词向量

    https://github.com/Embedding/Chinese-Word-Vectors

    

中文完形填空数据集

    https://github.com/ymcui/Chinese-RC-Dataset

    

中华古诗词数据库

    最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

    https://github.com/chinese-poetry/chinese-poetry

    

保险行业语料库

    https://github.com/Samurais/insuranceqa-corpus-zh

    

汉语拆字字典

    英文可以做char embedding,中文不妨可以试试拆字

    https://github.com/kfcd/chaizi

    

中文数据集平台

    搜狗实验室

    搜狗实验室提供了一些高质量的中文文本数据集,时间比较早,多为2012年以前的数据。

    https://www.sogou.com/labs/resource/list_pingce.php

    

    中科大自然语言处理与信息检索共享平台

    http://www.nlpir.org/?action-category-catid-28

    

    中文语料小数据

    包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。

    https://github.com/crownpku/Small-Chinese-Corpus

    维基百科数据集

    https://dumps.wikimedia.org/


NLP工具

    THULAC:https://github.com/thunlp/THULAC :包括中文分词、词性标注功能。

    

    HanLP:https://github.com/hankcs/HanLP

    

    哈工大LTP: https://github.com/HIT-SCIR/ltp

    

    NLPIR: https://github.com/NLPIR-team/NLPIR

    

    jieba分词: 

https://github.com/yanyiwu/cppjieba

本期责编:李嘻嘻

相关文献延伸阅读(爱书人指南)

敬告:本公号友情提供相关书讯或书目索引链接,

以便爱书人前往第三方平台自行选购



语言学图书精选推荐



推荐阅读:
会讯 | 第二届中国外语教育高峰会议(二号通知)
会讯 | 国际韩礼德语言学研究会2020年会(系列活动日程)
关于举办 “系统功能语言学与外语教育”高端论坛的通知
《天津师范大学学报(社会科学版)》国际中文教育专栏征稿启事
新中国对外汉语教学70年发展之路与未来展望学术论坛(1号通知)
海外中国学研究机构名录一览表(2020年版)
会讯 | 首届构式语法研究高层论坛(1号通知)
会讯|语言智能与外语教育——第二届中国外语教育高峰会议
讲座预告 | “中国外语战略研究中心讲坛” 11月学术活动一览
报告全文 | 教育部高教司司长吴岩:积势蓄势谋势 识变应变求变 全面推进新文科建设
李宇明 郭熙 周洪波 | 中国语言生活研究十五年
招聘 | 上海外国语大学招聘教学科研人员及师资博士后
南师大外国语学院、文学院2021年博士研究生招生目录
讲座视频 | 沈骑:后疫情时代的国家话语能力规划
张伟年 段宛云等:战略传播学视阈下特朗普涉华新冠肺炎污名化推特分析
拜登胜选演讲全文 (英文+中文+西班牙语 三语对照)
语言专业师生必看的10部电影(附观看链接)
叶兆言:外国文学这个月亮,确实要比中国的圆
书讯 | 上海教育出版社推出“语言学经典文丛”
国内首部《“战疫”应急语言服务报告》发布
蔡基刚:应急语言服务与应急语言教学探索
孔子学院:践行《世界文化多样性宣言》的东方典范
王春辉:孔子学院三思 |《国际教育交流》2020年10月(总第126期)
大汇总 | 第1 - 10批推荐使用的外语词规范中文译名(附Word版下载方式)
中国外语院校本科教学质量报告(2019)
《大学英语教学指南》(2020版)发布会隆重举行(含视频回放)
何莲珍:新时代大学英语教学的新要求——《大学英语教学指南》修订依据与要点
向明友:顺应新形势,推动大学英语课程体系建设—《大学英语教学指南》课程设置评注
赵雯 王海啸:新时代大学英语语言能力的建构 |《大学英语教学指南》2020版专家解读
文秋芳教授:中国外语教学70年,未来道路究竟向何方?
博后招聘|北京航空航天大学外国语学院招收博士后
南开大学外国语学院教职工招聘与人才引进公告(2021版)
重磅 | 2020软科中国最好学科排名出炉(中国语言文学 & 外国语言文学)
重磅!USNews 2021年世界大学学科排行榜公布
书讯 | 利奇《语用学原则》中译本出版
书讯 | 《语用学与英语》中译本出版
Fodor《心理语义学》:在心灵与语言之间
文秋芳教授早年专访:学习是一辈子的事 | 21世纪英文报
心灵与认知文库 · 原典系列 | 商务印书馆学术中心
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
束定芳:大学英语教学与国际化人才培养 |《外国语》2020年第5期
会议征稿 | 面向教育应用的自然语言处理研讨会
陈力:西方现代教学理论真的反对语法教学吗?
会讯丨“2020国际英语教育中国大会”会议通知
全球语种谱系图,看看机器翻译需要跨越的大山
接触理论:生成语法研究的新进展 | 中国社会科学报
荐书 | 徐烈炯著《生成语法理论:标准理论到最简方案》
会讯 | 第四届“全国学科英语研究学术讨论会”通知
会讯 | 第六届“全国话语研究高层论坛”征文通知
合辑 | 双语版《美丽中国》( Amazing China ):1-58集(全)
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》
对外汉语专业常用资料库大全
收藏!76种学术研究必备科研工具
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
麦蒂森论翻译 | 系统功能语言学与翻译研究
语言趣谈 | 为什么感觉你的翻译不是说“人话”
干货 | 哲学社科领域有哪些出版项目可以申报?赶快收藏!
冯志伟教授谈计算语言学 | 中国社会科学网访谈
胡壮麟教授专访:路漫漫 吾将上下而求索
荐书 | 北京大学出版社语言学图书书单
视频 | 听胡壮麟教授讲《语言学教程》那些事儿
中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
戴炜华  吴国玢:论语言学的跨学科研究
大师课程 | 乔姆斯基等:语言,思维和大脑
沈家煊:比异求同 融会中西 |《共和国学人》系列专题片
李葆嘉 | 索绪尔符号任意性的来源:兼及荀子约定俗成的原意
王缉思:浅谈区域与国别研究的学科基础
21世纪以来中国的太平洋岛国研究:历史、现实与未来——陈晓晨研究员访谈
程琪龙:语言研究的超学科意识 |《外国语》2020(2)
语用翻译学——中国文化走出去的出路
胡壮麟先生讲《认知隐喻学》的前世今生
申丹 | 西方文论关键词:隐性进程 |《外国文学》2019(1)
视频 | TED Ed:语言进化编年史
吴应辉:汉语国际教育面临的若干理论与实践问题
李建波 李霄垅 | 外国文学和国别与区域的交叉研究:国情研究专家的视角
陈坚林:试论人工智能技术在外语教学上的体现与应用
陆小飞、刘颖颖:基于语料库的学术英语程式语研究与教学应用
特别推荐 | 语料库与语言对比研究
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
外语教学类高被引论文排行榜 TOP 10
语言学类高被引论文排行榜 TOP 10
“国家形象研究”高被引论文排行榜 TOP 10
郭英剑:对英语专业的不当批评,可以休矣
蔡基刚:学术英语? 通用英语? 对学术英语再认识
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
中英文学科、专业名称对照
多位著名专家学者分享英语学习方法
乔姆斯基:三个讲座,国内少见
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻)
多模态话语分析:以“疫情防控外语通”为例
重磅资源 | 外语教学论文写作与发表(免费下载论文写作资料大礼包)
《牛津英语》语法大讲堂(视频全集)
所以,什么是语言学?| 语言学微课堂

扫码关注,即可获取最新入群二维码

目前已有1.86万语言文学、国别区域

研习者关注↑↑↑本公众号,

欢迎加入我们,交流分享,共同学习!

一个,点亮在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存