查看原文
其他

现代汉语相关语料库资源整理及验证 心理学-计算机相关专业适用

哈斯巴根 我爱脑科学网 2022-04-16

因为最近要用到语料库材料库之类的,所以就找了一下,然后发现没有很新的语料库相关的资料整理,就自己做了一份,参考了很多人的整理结果,但是没有记录过程,就不一一引用了,感谢各位前辈.


这些基本上只有几个能够保证是正常使用和下载的,其他在线的比较多,然后没有网页的或者下载不了的也不是不能用,可能只是不公开了,如果能联系到对方院校或者相关的人,应该也是可以正常使用的,所以只是一个索引名单.

另外有一个语料库相关的论坛,如果这里面都没有,可以参考一下这个论坛(https://www.corpus4u.org/)

来源名称网页验证
中国传媒大学中传媒体语言语料库(MLC)http://ling.cuc.edu.cn/RawPub/在线

在线分词标注系统ling.cuc.edu.cn/cucseg/在线

新词语研究资源库http://ling.cuc.edu.cn/newword/web/index.asp找不到网页

音视频语料检索系统http://ling.cuc.edu.cn/mmcpub找不到网页
国家语委现代汉语语料库词频表http://corpus.zhonghuayuwen.org/都可用,可下载
现代汉语语料库分词类词频表
现代汉语语料库字频表
古代汉语语料库字频表


汉语拼音标注工具
分词和词性标注工具
字词频率统计工具


现代汉语常用字表
现代汉语通用字表
通用规范汉字表




北京大学计算语言学研究所《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/找不到网页

北大ccl语料库http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir=xiandai只有内网能进
北京大学语料库句子对齐的双语语料库-规范与样例http://klcl.pku.edu.cn/zygx/zyxz/index.htm有样例

句子对齐的双语语料库-规范与样例

中英文概念词典简介与样例

现代汉语切分、标注、注音语料库-1998年1月份样例与规范

现代汉语文本注音软件等(暂无)

汉语词语切分与标注软件说明

GKB规范与1万词样例




北京语言大学汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp找不到网页





语言研究所:北京口语语料查询系统(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp找不到网页

大型中文语料库(5亿字,10分库)
未查证

BCC语料库 :包涵很多http://bcc.blcu.edu.cn/网页+下载
台湾中央研究院现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/
收费

現代漢語語料庫詞頻統計http://elearning.ling.sinica.edu.tw/CWordfreq.html

古汉语语料库ttp://www.sinica.edu.tw/ftms-bin/ftmsw

近代汉语标记语料库ttp://www.sinica.edu.tw/Early_Mandarin/

中文句結構樹資料庫簡介

树图数据库ttp://treebank.sinica.edu.tw/

中英双语知识本体词网ttp://bow.sinica.edu.tw/

搜文解字ttp://words.sinica.edu.tw/

文国寻宝记ttp://www.sinica.edu.tw/wen/

唐诗三百首ttp://cls.admin.yzu.edu.tw/300/

汉籍电子文献ttp://www.sinica.edu.tw/~tdbproj/handy1/

红楼梦网络教学研究数据中心ttp://cls.hs.yzu.edu.tw/HLM/home.html

汉字命名的心理语言学数据库http://ball.ling.sinica.edu.tw/brain/index.html在线

中文情绪词汇库https://static-content.springer.com/esm/art%3A10.3758%2Fs13428-016-0793-2/MediaObjects/13428_2016_793_MOESM2_ESM.pdf可下载

简体中文词汇判断数据库https://static-content.springer.com/esm/art%3A10.3758%2Fs13428-017-0944-0/MediaObjects/13428_2017_944_MOESM1_ESM.xlsx可下载

汉字书写的心理语言学数据库https://osf.io/7s9kq/可下载

词语小世界https://smallworldofwords.org/zh/project/home

新词语研究资源库http://ling.cuc.edu.cn/newword/showcls2.aspx?classid=94




哈尔滨工业大学哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm找不到网页

语言云https://www.ltp-cloud.com/intro#srl_how软件包
清华大学汉语均衡语料库TH-ACorpuslits.tsinghua.edu.cn/ainlp/source.html找不到网页




香港教育学院语言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc在线
中国科学院计算技术研究所跨语言语料库http://mtgroup.ict.ac.cn/new/找不到网页




中文语言资源联盟各种语料库资源chineseldc.org/有样例




CLDChinese Lexical Database (CLD)http://www.chineselexicaldatabase.com/




武汉大学汉语现代文学作品语料库(1979年,527万字)
未查证
北京航空航天大学现代汉语语料库(1983年,2000万字)
北京师范大学中学语文教材语料库(1983年,106万8000字)
北京语言学院现代汉语词频统计语料库(1983年,182万字)
国家语言文字工作委员会国家级大型汉语均衡语料库(2000万字)








清华大学现代汉语语料库(1亿字)
未查证
山西大学汉语新闻语料库;(1988年,250万字)

标准语料库(2000年,70万字)
上海师范大学生语料库(3000万字);《作家文摘》的标注语料库(100万字)
中国社会科学院语言所现代自然口语语料库
中国科学院自动化所旅游咨询口语对话语料库和旅馆预定口语对话语料库

现代汉语语料库http://ccl.pku.edu.cn/corpus.asp?item=1找不到网页

古代汉语语料库http://ccl.pku.edu.cn/corpus.asp?item=2

汉英双语语料库http://ccl.pku.edu.cn/corpus.asp?item=3

HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp

北京口语语料查询系统http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

现代汉语平衡语料库http://rocling.iis.sinica.edu.tw/new/20corpus.htm

兰开斯特汉语语料库http://ling.cass.cn/dangdai/LCMC/LCMC.htm

洛杉矶加州大学汉语语料库http://www.lancs.ac.uk/fass/projects/corpus/UCLA/可下载

中文新闻分类语料库http://www.nlpir.org/?action-viewnews-itemid-145

NLPIR 500万条twitter内容语料库http://www.nlpir.org/?action-viewnews-itemid-263

NLPIR微博博主语料库100万条http://www.nlpir.org/?action-viewnews-itemid-232

词语研究资源库 对外汉语北京http://ling.cuc.edu.cn/newword/web/index.asp找不到网页

BFSU CQPweb多语言在线语料库检索平台http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358

英汉双语平行语料库http://www.luweixmu.com/ec-corpus/

babel 汉英平行语料库http://icl.pku.edu.cn/icl_groups/parallel/default.htm

中国法律法规汉英平行语料库(大陆)http://corpus.zscas.edu.cn/lawcorpus1/index.asp

国家语言资源监测与研究中心http://www.clr.org.cn/




复旦大学李荣陆文本分类语料库(复旦)http://www.nlpir.org/wordpress/download/tc-corpus-answer.rar可下载

NLPIR新闻语料库及系列互联网语料库http://www.nlpir.org/wordpress/category/corpus%E8%AF%AD%E6%96%99%E5%BA%93/








BosonNLP数据命名实体数据https://bosonnlp.com/dev/resource可下载

情感词典


字频数据





哈工大


语料资源哈工大信息检索研究中心汉语依存树库http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm申请,可下载

[HIT-CIR Chinese Dependency Treebank]

哈工大信息检索研究中心同义词词林扩展版

[HIT-CIR Tongyici Cilin (Extended)]
语言处理模块断句[SplitSentence: Sentence Splitting ]

词法分析[IRLAS: Lexical Analysis System]

基于SVMTool的词性标注[PosTag: Part-of-speech Tagging ]

命名实体识别[NER: Named Entity Recognition ]

基于动态局部优化的依存句法分析[Parser: Dependency Parsing]

基于图的依存句法分析[GParser: Graph-based DP]

全文词义消歧[WSD: Word Sense Disambiguation]

浅层语义标注模块[SRL: hallow Semantics Labeling]
数据表示语言技术置标语言[LTML: Language Technology Markup Language]
可视化工具LTML可视化XSL




华东师大中文词频表https://doi.org/10.1371/journal.pone.0010729.s002样例

欢迎关注公众号《来自哈斯巴根的爱》


以上资源来自《来自哈斯巴根的爱》公众号,以上写作权归作者所有,文章仅限学习使用,不用于商业行为,如需转载,请联系作者,若有侵权及疑问,请后台留言!


52brain,Connect Young Brains.


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存