其他
现代汉语相关语料库资源整理及验证 心理学-计算机相关专业适用
因为最近要用到语料库材料库之类的,所以就找了一下,然后发现没有很新的语料库相关的资料整理,就自己做了一份,参考了很多人的整理结果,但是没有记录过程,就不一一引用了,感谢各位前辈.
来源 | 名称 | 网页 | 验证 |
中国传媒大学 | 中传媒体语言语料库(MLC) | http://ling.cuc.edu.cn/RawPub/ | 在线 |
在线分词标注系统 | ling.cuc.edu.cn/cucseg/ | 在线 | |
新词语研究资源库 | http://ling.cuc.edu.cn/newword/web/index.asp | 找不到网页 | |
音视频语料检索系统 | http://ling.cuc.edu.cn/mmcpub | 找不到网页 | |
国家语委 | 现代汉语语料库词频表 | http://corpus.zhonghuayuwen.org/ | 都可用,可下载 |
现代汉语语料库分词类词频表 | |||
现代汉语语料库字频表 | |||
古代汉语语料库字频表 | |||
汉语拼音标注工具 | |||
分词和词性标注工具 | |||
字词频率统计工具 | |||
现代汉语常用字表 | |||
现代汉语通用字表 | |||
通用规范汉字表 | |||
北京大学计算语言学研究所 | 《人民日报》标注语料库 | http://www.icl.pku.edu.cn/icl_res/ | 找不到网页 |
北大ccl语料库 | http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir=xiandai | 只有内网能进 | |
北京大学语料库 | 句子对齐的双语语料库-规范与样例 | http://klcl.pku.edu.cn/zygx/zyxz/index.htm | 有样例 |
句子对齐的双语语料库-规范与样例 | |||
中英文概念词典简介与样例 | |||
现代汉语切分、标注、注音语料库-1998年1月份样例与规范 | |||
现代汉语文本注音软件等(暂无) | |||
汉语词语切分与标注软件说明 | |||
GKB规范与1万词样例 | |||
北京语言大学 | 汉语国际教育技术研发中心:HSK动态作文语料库 | http://202.112.195.192:8060/hsk/login.asp | 找不到网页 |
语言研究所:北京口语语料查询系统(B J K Y) | http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp | 找不到网页 | |
大型中文语料库(5亿字,10分库) | 未查证 | ||
BCC语料库 :包涵很多 | http://bcc.blcu.edu.cn/ | 网页+下载 | |
台湾中央研究院 | 现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/ | 收费 | |
現代漢語語料庫詞頻統計 | http://elearning.ling.sinica.edu.tw/CWordfreq.html | ||
古汉语语料库 | ttp://www.sinica.edu.tw/ftms-bin/ftmsw | ||
近代汉语标记语料库 | ttp://www.sinica.edu.tw/Early_Mandarin/ | ||
中文句結構樹資料庫簡介 | |||
树图数据库 | ttp://treebank.sinica.edu.tw/ | ||
中英双语知识本体词网 | ttp://bow.sinica.edu.tw/ | ||
搜文解字 | ttp://words.sinica.edu.tw/ | ||
文国寻宝记 | ttp://www.sinica.edu.tw/wen/ | ||
唐诗三百首 | ttp://cls.admin.yzu.edu.tw/300/ | ||
汉籍电子文献 | ttp://www.sinica.edu.tw/~tdbproj/handy1/ | ||
红楼梦网络教学研究数据中心 | ttp://cls.hs.yzu.edu.tw/HLM/home.html | ||
汉字命名的心理语言学数据库 | http://ball.ling.sinica.edu.tw/brain/index.html | 在线 | |
中文情绪词汇库 | https://static-content.springer.com/esm/art%3A10.3758%2Fs13428-016-0793-2/MediaObjects/13428_2016_793_MOESM2_ESM.pdf | 可下载 | |
简体中文词汇判断数据库 | https://static-content.springer.com/esm/art%3A10.3758%2Fs13428-017-0944-0/MediaObjects/13428_2017_944_MOESM1_ESM.xlsx | 可下载 | |
汉字书写的心理语言学数据库 | https://osf.io/7s9kq/ | 可下载 | |
词语小世界 | https://smallworldofwords.org/zh/project/home | ||
新词语研究资源库 | http://ling.cuc.edu.cn/newword/showcls2.aspx?classid=94 | ||
哈尔滨工业大学 | 哈工大信息检索研究室对外共享语料库资源 | http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm | 找不到网页 |
语言云 | https://www.ltp-cloud.com/intro#srl_how | 软件包 | |
清华大学 | 汉语均衡语料库TH-ACorpus | lits.tsinghua.edu.cn/ainlp/source.html | 找不到网页 |
香港教育学院 | 语言资讯科学中心及其语料库实验室 | http://www.livac.org/index.php?lang=sc | 在线 |
中国科学院计算技术研究所 | 跨语言语料库 | http://mtgroup.ict.ac.cn/new/ | 找不到网页 |
中文语言资源联盟 | 各种语料库资源 | chineseldc.org/ | 有样例 |
CLD | Chinese Lexical Database (CLD) | http://www.chineselexicaldatabase.com/ | |
武汉大学 | 汉语现代文学作品语料库(1979年,527万字) | 未查证 | |
北京航空航天大学 | 现代汉语语料库(1983年,2000万字) | ||
北京师范大学 | 中学语文教材语料库(1983年,106万8000字) | ||
北京语言学院 | 现代汉语词频统计语料库(1983年,182万字) | ||
国家语言文字工作委员会 | 国家级大型汉语均衡语料库(2000万字) | ||
清华大学 | 现代汉语语料库(1亿字) | 未查证 | |
山西大学 | 汉语新闻语料库;(1988年,250万字) | ||
标准语料库(2000年,70万字) | |||
上海师范大学 | 生语料库(3000万字);《作家文摘》的标注语料库(100万字) | ||
中国社会科学院语言所 | 现代自然口语语料库 | ||
中国科学院自动化所 | 旅游咨询口语对话语料库和旅馆预定口语对话语料库 | ||
现代汉语语料库 | http://ccl.pku.edu.cn/corpus.asp?item=1 | 找不到网页 | |
古代汉语语料库 | http://ccl.pku.edu.cn/corpus.asp?item=2 | ||
汉英双语语料库 | http://ccl.pku.edu.cn/corpus.asp?item=3 | ||
HSK动态作文语料库 | http://202.112.195.192:8060/hsk/login.asp | ||
北京口语语料查询系统 | http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp | ||
现代汉语平衡语料库 | http://rocling.iis.sinica.edu.tw/new/20corpus.htm | ||
兰开斯特汉语语料库 | http://ling.cass.cn/dangdai/LCMC/LCMC.htm | ||
洛杉矶加州大学汉语语料库 | http://www.lancs.ac.uk/fass/projects/corpus/UCLA/ | 可下载 | |
中文新闻分类语料库 | http://www.nlpir.org/?action-viewnews-itemid-145 | ||
NLPIR 500万条twitter内容语料库 | http://www.nlpir.org/?action-viewnews-itemid-263 | ||
NLPIR微博博主语料库100万条 | http://www.nlpir.org/?action-viewnews-itemid-232 | ||
词语研究资源库 对外汉语北京 | http://ling.cuc.edu.cn/newword/web/index.asp | 找不到网页 | |
BFSU CQPweb多语言在线语料库检索平台 | http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358 | ||
英汉双语平行语料库 | http://www.luweixmu.com/ec-corpus/ | ||
babel 汉英平行语料库 | http://icl.pku.edu.cn/icl_groups/parallel/default.htm | ||
中国法律法规汉英平行语料库(大陆) | http://corpus.zscas.edu.cn/lawcorpus1/index.asp | ||
国家语言资源监测与研究中心 | http://www.clr.org.cn/ | ||
复旦大学李荣陆 | 文本分类语料库(复旦) | http://www.nlpir.org/wordpress/download/tc-corpus-answer.rar | 可下载 |
NLPIR新闻语料库及系列互联网语料库 | http://www.nlpir.org/wordpress/category/corpus%E8%AF%AD%E6%96%99%E5%BA%93/ | ||
BosonNLP数据 | 命名实体数据 | https://bosonnlp.com/dev/resource | 可下载 |
情感词典 | |||
字频数据 | |||
哈工大 | |||
语料资源 | 哈工大信息检索研究中心汉语依存树库 | http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm | 申请,可下载 |
[HIT-CIR Chinese Dependency Treebank] | |||
哈工大信息检索研究中心同义词词林扩展版 | |||
[HIT-CIR Tongyici Cilin (Extended)] | |||
语言处理模块 | 断句[SplitSentence: Sentence Splitting ] | ||
词法分析[IRLAS: Lexical Analysis System] | |||
基于SVMTool的词性标注[PosTag: Part-of-speech Tagging ] | |||
命名实体识别[NER: Named Entity Recognition ] | |||
基于动态局部优化的依存句法分析[Parser: Dependency Parsing] | |||
基于图的依存句法分析[GParser: Graph-based DP] | |||
全文词义消歧[WSD: Word Sense Disambiguation] | |||
浅层语义标注模块[SRL: hallow Semantics Labeling] | |||
数据表示 | 语言技术置标语言[LTML: Language Technology Markup Language] | ||
可视化工具 | LTML可视化XSL | ||
华东师大 | 中文词频表 | https://doi.org/10.1371/journal.pone.0010729.s002 | 样例 |
欢迎关注公众号《来自哈斯巴根的爱》
以上资源来自《来自哈斯巴根的爱》公众号,以上写作权归作者所有,文章仅限学习使用,不用于商业行为,如需转载,请联系作者,若有侵权及疑问,请后台留言!
52brain,Connect Young Brains.