查看原文
其他

你一定要收藏的语料库资源

一者君 语言生活研究 2021-03-17

提及语料库,学语言的童鞋们一定不陌生。这些语言材料的大集合不仅能帮助我们研究语言的各种现象,还能在计算机辅助翻译工具中辅助我们的翻译。在机器翻译领域,运用大批量的语料进行训练还可以帮助提升机器翻译的效果。今天一者君为大家整理了语料库资源,希望这些语料库在大家的语言之路起到帮助作用哦~


单语语料库资源

外语资源


美国当代英语语料库(COCA)


https://corpus.byu.edu/coca/


美国当代英语语料库是全球最大的免费英语语料库,包含文本小说、口语、杂志、报纸、学术文章等文体。其时效性很强,一些新词也会收录在内。可以作为平时词典的补充,把不确定的表达可以放到语料库里查,确认是否地道或者是找到更过的信息。


英国国家语料库(BNC)


http://www.natcorp.ox.ac.uk/


英国国家语料库是由英国牛津出版社、朗文出版公司、大英图书馆、牛津大学计算机中心等机构联合建立的大型语料库。以现代英式英语文本为主,口语和书面语并存。


联合国文件数据库


http://www.un.org/zh/search


本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。


语言开放典藏社群(OLAC)


search.language-archives.org


语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源,如:语言学家、工程师、教师、演说家,也有许多机构提供片段性的架构,如:文件管理器、软件开发者和出版者。


SKETCH ENGINE多语言语料库


http://www.sketchengine.co.uk


每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。


汉语资源


语料库在线


http://www.cncorpus.org


语料库在线提供了现代汉语语料库和古代汉语语料库资源,并且可以通过字词索引检索,还支持分词与词性标注、汉语拼音标注、字词频率统计等功能。



北京大学中国语言学研究中心


http://ccl.pku.edu.cn/corpus.asp


北京大学中国语言学研究中心网站是由北京大学中国语言学研究中心开发并维护的纯学术性非盈利性网站。以交流语言学研究经验,传播语言学研究成果,推动语言学研究和发展为宗旨。北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。支持复杂检索表达式、支持对标点符号的查询、支持在“结果集”中继续检索、用户可定制查询结果的显示方式、用户可从网页上下载查询结果(txt文件);其中汉语语料库包含783,463,175字符,其中现代汉语语料581,794,456字符,古代汉语语料201,668,719字符。汉英语料库包含2374个文件(汉英语料库仅限北大校内用户使用)。



CCL


搜文解字


http://words.sinica.edu.tw


包含“搜词寻字”、“文学之美”、“游戏解惑”、“古文字的世界”四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。


媒体语言语料库


http://ling.cuc.edu.cn/RawPub/


中国传媒大学有声媒体文本语料库是一个开放、免费使用的语料库,由中国传媒大学国家语言资源监测与研究有声媒体中心开发。该语料库2003年开始建设,2005年上线,其后不断扩大语料规模,一直为研究者提供免费服务。为方便广大研究者使用,2016年语料库进行了第三次改版。这次改版主要加进了与原来语料规模相等、内容相同的熟语料,可以进行以词为单位或以词性及词性串为单位的词串检索。

本语料库包括2008至2013六年的34,039个广播、电视节目的转写文本,总字符数为241,316,530个,总汉字数为200,071,896字次。所有文本都进行了分词和词性标注,共计135,767,884词次。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。

本语料库所有语料都进行了元数据标注,既可以利用全部2亿字语料进行检索,也可以根据研究需要选定检索范围。



北京BCC汉语语料库


bcc.blcu.edu.cn


BCC汉语语料库,总字数约150亿字,包括:报刊(20亿)、文学(30亿)、微博(30亿)、科技(30亿)、综合(10亿)和古汉语(20亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。


香港教育学院“LIVAC汉语共时语料库”


http://www.livac.org


LIVAC汉语共时语料库以严谨、恒常与「共时」方式,搜索和处理了超常的大量具代表性汉语平面媒体语料,并通过精密的技术,累积了泛华语地区众多精确的语言和语用统计数据。本语料库最大特点是采用「共时性」视窗模式,剖析来自香港,北京,上海,台湾,澳门,新加坡等多地有代表性的定量华语媒体语料。直至2016年,LIVAC已累计过滤25亿汉字语料,并已处理逾6亿字,累积并持续提炼出2百多万词条。LIVAC所收集各地语用数据,可供各种比较研究,并方便有关信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便有意者以专词搜索(KWIC),以便客观地观察与研究视窗内20多年来有代表性的语用发展全面动态。经过协调与配合个别用户需求,例如针对性以地区、时段或范畴,LIVAC曾为多个公、私营机构提供服务,包括语言工程,资讯服务,词典编著,媒体分析与教育机构等。LIVAC由香港城市大学语言资讯科学研究中心于1995年开发和推展,由城大企业有限公司旗下麒麟(香港)有限公司提供技术支援。2010年至2013年期间,LIVAC由香港教育学院语言资讯科学研究中心维持。自2013年7月起,LIVAC由麒麟(香港)有限公司独家维护和开发。目前提供1995至1997年的资料供使用者免费试用。


中文语言资源联盟


http://www.chineseldc.org


中文语言资源联盟是由中国中文信息学会语言资源建设和管理工作委员会发起,由中文语言(包括文本、语音、文字等)资源建设和管理领域的科技工作者自愿组成的学术性、公益性、非盈利性的社会团体,其宗旨是团结中文语言资源建设领域的广大科技工作者,建成代表中文信息处理国际水平的、通用的中文语言语音资源库。中文语言资源联盟的目的是建成能代表当今中文信息处理国际水平的、通用的语言信息与知识库,具有完整性、权威性、系统性和开放性的特点,涵盖中文信息处理各个层面上所需要的语言语音资源,包括词典、各种语音语言语料库、工具等。在建立和收集语言资源的基础上,形成一套统一的系列化的标准和规范,推荐给需要的机构或研发人员。


双语语料库

Tmxmall语料快搜


www.tmxmall.com/qsearch


Tmxmall语料快搜平台是中国领先的中英翻译记忆库检索与交换平台,具备搜索、上传、下载、账户管理和积分购买等功能。平台支持中英双向检索,检索速度快;语料超过7300万句对,总字数达15亿字,且在持续增长;语料质量高,均经过人工审核;语料涵盖面广,覆盖经济、数理科学和化学、生物科学、医药、卫生、石油、天然气工业、能源与动力工程、机械、仪表工业、自动化技术、计算机等行业和领域。



THE SEA


语料商城


https://www.tmxmall.com/store


语料商城是专业的语料交易共享平台,由用户将语料数据上传,买方可以通过关键词、匹配待翻译文件以及在CAT工具中直接调取句对,支付费用就可以了。让语料数据充分流通起来。


Linguee


https://www.linguee.com/


Linguee集字典和搜索引擎为一体,上半部分是搜索词条的翻译列表,下半部分是网络上的双语例句。主要来自与网络,而且是已经被翻译成多种语言的官方网站,比如联合国网站。


TAUS Data


https://data-app.taus.net/


翻译自动化用户协会(TAUS)运营的大型翻译记忆库网站。


句酷


https://www.jukuu.com/


句酷,2004年初创立于北京邮电大学,目标定位于打造中国人自己的语言搜索引擎,帮助人们克服语言沟通障碍。


MyMemory


mymemory.translated.net/


MyMemory是全球知名的记忆库检索平台,其语料来源于欧盟、联合国等组织,并按照领域划分。可以在CAT工具中查询使用。


有了这些语料库的加持,就在学外语的道路上越走越远吧!


*文中素材来源于网络,由公号Tmxmall一者君整理发布。


特别推荐

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存