查看原文
其他

资源宝库|高级译员的秘密武器——语料库大全集

邢薇 语言服务行业
2024-09-09



阿基米德说,“给我一个支点,我就能撬动地球”。水煮君云,“给我一个语料库,我能翻译全世界。”
有人说得语料者得天下。的确,语料库可以解决翻译中的许多语言问题。无论单语还是多语语料库,都在翻译中具有重要作用。小编呕心沥血整理了18个汉语语料库、23个英语语料库、12个多语语料库,与各位分享!
一、汉语语料库

语料库
语种
领域
网址
Academia Sinica Balanced Corpus of Modern Chinese
汉语
综合
http://asbc.iissinica.edu.tw/index readme.htm
北京大学古代汉语语料库(CCL)
汉语
古代汉语
http://ccl.pku.edu.cn:8080/ccl corpus/indexjsp?dir-gudai
北京大学现代汉语语料库(CCL)
汉语
现代汉语
http://ccl.pku.edu.cn:8080/ccl corpus/indexjsp?dir-xiandai
北京语言大学汉语语料库 (BCC)
汉语
综合
http://bcc.blcu.edu.cn/
中央研究院古代近代汉语标记语料库
汉语
综合
https://www.ling.sinica.edu.tw/main/zh-tw?code=list&ids=23
《红楼梦》汉英平行语料库
汉语
综合
http://corpus.usx.edu.cn/hongloumeng/images/shiyongshuoming.htm
Media Language Corpus
媒体语言语料库
汉语
媒体转写文本
https://ling.cuc.edu.cn/RawPub/
清华TH语料库
汉语
综合
http://www.openslr.org/18
人类卫生健康共同体语料库
汉语
综合
https://icc.pku.edu.cn/corpus/login/
The Lancaster Corpus of Mandarin Chinese (LCMC)
兰开斯特普通话语料库
汉语
综合
https://www.lancaster.ac.uk/fass/projects/corpus/LCMC/
The Lancaster Los Angeles Spoken Chinese Corpus (LLSCC)
兰开斯特口语语料库
汉语
综合
https://www.lancaster.ac.uk/fass/projects corpus/LLSCC/index.htm
The PDC2000 Corpus
汉语
综合
https://www.lancaster.ac.uk/fass/projects corpus/pdc2000/default.htm
The PH Corpus
汉语
综合
https://www.lancaster.ac.uk/fass/projects corpus/phcorpus/phcorpus.htm
The UCLA Written Chinese Corpus
汉语
综合
https://www.lancaster.ac.uk/fass/projects corpus/UCLA/
厦门大学现代汉语语料库
汉语
综合
http://nclds.xmu.edu.cn/ylk
香港教育学院汉语共时语料库(LIVAC)
汉语
综合
http://www.livac.org/search.php?lang-sc
语料库在线
汉语
古籍语料库
http://corpus.zhonghuayuwen.org/CnCindex.aspx
中研院现代汉语平衡语料库
汉语
综合
http://lingcorpus.iis.sinica.edu.tw/modern/
二、英语语料库

American National Corpus (ANC) 
美国国家语料库
英语
综合
https://anc.org/
Australian National Corpus (AusNC)
澳大利亚国家语料库
英语
综合
https://ausnc.org.au/
British Academic Spoken English Corpus(BASE)
英国学术口语语料库
英语
综合
https://www.reading.ac.uk/acadepts/ll/base_corpus/
Business Letter Corpus
商务信函语料库
英语
信函
https://www.abbreviations.com/term/88345
British Academic Written English Corpus(BAWE)
英国学术书面英语
英语
综合
https://warwick.ac.uk/fac/soc/al/research/collections/bawe/
British National Corpus (BNC)英国国家语料库
英语
综合
https://www.english-corpora.org/bnc/
Corpus Concordance English
英语
综合
https://lextutor.ca/conc/eng
Corpus of Contemporary American English(COCA)
美国当代英语语料库
英语
综合
https://www.english-corpora.org/coca
Corpus of Historical American English(COHA)
美国历史英语语料库
英语
历史
https://www.english-corpora.org/coha
Corpus of Global Web-Based English(GloWbE)
世界网络英语语料库
英语
网络
https://www.english-corpora.org/glowbe
Hong Kong Corpus of Spoken English(HKCSE)
英语
综合
http://rcpce.engl.polyu.edu.hk/HKCSE
International Corpus of Learner English
国际学习者英语语料库第二版
英语
综合
https://uclouvain.be/en/research-institutes/ilc/cecl/icle.html
International Corpus Network of Asian Learners of English,ICNAL
亚洲英语学习者国际语料库网络
英语
综合
http://language.sakura.ne.jp/icnale/download.html
Louvain Corpus of Native English Essays(LOCNESS)
香港英语口语语料库
英语
论文
https://uclouvain.be/en/research-institutes/ilc/cecl/locness.html
Louvain International Database of SpokenEnglish Interlanguage (LINDSEI)
Louvain
国际英语口语中介语数据库
英语
综合
https://uclouvain.be/en/research-institutes/ilc/cecl/lindsei.html
Michigan Corpus of Academic Spoken English (MICASE)
密歇根高级学生论文语料库
英语
综合
https://varieng.helsinki.fi/CoRD/corpora/MICASE/
News on the Web (NOW Corpus)
英语
网络
https://www.english-corpora.org/now/
Santa Barbara Corpus of Spoken American English (SBCSAE)
圣巴巴拉美式英语口语语料库
英语
综合
https://www.linguistics.ucsb.edu/research/santa-barbara-corpus
The Bergen Corpus of London Teenage Language(COLT)
英语
青少年口语
http://korpus.uib.no/icame/colt/
The Intelligent Web-based Corpus (iWeb)
英语
网络
https://www.english-corpora.org/iweb/
The Coronavirus Corpus
英语
新冠疫情
https://www.english-corpora.org/corona
The Wikipedia Corpus
维基百科语料库
英语
综合
https://www.english-corpora.org/wiki/
WebCorp
英语
网络
http://www.webcorp.org.uk/live/

三、平行和多语语料库


BiCovid
新冠病毒开放数据源
汉语、英语
新冠疫情
http://bicovid.org/
北京语言大学汉语语料库(BCC)
汉语、英语、法语
综合
http://bcc.blcu.edu.cn/
Chinese LinguisticData Consortium
中文语言资源联盟
汉语、维吾尔语
综合
http://www.chineseldc.org/
国家语委现代汉语通用平衡语料库
汉语、英语
综合
http://www.aihanyu.org/cncorpus/index.aspx
哈工大信息检索研究室对外共享语料库
汉语、英语
综合
http://ir.hit.edu.cn/demo/ltp/Sharing Plan.htm
Online BLC KWIC Concordancer
汉语、英语
综合
http://www.someya-net.com/concordancer/
绍兴文理学院中国汉英平行语料大世界
汉语、英语
文学、法律
http://corpus.usx.edu.cn/
The Babel English-ChineseParallel Corpus
汉语、英语
综合
https://www.lancaster.ac.uk/fass/projects/corpus/babel/babel.htm
The PKU 863 Chinese-English Parallel Corpus
北大863中文英语平行语料库
汉语、英语
综合
https://www.lancaster.ac.uk/fass/projects/corpus/863parallel/default.htm
The ZIU Corpus of Translational Chinese (ZCTC)浙江大学翻译汉语语料库
汉语、英语
综合
https://www.lancaster.ac.uk/fass/projects/corpus/ZCTC/
医学英汉双语平行语料库
汉语、英语
医学
www.e-charm.com.cn/ylk.asp
中国法律法规汉英平行语料库
汉语、英语
法律
http://corpus.leeds.ac.uk/query-zh.html

语料库虽然信息量还赶不上搜索引擎,但其准确性和科学性远胜于搜索引擎,巧妙应用语料库可以解决翻译中的各种疑难问题。有关语料库在翻译实践中的应用技巧,张成智老师的《翻译与搜索教程》有详细介绍,淘宝京东当当各大电商平台均有售哦。



声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:chongchong@lingotek.cn,我们将及时调整处理。谢谢支持!


-END-
本文转载自:翻译技术教育与研究转载编辑:Pickey


关注我们,获取更多资讯!

往期回顾

行业动向1. 行业科普 | 国际翻译动态一周热点新闻编译
2. 行业动态 | 新时代背景下的翻译研究高层论坛暨《北京翻译》发布仪式成功举办
3. 行业资讯 | 2022高校新增专业1817个!其中,翻译12个,英语6个4. 行业动态 | 云南省翻译工作者协会2023年翻译技术沙龙成功举办
5. 行业动态 | 2023医学翻译西部论坛成功举办
行业洞见
  1. 行业观察 | “文化的摆渡人”:资深图书翻译践行者梁本彬老师专访(上)
  2. 行业观察 | “文化的摆渡人”:资深图书翻译践行者梁本彬老师专访(下)
  3. 行业观察 | ChatGPT给学者们带来了怎样的担忧?
  4. 行业观察 | 大型语言模型在雅信诚医学翻译中的实践,机遇与挑战


行业技术
  1. 技术应用 | GPT X 翻译记忆:基于双语翻译记忆进行智能问答
  2. 技术应用 | ChatGPT与Xmind梦幻联动生成导图
  3. 技术应用|Chat GPT赋能的对话式文献阅读工具:Hammer PDF
  4. ChatGPT ⏐ 投喂语料,提升译文质量
  5. ChatGPT | 如何用ChatGPT翻译文史图书

精品课程
  1. 二号通知 | 2023年北京翻译技术沙龙(首场活动)
  2. 倒计时1天|ChatGPT时代翻译技术五一北京研修班(4.30-5.2)
  3. 如何借助翻译技术实现协同翻译与资产复用?图书翻译与项目申报工作坊为你分忧!
  4. 云端实习营,带你在实践中学习翻译技术~
  5. 一天一块钱,承包全年全方位语言服务知识学习!

资源干货
  1. 资源宝库 | CATTI备考网站(必须码住!)
  2. 资源宝库|职业译员杀手锏——术语库全家桶
  3. 资源宝库 | 14个英文写作辅助工具
  4. 资源宝库 | “库”中自有黄金屋——精选57款数据库带你遍览全球百科
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业1. 招聘快报 | 博硕星睿·翻译技术教育研究院招聘实习生
2. 招聘快报 | 中国外文局招募课程运营实习生3. 招聘快报|中国外文局教育培训中心招聘教研助理实习生4. 不知道去哪找优质实习?硬核语言专业线上实习机会来了!5. 实习资讯 | 疫情阻隔优质实习?硬核语言专业线上实习机会来了!
继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存