走近COCA,在线语料库的翘楚 | 语言学午餐
美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,也是第一个大型的语料平衡的美国英语语料库。语料库由包含4.5亿词的文本构成,文本分为口语、小说、流行杂志、报纸以及学术文章五种不同的文体,各占库容的20%。
它不仅是一个简单的在线词典,而且从建立之初就体现了其作为检索语料库的特征,能够协助研究者追溯语言发展中的变迁(Davies,2010)。该语料库由美国杨百翰大学的Mark Davies教授主持创立并在2008年正式上线。其除了强大的文本检索功能外,由于将语料按照年份进行了细致的划分,使得研究者追溯语言发展中的变迁成为可能。
下面小编就来简要介绍一下COCA的主要功能和使用注意事项
封面过后,终于进入主界面了,看起来不是很繁琐,但实际上功能多多
这里就是最主要的操作处,也就是输入查询词的地方,先来个最简单的单词查询看看,直接输入cause(注:此处直接输入仅显示cause本身的搜索结果,不包括causes,caused等等,如需检索单词的全部形式,检索时需加[],下同),下图则是检索的结果,右上是检索概要,右下是索引行信息。
COCA的一大特点是将文本分成了不同的语体,我们可以比较同一个词在不同语体中的出现状况,还是以上文的搜索词cause为例,我们试图对比其在人文类学术文章和科技类学术文章的分布差异,下图是其具体的检索结果,小编先解释一下,几个数据分别的含义,tokens1指检索词在第一部分语体中的出现频次(即图例中的人文类学术文章),tokens2指检索词在第二部分语体中的出现频次(即图例中的科技类学术文章),PM1和PM2则分别指两个语体中的百万词词频,RATIO则是二者的比值;下图中检索词在两种语体中差异还是相对明显的,科技类学术文章中的使用明显多于人文类学术文章。
就这点内容似乎还不够精彩,COCA还支持检索词的搭配关系搜索,看到图中的POST LIST选项了嘛,从中可以选出想要的搭配词类,比如说小编搜索与reflect后面出现的名词,并按相关度排序(见下图),便得到了reflect后面关联度最高的名词成分。
COCA同样可以让检索者方便的进行文本细读,比如说想知道检索词有哪些左邻词和右邻词,选择KWIC检索,便可以得到下图的索引行检索结果,索引行信息中完整的包含了语体、出处和年份信息,还对节点词附近的邻词按照不同的词类用不同颜色进行高亮表示。
除了列表显示(list),COCA还支持图标显示检索词在各语体中的分布情况,下图便是cause在语料库各语体中的分布情况。
更令人感到欣喜的是,COCA还支持不同语料库检索词语体分布信息的比较,如下图所示,可以与BNC、COHA、TIME等众多语料库的词语语体分布或历时变化特征比较(视对比语料库而定)
不仅如此,COCA还可以进行同义词辨析,比如说smart和clever,中国学生可能会分不清二者的区别,而借助语料库,可以轻松发现两者的常用搭配完全不同。
以上只是对COCA的功能的大致介绍,点击阅读原文可以直接进入美国当代英语语料库,除此之外,语料库还具有其他强大的功能,比如说检索特定词类(caugh.[v*],检索caugh做动词的使用情况),比如说检索同义词([=cell],查找cell的同义词),以上介绍的也只是语料库众多功能中的几项而已,还需要大家继续探索和应用。
参考文献
汪兴富,Mark Davies,刘国辉. 美国当代英语语料库(COCA)——英语教学与研究的良好平台[J]. 外语电化教学,2008,05:27-33.
本文为语言学午餐原创文章,转载请注明出处。
责任编辑:田作宇
审核校订:金卫锋
© 语言学午餐Ling-Lunch丨Beijing
#admin@linglunch.com#