查看原文
其他

技术应用 | 巧用COCA,语料库武力值UP!

田贝西 语言服务行业
2024-09-09



1.介绍

美国当代英语语料库(Corpus of Contemporary American English)是由美国杨伯翰大学 (Brigham Young University) 的Mark Davie教授开发,美国最新当代英语单语语料库,是当今世界上最大的英语平行语料库。官网:https://www.english-corpora.org/coca


2.页面详解


2.1 主页面

List:列表视图Chart:用于比较检索项在五种领域和不同时段内的频次Collocates:用于研究词语搭配Compare:用于比较两个词的搭配现象,研究在其意义和用法上有何不同KWIC:Keyword In Context,通过对检索项相邻的左边或右边若干个词排序,研究检索词的用法2.2 高级功能Sections:条件检索,能够指定要检索的时间段等Texts/Virtual:基于COCA内的语料创建自己的语料库Sort/Limit:设置结果排序规则,可以按频率、相关性和英文字母三种方式排序。设置最低频率,最小互信息值Options:其他设置


3.Search功能


在“Search”页面下选择“List”一栏,并在搜索框中搜索,以“expect”一词为例:



输入后点击“Find matching strings”就会跳转到进入“Frequency”页面,如下图所示⬇



在该页面点击“expect”词条就会跳转到“Context”页面查看该词条出现的语境;随后在该页面点击任意缩写,即可查看详细的语境。如下图所示⬇



4.Chart功能


在“Search”页面下选择“Chart”一栏进行检索,就可以通过柱状图直观统计检索的词条在不同文体和不同年份中的词频情况,这样有利于更恰当的使用该检索词。如下图所示⬇


注:ACAD:学术类期刊;BLOG:博客;FIC:小说;MAG:杂志;NEWS:新闻;SPOK:口语;WEB:网站


5.Collocates功能


Collocates功能下有两个搜索栏:
  • Word/phrase:在这里键入短语中的核心词
  • Collocates:键入搭配的介词、冠词等内容,如不知道核心词后应搭配哪个介词或冠词,或者想限定词性进行检索,可以在两个搜索栏后面的[POS](Part of Speech,词性)中键入想限定的词性即可
以“expect”一词为例,如要检索expect后两个词内会使用的介词,可进行以下操作:



1.在“Word/phrase”搜索栏键入“expect”;2.在“Collocates”搜索栏键入“_i*”表示查询与介词的搭配,如要查询名词则把其中的“i”替换为“n”即可,其他词性同理;注:个别词性规则:名词:[n*];动词:[v*];形容词:[j*];副词:[r*];代词:[p*];连词:[c*]。3.在搜索栏下面的数字部分进行选择;



4.点击“Find collocates”进行检索,在跳转的“Frequency”页面就会显示与expect搭配的介词的使用情况,见下图⬇



有些词不只有一个词性,比如look,如要检索它作为名词时的搭配情况,则在“Word/phrase”搜索栏中先键入“look”,再在该词之后加一个英文句号、方括号,方括号里输入词性,即“look.[n*]”。


6.Compare功能


当对比两个近义词或同义词,但不知道它们各自如何搭配时,可以使用Compare功能,比如对比work和job分别与哪些动词搭配使用。

在两个搜索栏分别键入“work”和“job”,在“collocates”部分键入动词词性,同时调整数字部分,见下图⬇;



点击“Compare words”后,在跳转的“Frequency”页面就会显示结果

其中“W1”表示与“work”搭配的某一动词的词频;“W2”表示与“job”搭配的某一动词的词频;右侧表格正好相反



在跳转的“WORD”页面看到结果如下图⬇



7.Browse功能


(1)在“Browse”页面下可以查询词的使用情况、排名、词性等信息。同样以“look”为例:

在“Search”页面下点击“Browse”,即可进入该页面,见下图⬇



搜索结果如下⬇:



(2)在“Browse”页面下可以查询以某个前缀或后缀开头或结尾的单词,以“-ism”为例,见下图⬇:



注:切勿忘记输入“*”,“*”在此代表所有以“-ism”结尾的词

搜索结果如下⬇:



(3)在“Browse”页面下可以查询6万词范围内的词汇的使用排名,比如在“Range”搜索栏中输入“1-500”,即可查询词库中常用的前500个都是哪些词汇,见下图⬇:



搜索结果如下⬇:



8.KWIC功能


KWIC(Keyword in Context)也叫语境共现(Concordance),以检索词为中心,可以看到检索词所处的上下文语境以及一些词性。以“expect”为例:



搜索结果如下⬇:



注:不同颜色代表不同词性。蓝色:名词;紫色:动词;绿色:形容词;棕色:副词;灰色:代词;黄色:介词。


9.通配符使用


(1)比如想要搜索organization前搭配的动词有哪些,就可以在“SEARCH”页面的搜索栏中输入“[*v] organization”。(*可代替任意数量字母)



在跳转的页面就可以看到与“organization”搭配的动词的使用频率,搜索结果如下图⬇:



同理,如要查询搭配的其它词性的词,词性规则与“Collocates功能”中用到的相同。

(2)搜索近义词:在搜索栏中输入“[=develop]”,表示和develop意思详尽的所有形容词:



如要查询与“a strategy”搭配且与“develop a strategy”意义相近的类似词组,也是同理,在搜索栏输入“[=develop] a strategy”即可得到结果。见下图⬇:



(3)如想查询某种词性且此种带有部分带有某些字母的形式,比如要查询以un-开头、-ed结尾的所有形容词的所有形式,输入“un*ed.[*j]”即可查询(.[*j]表示词性是形容词)。见下图⬇



(4)若想查询动词+任何词+ground的所有词组,在搜索栏输入“[vv*] * [ground]”即可得到结果(方括号中间有空格)。

前者用来查询词汇,后者用来查询特定词性的搭配



(5)如要搜索以s开头、第三个字母是n的任意单词,则可以输入“s?n*”进行查询。(?可代替一个字母)



本期分享到此结束,希望大家可以通过此次分享有所收获~











-END-

本文转载自:翻译技术教育与研究公众号
转载编辑:Amelia


关注我们,获取更多资讯!

往期回顾

行业动态1. 行业观察 | 王树槐:GPT与诗歌翻译批评:GPT与文学翻译之一
2. 行业观察 | 王华树:译者数字素养研究亟需加强,打造翻译人才新优势
3. 论坛预告 | 2023年京津冀翻译协会协同发展学术论坛4. 行业动态 | 第二届新时代“人才杯”多语种翻译大赛暨首届“讲好地理标志故事”外语短视频大赛获奖名单公布
行业洞见
  1. 精彩回顾 | ChatGPT提示工程实践工作坊结课啦!
  2. 精彩回顾 | 王琳:ChatGPT私有化工具部署及应用
  3. 精彩回顾 | 2023智慧教育时代人工智能语言技术教育工作坊圆满落幕!
  4. 精彩回顾 | “AIGC时代的语料库建设与应用专题课程:基础与进阶” 结课啦!


行业技术
  1. 技术应用|译文质检工具之Grammarly
  2. 技术应用 | B站视频下载工具,简洁方便才是必杀技
  3. 技术应用 | 人人词典,美剧伴侣
  4. 行业技术 | ChatGPT大模型微调上线:“机翻”还是一种侮辱吗?
  5. 行业科普 | 国际语言服务咨询公司Unbabel简介(上)

精品课程
  1. CATTI备考需提上日程,不知道怎么学?看这里就对啦~
  2. 今晚7点|ChatGPT如何处理各类语料数据?大语言模型上大分!
  3. 精品课程 | GPT+:翻译、技术与语言学习工作坊
  4. 精品小班 |  探索变成辅助语料数据处理及分析无门?刘世界博士为你解秘!
  5. 精品课程|CATTI打卡训练营,全勤打卡可返还全额学费,你敢来挑战吗?

资源干货
  1. 资源干货 | 语言资源服务最常用的50个核心术语
  2. 资源干货 | 最新版Z-library官方客户端和最新地址
  3. 双语干货 中华人民共和国对外关系法
  4. 双语干货 | 谢锋大使向中美媒体发表讲话
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业1. 招聘快报 | 春秋航空招聘英文翻译
2. 招聘快报 | 中国国际进口博览会招募实习岗(需英语)3. 招聘快报 | 小米科技:翻译专员4. 招聘快报 | CNBC财经电视台上海分公司招聘发行部助理实习生5. CATTI备考在即,备考实习两不误,硬核语言专业线上实习机会来了!


继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存