查看原文
其他

翻译技术|COCA单语语料库的介绍与使用

李伟泽 翻译圈
2024-09-09



该书以解决翻译实践问题为导向,以多元化搜索技术为脉络,基于数百个典型案例和应用场景进行详细讲解,内容涵盖桌面搜索、文档搜索、词典搜索、术语库搜索、语料库检索、网络搜索以及学术搜索等多个方面,旨在系统提升广大翻译从业者的搜索素养。全书紧跟国家人工智能发展战略,基于数据驱动和数据赋能的理念,致力于将最新搜索技术与翻译工作需求深度融合,是国内首部聚焦译者“搜商”的著作。该书既适用于外语、翻译专业的师生,也适用于广大语言服务从业者、翻译爱好者及相关研究人员。

本文将分享第五章第一节 单语语料库中,美国当代英语语料库COCA功能以及其如何应用。希望能够对大家有所帮助。它们分别是:


(一)系统介绍

(二)案例演示

1)单词/词组在COCA中的使用频率

2)模糊检索

3)搭配检索

4)近义词检索

5)近义词搭配比较

6)词形与发音检索

目前该书可在各大购物平台购买,也可在微信阅读上免费阅读,欢迎大家一起阅读学习!


01

美国当代英语语料库 COCA

(一)系统介绍

美国当代英语语料库(Corpus of Contemporary American English),简称COCA,是目前最大的免费英语语料库。其语料均衡分布在口语、小说、杂志、报纸以及学术文章文体中,被认为最合适用来观察美国英语当前发展的英语语料库,也是广大英语爱好者的学习宝库。图6-1为基础界面,表6-1为功能介绍。COCA是english-corpora.org网站的一个子库,该网站下还有电影等十几个语料库,学会了COCA语料库的检索,也有利于其他语料库的检索。


图6-1 COCA的基础界面

表6-1 COCA基础界面的功能介绍

(二)案例演示




1.如何检索单词或词组在COCA中的使用频率?


(1)点击“List”,在检索框输入关键词,如输入“confess”,点击“Find matching strings”进行检索,进入“FREQUENCY”界面中,“FREQ”栏显示该词在COCA语料中出现的次数。如图6-2所示,“confess”在COCA中使用频率为7580次。


图6-2 在COCA中检索“confess”的词频


(2)直接点击“CONFESS”,即可进入“CONTEXT”界面查看该词出现的上下文,如图6-3所示。

 

图6-3 在COCA的检索结果中查看“confess”的上下文


(3)再点击前方“BLOG”(文体“网志”的缩写,更多文体缩写翻译可参照表6-2)可进入“CONTEXT+”界面查看完整文本、日期和文本来源,如图6-4所示


图6-4 在COCA中检索“confess”的语料来源并查阅完整文本

表6-2 语料来源各类文体缩写


(4)如果我们想要检索该词的所有形式,如现在分词、过去分词等,那么在检索的时候还需要加入“[]”,或者所有字母都大写,如检索“confess”的所有形式,在List的检索框中输入“[confess]”,或“CONFESS”,检索结果如图6-5所示。


图6-5 在COCA中检索“[confess]”的结果


(5)如果想要比较多个词语的使用频率,在检索词之间插入“|”即可,比如比较“confess”“admit”和“declare”,在“List”的检索框中输入“confess|admit|declare”即可,检索结果如图6-6所示。


图6-6 在COCA中检索“confess|admit|declare”的结果


(6)如果想按照文体和年份查看使用频率,点击初始界面的“Chart”,在检索框中输入关键词,如输入“confess”,点击“See frequency by section”进行检索,检索结果如图6-7所示


图6-7 在COCA的“Chart”中检索“confess”的结果


视频演示




2.如何进行模糊检索?



(1)在COCA中,“? ”可以用来表示一个字母,比如忘记“ad? pt“第三个字母的时候,可以在检索框中输入“ad? pt”进行检索,检索结果如图6-8所示,很快就可以锁定我们需要找的词汇。


图6-8 在COCA中检索“ad? pt”的结果


(2)在COCA中,“*”可以填充一个或多个字母。比如,想检索以un-开头,以-ed结尾的所有单词,在检索框中输入“un*ed”即可,检索结果如图6-9所示。


图6-9 在COCA中检索“un*ed”的结果


(3)“*”也可以表示一个完整的单词。比如想要检索“tread”后面经常接什么词,在检索框输入“tread *”即可,检索结果如图6-10所示。需要注意的是,此处“*”与左右单词之间需要空一格。


图6-10 在COCA中检索“tread *”的结果




3.如何使用“List”进行搭配检索?



(1)“List”界面支持词性检索,可以输入词性代码选择词性,如检索“money”前面一般接什么动词,检索框输入“_v money”(或[v*])即可,检索示例如图6-11所示。


图6-11 在COCA的“List”中进行搭配检索的输入示例一


(2)或者先下拉POS选框选择“verb.ALL”,系统会自动填充“VERB”,再在“VERB”后输入“money”,检索示例如图6-12所示。


图6-12 在COCA的“List”中进行搭配检索的输入示例二


(3)检索结果如图6-13所示。


图6-13 在COCA中检索“money”词前所搭配动词的结果


视频演示

(4)常用词性代码请参照表6-3:


表6-3 COCA的词性代码与POS选框中英对照表

(续表)



4.如何使用“Collocates”进行搭配检索?



(1)选择“Collocates”检索模式,在第一栏“Word/phrase”输入检索词,以检索“postpone”的搭配为例,输入“postpone”;


(2)如果不限定搭配词的词性,第二栏“Collocates”可以不填,系统会默认检索所有名词、动词、形容词和副词。也可以参照表6-3的词性代码1或2对所搭配词性进行限定,POS对此处不适用;


(3)第三栏可以选择关键词搭配的跨距。如果我们想要检索“postpone”右边相邻的搭配,可以左边选择0,右边选择1,表示检索范围为关键词右边,且跨距为一个词,示例如图6-14所示。


图6-14 在COCA的“Collocates”中检索“postpone”搭配的输入示例


(4)点击“Find collocates”,检索结果如图6-15所示,单词底色随排序结果由深至浅。


图6-15 在COCA中检索“postpone”的搭配结果


(5)点击“Advanced options”可以对检索结果进行排序,可根据词频或MI值进行排序,并设置最小词频或者MI值,图6-16为按照词频排序且最小MI值为3的排序结果。


图6-16 在COCA中检索“postpone”的搭配并排序的结果


视频演示


5.如何检索近义词?



(1)选择“List”,以检索“reveal”的近义词为例,检索框输入[=reveal],输入示例如图6-17所示。


图6-17 在COCA中检索“reveal”近义词的输入示例


(2)检索结果如图6-18所示,“reveal”近义词按照频率从高到低排列有“tell”和“show”等词;


(3)点击单词右边的“[s]”,可进入该词的近义词检索。


图6-18 在COCA中检索“reveal”近义词的结果




6.如何比较近义词的搭配?



(1)选中“Compare”,以比较“repair”和“restore”所接名词为例,在“word 1”和“word 2”中分别输入“repair”和“restore”;


(2)“Collocates”栏输入“[n*]”(或“_n”), POS在此处也不适用;


(3)数字栏选择右边的1,即我们选择跨距为1,检索其二元词丛,输入示例如图6-19所示。


图6-19 在COCA中对比“repair”与“restore”所搭配名词的输入示例


(4)点击“Compare words”,结果如图6-20所示,左右两栏深绿色部分的单词分别为其常用搭配名词。


图6-20 在COCA中对比“repair”与“restore”所搭配名词的检索结果




7.如何根据词形与发音检索单词?



(1)选中“Browse”栏,进入“Browse”检索界面;


(2)“Word form”为词形,比如检索前缀为“ex-”的单词,此栏需输入“ex*”;


(3)“Part of speech”为选择词性,可部分勾选,也可全部勾选,比如只想检索名词,只需勾选“NOUN”;


(4)“Range”为使用频率排名范围,如需检索排名为1-20000的单词,则该栏需分别输入“1”和“20000”;


(5)“Pronunciation”栏可以输入押韵的词汇,如输入“criticism”,将匹配与该词押韵的词汇。


(6)“Syllables/stress”栏为匹配音节与重音,如检索四个音节且重音在第二位的单词,先点第四个圈,表示共四个音节,再点第二个圈,这个圈的颜色会由绿转红,表示重音在第二音节。


(7)勾选“Show all words”,检索结果如图6-21所示,仅“extremism”一词符合检索条件。


图6-21 在COCA的“Browse”中检索单词


视频演示


以上就是本文的全部内容,欢迎大家阅读原书,共同学习!

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。


- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:李伟泽

推文编辑:李伟泽

指导老师:朱华

核:吴志雄、刘一葶

项目统筹:吴志雄

资讯推荐


翻译教育的机遇与挑战-Cut9




▶精品课程

精品课程 | 如何轻松上手语料库建设及数据处理与分析?十一研修班带你一网打尽!

精品课程|职业译员的搜索进阶之道

精品课程|CATTI打卡训练营

精品课程|ChatGPT与语料数据处理工作坊

精品课程|刘世界:6节语料库专题课,从入门到精通

精品课程|六节课让你从搜索小白进阶搜索达人
精品课程|CATTI考前实战冲刺班,考前三周实战提升,扫除备考盲点

▶资源宝库

翻译技术|以Sketch Engine为船遨游语料海洋(二)

翻译技术|The Free Dictionary-多语在线词典搜索引擎

翻译技术|ChatGPT+Excel应用结合探索:(一)酷表ChatExcel

翻译技术|机器翻译之规则-based方法
翻译技术|云译客之语料对齐模块

翻译技术|如何使用金声语料对齐助手

翻译技术|翻译搜索指南中的四个word搜索实例

资源宝库|小鹤音形输入法——打字,你还能更快!

资源宝库|Win11正式成为“AI操作系统”了,Copilot助手加持,画图截图一键换背景,马斯克赶来围观

资源宝库|memoQ 9.6小牛翻译插件体验指南

▶翻译百科

翻译百科|《中国大百科全书》中的“旅游翻译”

翻译百科|《中国大百科全书》中的“生态翻译学”

翻译百科|《中国大百科全书》中的“翻译主体间性”

翻译百科|《中国大百科全书》中的“翻译学”

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“翻译层次”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

翻译百科|《中国大百科全书》中的“翻译工具”

▶译界动态

译界动态|揭开手写文本识别“最先进”的秘密

译界动态|第二十次全国民族语文翻译学术研讨会成功召开

译界动态|最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2
译界动态|2023国际译联(FIT)北美年会译界动态|第二十届全国科技翻译研讨会(2号通知)

译界动态|美国文学翻译协会 ( ALTA )简介

译届动态|公益沙龙之ChatGPT时代译者的搜商体系构建之道

  关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存