查看原文
其他

译技术 | 媒体语言语料库(MLC):传媒语言的聚宝盆

TransLearn 翻译学习共同体
2024-09-11
1. 工具简介
中国传媒大学有声媒体文本语料库是一个开放、免费使用的语料库,由中国传媒大学国家语言资源监测与研究有声媒体中心开发。该语料库2003年开始建设,2005年上线,其后不断扩大语料规模,一直为研究者提供免费服务。本语料库包括2008至2013六年的34,039个广播、电视节目的转写文本,总字符数为241,316,530个,总汉字数为200,071,896字次。所有文本都进行了分词和词性标注,共计135,767,884词次。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。
官网:https://ling.cuc.edu.cn/RawPub/

2. 图文教程
2.1 常规检索
首先打开网址,首页指向的是常规检索页。语料形式包括生语料与熟语料。检索结果的屏幕显示方式包括按字数、小句、句子和段落四种。检索结果关键字居中,高亮显示,两边的字数默认各是20,用户可以根据自己需要更改,也可以选择按小句或句子、段落的形式显示,检索结果保存的格式与此相同。“检索结果栏”将给出检索范围、语料规模以及检索结果。

本语料库所有语料都进行了元数据标注,既可以利用全部2亿字语料进行检索,也可以根据研究需要选定检索范围。用户可以在首页右上角导航中点击“选择检索范围”,在下拉菜单中选定相应的属性项。本语料库可进行特定时间段(如2008年度、2010至2013年度)、特定媒体(广播、电视)、特定单位(如中央电视台、北京电视台、中央人民广播电台)、特定语言形式(独白、对话)、特定语体(独白形式可分为播报、谈话、解说、朗读;对话形式可分为二人谈、三人谈、多人谈)、特定领域(如新闻、经济、军事)、特定栏目(如《新闻联播》《鲁豫有约》《新闻与报纸摘要》)、特定主持人(如白岩松、陈鲁豫、崔永元)等范围的关键字检索。各属性之间有级联关系,既可以进行单独属性锁定查询,也可以进行属性间组合查询。如果所有的属性都没有选择,那就意味着将在全部2亿字次的语料中进行检索查询。

2.1.1 生语料检索
即在生语料中进行关键词或字符串的简单检索。检索结果分页显示,每页显示40条。例如在检索输入框中输入“语言”,选择检索范围为“全部语料”,检索结果如下图所示:

点击每行记录后面的“查阅”,可浏览该记录所在的文本以及其单位、栏目、题目和时间。
还可以对检索结果进行以关键字为基准的左或右排序,也可以进行二次检索。二次检索和排序按钮在检索结果的下方。在二次检索中,输入“选举”,检索结果如下:
同样可以点击“查阅”来查看具体的语料。
检索结果可以用文本保存下来,保存按钮在检索结果的下方:
选择“保存出处”和“加序号”,会生成一个TXT文本保存在本地,便于进一步研究。

2.1.2 熟语料检索
熟语料是经过分词和词性标注后的语料,以词为单位进行检索,输入检索项时,词与词之间要加空格,带词性检索时,词性前面要加“/”。比如要检索做名词的“关系”,需要输入“关系/n”。词与词性在输入时可以二选一,也可以都输入。比如输入“关系 /n”表示检索所有词性的“关系”后加名词的词串,输入“关系/v /n”,则表示检索动词“关系”后面加名词词串。以输入“关系/v /n”为例,选择检索范围为“中央”,检索结果如下图所示,同样可以进行查阅和导出。

2.2 高级检索
高级检索也包含生语料和熟语料两个模块。
2.2.1 生语料检索
生语料检索中包括成对字串检索、重叠检索和正则表达式检索,分别举例说明如下:
1)成对字串检索
可以检索“不但……而且”“虽然……但是”这样成对出现的词语。中间间隔的字数可以自由选择。以“虽然……但是”为例,检索结果如下:
同样可以查其整个语料。
2)重叠形式检索
可以检索的重叠形式包括AA型(看看、说说)、ABB型(一个个、一点点)、ABAB型(说着说着、特别特别)、AABB型(高高兴兴、快快乐乐)、带特定字N的ANA型(“A了A”“A不A”)、N为所有字的ANA型等。
AA型检索结果如下:
ABB型中的A需要指定,比如指定A为“一”,则可以检索“一个个、一件件、一条条”等。检索结果如下:
AABB型检索结果如下:
ABAB型检索结果如下:
在ANA型中可以指定N,也可以搜索所有ANA型。指定N为“一”,搜索结果如下:
以上搜索结果都可以进行查阅及导出。
3)正则表达式搜索
正则表达式具有较强的检索功能,可以进行复杂的匹配,可以参考本网站“帮助”菜单中的常用正则表达式。
通过正则表达式,我们可以实现较为复杂的检索,以获得我们所需要的结果,再如下面的正则表达式可以较为精确地检索“儿化词”:
(?<=[^幼少婴孤生养妻])儿(?=[^童媳女子])
“?<=”和“?=”表示检索条件,一个表示检索内容前的条件,一个表示检索内容后的条件,比如“?<=我”表示检索内容前面必须出现“我”,“(?=我)”则表示检索内容后面必须出现“我”;“[^]”中括号内的“^”表示“非”,比如[^的地]表示不是“的”和“地”的其他字符。
上面的正则表达式解释为,检索“儿”字,但是“儿”字前面不能出现字符“幼、少、婴、孤、生、养、妻”,后面也不能出现字符“童、媳、女、子”。这样就能获得比较好的“儿化词”检索结果。

2.2.2 熟语料检索
熟语料检索中包括组合检索、重叠检索和正则表达式检索,分别举例说明如下:
1)组合检索
熟语料检索中的组合检索可以比较精确地检索离合词。以检索“洗 澡”为例,在熟语料中的检索结果如下:

2)重叠检索
熟语料的重叠检索主要是检索分词标注后的重叠形式,包括vv、vyv等。
以检索vyv为例,检索结果如下:
3)正则表达式检索
熟语料正则表达式检索,可以比生语料获得更加理想的检索结果,比如正则表达式“一/d[^,。?]+就/d”,表示在不越过“,。?”的情况下检索“一”和“就”作为副词时的搭配情况,通过该正则表达式,可以较为精确的检索“一……就”这种表达式,而在生语料中因为没有对词性进行标记,也就不能检索“一”和“就”作为副词时的情形,所获得的语料的质量很差。以在句子范围内检索为例,在熟语料中的检索结果如下:
因此,建议对检索结果要求比较高的朋友使用熟语料及正则表达式进行检索。

3. 学习心得

通过这次学习,我知道了媒体语言语料库(MLC)这一工具及使用方法。该语料库搜索功能齐全,包含的语料丰富,是一个实用的工具,但搜索用时较长,有时会出现卡顿现象。若要进行精细查找,用户首先需要学习并熟练使用正则表达式,这也是学习此工具中的一大难点。在翻译实践中,正确使用工具会起到事半功倍的效果。今后如果有媒体类文本的相关翻译任务,译者可以使用该语料库查找中文特定词语在上下文语境下的意义,以便翻译更准确。

4. 配套视频

注:学习作品,仅供参考,欢迎指正。

作者:孙乐

编校:布兰妮

继续滑动看下一个
翻译学习共同体
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存