其他
期刊好文 | 语料库语言学答客问(桂诗春)(上篇)
至于和语料库有关的软件,最早接触到的是加拿大多伦多大学Ian Lancashire等人开发的TACT2 1,那是在DOS3 0基础上开发的,具有很多英语文本(主要为文学文本),当年可从该大学网站下载使用。TACT已经具有语料库的各种功能(检索、词频表等),不过它的界面并不十分友好。另一个是WordCruncher,主要是一个检索工具,其好处是可以检索汉语,但不能对汉语进行分词。Mike Scott的WordSmith Tools的各个版本都在Windows的环境下运行,把各种功能都组合在一起,且提供不少统计数据,应是一个突破。还应提出的是ICAME在1999年发行了一张光盘,叫做ICAME Collection of English Language Corpora (2nd Edition),其中包括了6个软件(除前述3个外,还有Lexa、Lingfont、Qwick)和20个语料库,规模达1千7百万词次。这张光盘对普及和推进语料库研究,起了很大作用。
其实“语料库语言学”的说法,是在20 世纪八九十年代兴起的,一般把布朗语料库(1967)的发表作为一条分界线,分为前计算机和后计算机(机读)两大阶段:前计算机阶段通常被称为计量语言学(Quantitative Linguistics)、统计语言学(Statistical Linguistics)、机械语言学(mechanolinguistics) 等等,Herdan(1966) 曾经把这个时候的语言研究归纳成“作为机遇和选择的高级语言理论”:统计语言学就是把语言作为机遇(Chance),而文体统计学(Stylostatistics)则把语言作为选择(Choice)。计量和统计的核心是频数,例如圣经索引(在我国,对一些经典著作都编有Index,被称为“引得”)、词典和常用词表编制、语法和用法调查等等。其中最受人注目的是Quirk 等人所作的“英语用法调查”(Survey of English Usage)。根据Svartvik(2007)的回忆,他在1961 年就参与这项研究,当时还没有用corpus 这个词,Quirk 最初想用descriptive register(描写性语体)、primary material(基本材料)、texts(文本)这几种提法,连corpus的复数是corpuses还是corpora,还拿不定主意,最后有人说,“我想应该是corpi”。Svartvik 还记得1963 年W Nelson Francis 从布朗大学带来一大堆计算磁带造访Quirk 在伦敦大学学院的办公室,这就是他们刚刚完成的机读语料库,标有habeas corpus(拉丁语:意为“人身保护令”,所以corpus实为body(本体)1,在英语用法调查基础上,Quirk 等人先后编了两部现代英语语法:《现代英语语法》(1972)和《英语语法大全》(1985)。具有同样意义的是Edward Thorndike 从1921 年到1944 年所编制的《教师词汇手册》,把语料规模从10,000 词增加到30,000 词并按词频排列,所依据的语料规模达450 万词。均是在没有计算机支持下完成的。他所编制的Thorndike Junior Dictionary of English 对常用3,000 词作了标记。用手工来排列词频,十分繁复。再如在早期,大主教Hugh 动用了500 名僧侣来进行拉丁语圣经索引的编纂,后来Alexander Cruden以惊人毅力用两年来完成,但他每天要工作18 小时。布朗语料库开启了后计算机时代,由于欧洲语言学家起了“接棒”的作用,1983年在荷兰Nijmegen召开了一次ICAME会议,主题是“语料库语言学:计算机语料库在英语研究中的使用”,由此语言库语言学的说法就说开了。但Jan Aarts则指出,他在1980年就开始使用荷兰语corpustaalkunde(相当于英语“语料库语言学”)。在70年代以后,机读语料库随着计算机技术(如网络、中央处理器、内存、外部存贮手段、光学阅读器)的开发和发展有了迅猛发展。Renouf(2007)分60、80、90、98、05年代等5个阶段描述了机读语料库如何从100万词发展到几千万和上10亿词,一直到把整个网络作为语料库,因而出现GRID的说法(原意为输电网的线路网,或称为“栅极”,即用户在需要用电就把插头插到插座里,无需知道电源在哪里。)这是把网络作为语料库的结果,因为网络资源爆炸,需要很多索引来使用语料本身,这些索引甚至比语料本身还要多,需要开发软件来把它们组织和存储在“网间数据栅”,这个新系统需要更多的内容标注,这就是计算语言学家所致力设计的“语义网”(semantic web)。
《语料库语言学》(半年刊)是教育部人文社科重点研究基地中国外语教育研究中心创办的语料库语言学专业期刊,由北京外国语大学中国外语教育研究中心承办,外语教学与研究出版社出版。
本刊旨在记录和追踪国内外语料库研究的进展与动态,使之成为了解语料库语言学的重要窗口。本刊期望《语料库语言学》能够促成中国语料库学界作出既具本土特色,又与国际学界接轨的优质研究。本刊的主要栏目有:语料库与中介语研究、语料库与语言对比研究、语料库与翻译研究、语料库与话语研究、语料库的研制与创建、语料库软件的设计与开发、书刊评介。
电子邮箱:bfsucrg@sina.com 投稿网址:http://ylyy.chinajournal.net.cn (点击下方阅读原文直接进入)
声明:本文版权归《语料库语言学》编辑部所有,感谢《语料库语言学》编辑部授权刊载。其他任何学术平台若有转载需要,可致电010-88819585或发送邮件至research@fltrp.com,我们将帮您协商授权事宜,请勿擅自转载。