查看原文
其他

期刊好文 | 语料库语言学答客问(桂诗春)(上篇)

桂诗春 外语学术科研网 2021-03-17




1. 您最早是什么时候开始接触语料库的?您能描述一下当时国内语料库研究开展的情况吗?

世界上第一个机读英语语料库(布朗语料库,Brown Corpus)建于20 世纪60 年代中叶。当时我国正值“文革”,与国外隔绝,直到“文革”结束后,我才开始接触语料库语言学。首先看到的是Kučera 和Francis 的Computational Analysis of Present-Day American English,那是100 万词次的布朗语料库的文字描述版,不久又看到John Carroll 等人基于500 万词次的Word Frequency Book,虽然两者都不是直接可用的电子化语料库。但最早引起我兴趣的是心理语言学家John Carroll 为这两本语料库所写的《序言》,然后又看到Gustav Herdan 所写的两本书:Type-Token Mathematics (1960)和Quantitative Linguistics(1964)。当时还没有语料库语言学的提法,但这两本书和Carroll 的《序言》,却给我打下了语料库的理论和数学基础,开始认识到通过语料库调查进行语言研究的重要意义。上海交通大学杨惠中、黄人杰等人的团队,也差不多在这一阶段认识到语料库的前景,并开始在我国建立自己的语料库;他们收集并创建了JDEST(Jiao Da English for Science and Technology)语料库,并基于该语料库来编制科技英语常用词表。其间我也访问过他们,并在现场看过他们的成果。但是布朗语料库也好,JDEST语料库也好,当时都是依托大型计算机来完成的。而我所在的单位并没有计算机,于是就向上级申请购买一台Apple II 型的微型计算机。教育部门领导最初的反应是:你们又不是工科院系,要什么计算机?经过我们努力说明和争取,最后购进了3 台,分给几个部属外语学院(北外、上外和广外)。当时的计算机技术远没有现在发达,中央处理器和内存都较低级,外部储存手段只有5英寸软盘,光学扫描仪还没有问世。1985 年,我招了一个硕士生祝启波,他原在石油大学广州分院教英语,也上过计算机课,于是我们就开始在一个IBM PC/XT计算机平台上,开发石油英语语料库GPEC(Guangzhou Petroleum English Corpus)。祝走访了我国石油系统的几个院系,根据石油探测、石油提炼和石油探钻三大类进行采样和人工输入文本,而且在一台微机上,进行文件的组合、整理和运算,终于建立了一个40 万词次的石油英语语料库。这个语料库最后以《石油英语频率词典》(1991)的名义发表,使用的是Carroll的Word Frequency Book的几个统计量(U、SFI、D和F)。我在为该书所写的《序言》里不得不说:The build-up of corpora requires a Brobdingnagian effort,(Brobdingnag是《格里佛游记》里的“大人国”),这个研究的成果不但是一个石油英语语料库,而且还建立了一个在多数人都能拥有的廉价计算机上建立专门用途语料库的模型。Leech( 1997:18)在回顾“专门用途语料库”时说过,“这些语料库通过不同手段在逐步增加,首先是敏锐的专门用途语言学家和教师开发自己的语料库,早期的例子是JDEST和GPEC,两者都来自中国。”Leech所不知道的是GPEC是在技术条件那么差的情况下完成的。
至于和语料库有关的软件,最早接触到的是加拿大多伦多大学Ian Lancashire等人开发的TACT2 1,那是在DOS3 0基础上开发的,具有很多英语文本(主要为文学文本),当年可从该大学网站下载使用。TACT已经具有语料库的各种功能(检索、词频表等),不过它的界面并不十分友好。另一个是WordCruncher,主要是一个检索工具,其好处是可以检索汉语,但不能对汉语进行分词。Mike Scott的WordSmith Tools的各个版本都在Windows的环境下运行,把各种功能都组合在一起,且提供不少统计数据,应是一个突破。还应提出的是ICAME在1999年发行了一张光盘,叫做ICAME Collection of English Language Corpora (2nd Edition),其中包括了6个软件(除前述3个外,还有Lexa、Lingfont、Qwick)和20个语料库,规模达1千7百万词次。这张光盘对普及和推进语料库研究,起了很大作用。

2. 那么语料库语言学在国外的发展又如何呢?

布朗语料库问世后,并未引起美国语言学家的注意,因为当时正是生成语言学当道,但在欧洲却起了重要的催生作用。1977年在挪威成立了ICAME(International ComputerArchive of Modernand Medieval English)协会,对英语语料库的推广起了重要作用。Simpson & Swales( 2001)不得不承认语料库语言学在最近15年的很多发展都来自欧洲,特别是英国和北欧等国学者的研究。其原因是复杂而又有趣的:首先是在北美,理论语言学,因为受到Chomsky的影响,把注意力指向语言结构,即所谓I-language(内部语言),而不是语言使用;其次是在欧洲,特别是对北欧语言学家来说,语言学主要强调语言和社会生活的联系,这是英国语言学家Firth所建立的传统,他提出的“行动中的语言”(Language in action)和“作为使用的义”(Meaning as use)是这一传统的两个孪生口号(见Leech 1974:71)。
其实“语料库语言学”的说法,是在20 世纪八九十年代兴起的,一般把布朗语料库(1967)的发表作为一条分界线,分为前计算机和后计算机(机读)两大阶段:前计算机阶段通常被称为计量语言学(Quantitative Linguistics)、统计语言学(Statistical Linguistics)、机械语言学(mechanolinguistics) 等等,Herdan(1966) 曾经把这个时候的语言研究归纳成“作为机遇和选择的高级语言理论”:统计语言学就是把语言作为机遇(Chance),而文体统计学(Stylostatistics)则把语言作为选择(Choice)。计量和统计的核心是频数,例如圣经索引(在我国,对一些经典著作都编有Index,被称为“引得”)、词典和常用词表编制、语法和用法调查等等。其中最受人注目的是Quirk 等人所作的“英语用法调查”(Survey of English Usage)。根据Svartvik(2007)的回忆,他在1961 年就参与这项研究,当时还没有用corpus 这个词,Quirk 最初想用descriptive register(描写性语体)、primary material(基本材料)、texts(文本)这几种提法,连corpus的复数是corpuses还是corpora,还拿不定主意,最后有人说,“我想应该是corpi”。Svartvik 还记得1963 年W Nelson Francis 从布朗大学带来一大堆计算磁带造访Quirk 在伦敦大学学院的办公室,这就是他们刚刚完成的机读语料库,标有habeas corpus(拉丁语:意为“人身保护令”,所以corpus实为body(本体)1,在英语用法调查基础上,Quirk 等人先后编了两部现代英语语法:《现代英语语法》(1972)和《英语语法大全》(1985)。具有同样意义的是Edward Thorndike 从1921 年到1944 年所编制的《教师词汇手册》,把语料规模从10,000 词增加到30,000 词并按词频排列,所依据的语料规模达450 万词。均是在没有计算机支持下完成的。他所编制的Thorndike Junior Dictionary of English 对常用3,000 词作了标记。用手工来排列词频,十分繁复。再如在早期,大主教Hugh 动用了500 名僧侣来进行拉丁语圣经索引的编纂,后来Alexander Cruden以惊人毅力用两年来完成,但他每天要工作18 小时。布朗语料库开启了后计算机时代,由于欧洲语言学家起了“接棒”的作用,1983年在荷兰Nijmegen召开了一次ICAME会议,主题是“语料库语言学:计算机语料库在英语研究中的使用”,由此语言库语言学的说法就说开了。但Jan Aarts则指出,他在1980年就开始使用荷兰语corpustaalkunde(相当于英语“语料库语言学”)。在70年代以后,机读语料库随着计算机技术(如网络、中央处理器、内存、外部存贮手段、光学阅读器)的开发和发展有了迅猛发展。Renouf(2007)分60、80、90、98、05年代等5个阶段描述了机读语料库如何从100万词发展到几千万和上10亿词,一直到把整个网络作为语料库,因而出现GRID的说法(原意为输电网的线路网,或称为“栅极”,即用户在需要用电就把插头插到插座里,无需知道电源在哪里。)这是把网络作为语料库的结果,因为网络资源爆炸,需要很多索引来使用语料本身,这些索引甚至比语料本身还要多,需要开发软件来把它们组织和存储在“网间数据栅”,这个新系统需要更多的内容标注,这就是计算语言学家所致力设计的“语义网”(semantic web)。

3. 您刚刚提到“生成语言学当道”,这是不是意味着语料库和生成语言学是不相容的呢?

确实,布朗语料库产生后,就受到Chomsky的批判。Chomsky反对的是结构主义和行为主义。早在20世纪50年代Fries 在《英语结构》(1952)里使用过会话语料对英语结构进行分析,Chomsky在反对结构主义过程中出版专著《句法结构》(1957),他从一开始就反对根据语料来决定语言的语法性。其实这接触到现代语言学的一个根本问题,Saussure的“语言”(langue)和“言语”(parole),在Chomsky语言学里就是“语言能力”(linguistic competence)和“语言运用”(linguistic performance),后又改称为I-language 和E-language(内部语言和外部语言)。Chomsky虽然也承认这两者的区别,但认为语言学研究的中心应该是语言能力。这就形成语言学研究的两大流派:一派是生成语言学,其哲学基础是理性主义;另一派是功能语言学(Firth、Halliday等)。和功能语言学站在一起的不但有语料库语言学,还有语用学、历史语言学、认知语言学、社会语言学等等,其哲学基础是经验主义。如果站得更高一点来看,前一派关心的是语言中What is possible?(“哪些是可能的?”,即语言能力所容许发生的),而后一派关心的是语言中What is probable?(“哪些是极有可能的?”,即在语言运用中被使用的概率有多大?)。例如Chomsky所举的著名例子:Colorless green ideas sleep furiously(“无色的绿思想疯狂地睡觉”),在生成语言学者看来,这样的句子是possible(可能的),因为它完全符合英语语法。而Furiously sleep ideas green colorless则是impossible(不可能的),因为不符合英语语法。在语料库学者看来,一般人(除了生成语言学家的专门论述外)是没有什么可能说这样的两句话的,所以那是improbable(极不可能)的。Possible 和probable 在英汉词典里都有“可能”的意思,但是前者感兴趣的是有无可能,这是两分法的;而后者则和概率行为有关,是有梯度的。所以“语言”和“言语”其实是一个硬币的两个方面,它们是互补,而不是对立的。两大语言学传统其实是从不同角度来观察语言事实,Halliday(1991)把它们比喻成climate(气候)和weather(天气)以示区别。Newmeyer(2005)是一位生成语言学者,他从语言类型学的生成主义视角来考察possible(实际上是biologically possible“生物学的可能”)和probable 的语言,专门讨论了生成主义和功能主义:功能主义学派对其可能也感兴趣,但它认为“语言理论的主要目标是把极有可能和可能区分开来”(Most adherents of the functional school see it [Universal Grammar]as a major goal of linguistic theory to distinguish the possible from theprobable)。Newmeyer 虽然坚守生成语言学的立场,认为“把语法元素和概率联系起来的证据十分薄弱”,但却指出“功能主义的解释和形式生成语法是完全相容的”,认知语言学家Langacker所提出以用法为基础的语法模型也不赞成在语言知识和语言使用之间作严格的区分。Newmeyer 在书中多处用了以频数为基础的解释,来说明什么东西使语言有更大可能(probable),而使语言有可能的(possible),则是Chomsky的普遍语法。Dryer(2007)在对Newmeyer 的书评里说,“我是一个类型学家和功能主义者,但我认同Newmeyer 多数说法。” McEnery & Wilson(2001)关于Chomsky和语料库的关系也有过详尽论述,认为他对早期语料库语言学的批评(如过于偏态)不无好处,这反而使后来语料库的采样具有更大代表性。

4. 语料库语言学研究的哪些特点最吸引您?

英语对我来说始终是一门外语,即算是按生成语言学的说法,我所具有的语言能力也是汉语的语言能力,自问对一门外语的了解和掌握无法和母语使用者相比。所以使用英语时,觉得没有多大把握时就要向母语使用者请教,但是母语使用者也有其年龄、时代、文化、接触面等等局限。最好的办法是查大型语料库,甚至Google,如果都没有人这样用,就要十分小心。另外通过不同语料库的频数比较,也可以发现许多语体(包括我国英语学习者的英语)的特点。频数的分布可以帮助人们更准确地理解哪些词使用得最多,这对制定常用词表大有益处。我是教英语的,常对其语法变化和发展感兴趣,正如Keller(1994)所指出的,这是间乎“自然”与“人工”之间的第三种现象,可称为“无形之手”(The Invisible Hand),语言和交际就等于市场、贸易、货币一样,它们不是任何人类设计的产物,而是人类活动的结果。就等于“花园小径”一样,它虽然是人走出来的,但却不是具体的哪个人在哪个时候走出来的,而是有人先那么走,别人也觉得这样走比较方便,慢慢也顺着走,走多了就成为“小径”了。语料库的方法更容易昭示这些规约性结果。利用这些结果来编撰语法和词典,这与历史主义的原则更为一致(如Jespersen、Quirk、Biber编制的英语语法和OED、Collins COBUILD、Longman 等词典所收集的例句……等),因为对我们那些把英语作为外语的人来说,实在无法运用自己与生俱来的“语言能力”(像Chomsky所说的,如果有,也只指自己的母语)来进行判断。例如在英语口语里,像Did you want more coffee? 这样的句子和过去时无关,而是一个有礼貌的请求,对句子的回应是No,I’m fine(现在时)或Yeah, I’ll have one(将来时)(见Conrad & Biber 2009)。像这样的语言能力对把英语作为外语的学习者来说,只能在特定的语言环境通过接触而学到,而不是生而知之。

5. 有没有哪(个)些学者或某(个)些论著在语料库研究方面对您影响较大?如有的话,您能说说影响主要体现在什么方面吗?

任何一门学科的发展都依赖于这个学科参与者的共同努力;他们在各个方面都作出了自己贡献,不可忽略。总体而言,语料库语言学并非我唯一的学术兴趣,我最早的兴趣是在中国引进和发展应用语言学,后来是心理语言学和语料库语言学,最近又转向语言的进化和演变。最早吸引我的是语料库的研究手段,觉得它和计算机科学结合起来,可以省去很多精力,具有无限广阔前景。语料库语言学之所以有今天的发展,有赖于这个学科建设者各方面不懈努力,在英国有几个中心,包括以Quirk 为首的伦敦大学学院(University College London),以Leech为首的兰卡斯特大学(Lancaster University),以Sinclair为首的伯明翰大学(Birmingham University),他们都孜孜不倦地开发和利用语料库,硕果累累,而它们所培育的力量在欧洲各个国家如瑞典、丹麦、意大利、荷兰、德国、比利时等地开花结果。至于我自己并没有从一开始就把语料库语言学作为自己的专业方向,虽然收集了不少论述,也没有一一通读,只是选读其中一些,觉得很有收获,但也不足为训。我最早读到的是Quirk(1968)的The Use of English, 因为这本书一出版后,国内就有影印版。书写得深入浅出,饶有兴趣,可能就是他们英语用法调查的副产品。跟着就是Greenbaum & Quirk(1970)对他们调查所使用方法的介绍。至于根据调查所编写的几本语法均属于参照性语法,虽然常参阅,但没有通读。Leech在兰卡斯特大学成立UCREL(Unit for Computer Research on the English language)后不但建立了LOB,而且在Garside,Leech & Sampson(1987)里,提出了词类标记(POS tagging)系统。Sampson还针对Chomsky的生成语言学出版了Educating Eve(1997)和Empirical Linguistics(2001),并与McCarthy编辑了一部收录语料库重要文献的读物(2004)。Sinclair的Corpus, Concordance, Collocation(1991)、Reading Concordances(2003)和Trust the Text(2004)强调一切以文本为依归,语篇分析和语料库是语言研究的两大支柱。它们的结合有两点好处:1)我们可以对文本提出很多假设,然后用计算机的手段来加以证实。2)它们所处理的型式维度都比语言学习惯于处理的要多一些。Sinclair因此提出考察语篇的必要性,并针对“自由选择原则”(open choice principle)提出“习语原则(idiom principle),由此开拓了许多检索和搭配的研究。他所领导的团队不但开发了45亿词的Bank of English,并据此编制Collins COBUILD高级英语学习者词典和一套包括习语、语法、构词法、动词短语、商业英语、科技英语在内的丛书。他和Renouf(1988)又提出词汇语法和词汇大纲,并指导编写初级英语教程(Willis 2009)。虽然美国受到Chomsky的影响,但是也有一些学校和语言学家坚守这个阵地,如美国密歇根大学的MICASE(Michigan Corpus of American Spoken English),Biber et al.(1999)主持的“朗文口语和书面语语法”,对语体的研究(1988)。Mark Davies在杨百翰大学(Brigham Young University)创建了一个在线语料库平台(http://corpusbyu edu)可以检索现代美国英语(COCA,4 5亿词)、历史美国英语(COHA,4 5亿词)、全球(20个国家)以网络为基础的英语(GloWbe,19 亿词)、英国国家语料库(BYU-BNC,1 亿词)、加拿大英语(Strathy,5,000 万词)、《时代周刊》语料库(Time Magazine Corpus,1 亿词)、美国电视剧语料库(Corpus of American Soap Operas,1亿词),可谓蔚为大观。

本文摘自《语料库语言学》2014年第1期《语料库语言学答客问》一文,采访对象为桂诗春教授,敬请期待明日下篇内容。

《语料库语言学》(半年刊)是教育部人文社科重点研究基地中国外语教育研究中心创办的语料库语言学专业期刊,由北京外国语大学中国外语教育研究中心承办,外语教学与研究出版社出版。
本刊旨在记录和追踪国内外语料库研究的进展与动态,使之成为了解语料库语言学的重要窗口。本刊期望《语料库语言学》能够促成中国语料库学界作出既具本土特色,又与国际学界接轨的优质研究。本刊的主要栏目有:语料库与中介语研究、语料库与语言对比研究、语料库与翻译研究、语料库与话语研究、语料库的研制与创建、语料库软件的设计与开发、书刊评介。
电子邮箱:bfsucrg@sina.com 投稿网址:http://ylyy.chinajournal.net.cn (点击下方阅读原文直接进入)

声明:本文版权归《语料库语言学》编辑部所有,感谢《语料库语言学》编辑部授权刊载。其他任何学术平台若有转载需要,可致电010-88819585或发送邮件至research@fltrp.com,我们将帮您协商授权事宜,请勿擅自转载。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存