许家金:基于语料库的历时语言研究述评(上)|《外语教学与研究》2020(2)
The following article is from 北外学术期刊 Author 外语教学与研究
基于语料库的历时语言研究述评(上)
作者:许家金
北京外国语大学教授
提要:本文旨在梳理近年兴起于各语言学分支领域的历时研究动向。语料库理念和方法是这一研究趋势的重要推动力。得益于众多千年和百年历时语料库,以及多元统计和可视化方法,词汇、短语、句法、话语、语用、认知等诸多语言维度的长期演变和短期渐变成果叠出。语料库语言学的概率方法,以及语言特征和语境因素共现/共变的理论思维,使得历时语言变化研究在描写和阐释方面均有建树。
关键词:语言演变、语言渐变、历时语言学、多因素分析、语料库
完整文章请见《外语教学与研究》
2020年第2期
1. 引言
近年,语言的历时研究呈激增趋势,出现了诸如“历时/历史语料库语用学”、“历史认知语言学”、“(英语)历史语用学”(历史社会语言学”、“历时构式语法”、“量化历史语言学”等新兴子学科,且有扩展和蔓延之势。
历时语言研究属于用法本位语言学(usage-based linguistics),因此重视真实语料的运用。历时研究发展迅猛,很大程度上得益于不断建成的历时电子语料库。在语言学文献中,历时语言研究一般称为“历史语言学”(Historical inguistics)或“历时语言学”(Diachronic Linguistics),其焦点是语言演变机制。相关研究包括词汇演变历程的考据(即词源学)、语言家族谱系的构拟(即对比语文学)、实词虚化为功能词机制的探究(即语法化研究)等。此外,历时语言研究与社会语言学交集甚广。变异社会语言学中的历时变异,方言学中的古语用法,以及从语言接触视角解读当今语言,都具有历时研究属性。
专门从事历时语言研究的学者人数不多,然而历时语言研究之于语言学绝非可有可无。相反,许多语言学问题,其答案正蕴含在历时语言学之中。譬如,在我国古汉语学界,何乐士对先秦两汉语言分期问题的研究,就提出以西汉为界划分汉语的解决方案。何乐士通过系统量化语法对比发现,《史记》与《左传》有显著不同,在汉语史分期问题上,先秦与两汉应划为两个时期。
语言时刻在变,语言变化是其本体属性,因此开展历时语言研究是语言学题中应有之义。
2. 历时语言研究语料及分析方法
为表述方便,以下我们将历时语料库分为“千年历时语料库”和“百年历时语料库”,前者包含历时几百年乃至上千年的语料,后者则只涵盖百年以内的文本。理论上,两者是连续体,难以截然分开。
2.1 千年历时语料库
由百年以前文本构成的语料库数量远超想象。其核心原因是此类文本不受版权制约,可自由使用。另一重要推动因素是,很多互联网巨头、出版企业、学术机构注入巨资,促成海量古籍文献的高品质电子化。谷歌图书(Google Books)、archive.org、HathiTrust 数字图书馆(HathiTrust Digital Library)、EEBO早期英语图书在线项目(Early English Books Online)、古登堡工程(Project Gutenberg)是这类电子文本库的代表。这些项目的主要特点是语料量巨大,库容可超百亿词次,同时它们致力于图书的文本化,即全文可检索。
此外,还有很多由语言学家创建的千年历时语料库。其中最有影响的当属芬兰赫尔辛基大学的系列语料库。赫尔辛基英文语料库(The Helsinki Corpus of English Texts)是最早的通用型电子化英语历时语料库。该库由Matti Rissanen在1991年主持建成,规模为150万词左右。其语料跨度从公元750年前后到1700年前后,涉及古英语、中古英语和早期现代英语。赫尔辛基大学还创建了一些专题历时语料库。例如,“早期英语书信语料库家族”(The Corpora of Early English Correspondence,1998年初步建成并处于持续扩建中,目前规模已超500万词次,时间跨度为公元1403年至1800年)、“医学早期英语书面语语料库”(The Corpus of Early English Medical Writing,375万词次,时间跨度为公元1375年至1800年)、“1560-1760英语对话语料库”(The Corpus of English Dialogues 1560-1760,2006年建成,120万词次,时间跨度为公元1560年至1760年)等。瑞士苏黎世大学创建了“ZEN 英语新闻历时语料库”(Zurich English Newspaper Corpus,简称 ZEN,2004年建成,160万词次,时间跨度为公元1661年至1791年)。
欧洲之外,美国学者也致力于创建其独具特色的历时语料库。ARCHER 语料库(A Representative Corpus of Historical English Registers)和COHA语料库(Corpus of Historical American English)是其中突出代表。ARCHER语料库由Douglas Biber于1993年初步建成,后由英国曼彻斯特大学维护更新。最新的ARCHER 3.2版本约有330万词次,同时收录英国和美国英语。时间跨度为公元1650年至1999年。ARCHER语料库包含广告、戏剧、小说、教会布道辞、期刊、法律、医学、新闻、早期散文(early prose)、科学、书信及日记共12个语域。COHA语料库于2010年由Mark Davis建成。其中包含1810年至2009年间出版的小说、通俗杂志、新闻、非虚构类图书共计4亿词次。不难看出,美国历时语料库的特色是多语域取样。这也是美国语料库语言学的重要特色。
2.2 百年历时语料库
收集几百年间的英语文本并将其电子化,终究不是易事。近些年新增的一类历时语料库,即我们这里谈的百年历时语料库,其中很多是在当代共时语料库基础上自然延伸而来。这类语料库的突出代表是布朗家族语料库(Brown Family Corpora)。这一族语料库以Francis & Kučera建成的1961年Brown美国英语平衡书面语语料库为起点。后有1961年 LOB 英国英语语料库、1992年的 Frown 美国英语语料库、1991年的 FLOB 英国英语语料库、2006年的AmE06美国英语语料库和 BE06 英国英语语料库、2006年建成的BLOB-1931英国英语语料库,以及2009年的 Crown 美国英语语料库和 CLOB 英国英语语料库。这些库合在一起,构成了英美英语百年历时语料库。这些语料库之所以能够合并使用,原因在于它们都采用相同的取样方案,即语料库包括500个文本,每个文本2000单词,分为15个文类、4大体裁,因而各库之间高度兼容且可比。
在口语历时语料库建设方面,DCPSE 语料库(The Diachronic Corpus of Present-Day Spoken English)抽取了上世纪60年代到80年代的伦敦-隆德英语口语语料库(London-Lund Corpus,简称 LLC)中的40万词,以及上世纪90年代 ICE-GB 语料库中的40万词英语口语语料组合而成。
2018年发布的 BNC2014语料库与1994年建成的经典 BNC 语料库,构成了20年间短期平衡历时语料库。两者分别包含9,000万词书面语和1,000万词口语,且取样方案十分接近。
美国学者则在大数据历时库方面占得先机,Mark Davis 创建的 COCA 语料库,以每年2,000万词规模,按口语、小说、通俗杂志、新闻、学术5类体裁等比扩充。该库现包含1990年迄今6亿词次语料,成为名副其实的短期通用型美国英语历时库。在专题历时库方面,Mark Davis 还创建了“《时代周刊》语料库”(Time Magazine Corpus),收录了《时代周刊》1923年创刊至2006年所有年份的期刊文本,可用于分析80多年间美国通俗杂志中语言使用的历时变化。
2.3 历时语言研究方法
本节将概述历时语言研究的量化方法。简而言之,共时与历时语言研究的区别在于,前者只需做一次数据采集和分析即可;后者则需采集至少两个时间点上的语言数据,并加以对比。根据研究需要,如果采集了多个时间点的语料,就可以将前后的静态语言切片联结成更全面的图景,这好比地质学中通过岩层断面推断地球演变史。
目前很多在线语料库或文本库都提供检索结果的历时展示。例如,Google N-gram viewer、COHA语料库能够分别以折线图或柱状图显示某些语言特征的历时频数变化。一些单机版语料库软件,如WordSmith Tools(2012年发布的第6版开始)提供按时间呈现检索结果的“时间轴”(Time-line)功能。若读入语料文本包含年份信息,则检索结果可以折线图及直方图的可视化方式显示检索项的历时分布。BFSU PowerConc 软件也可设定文本年份,从而按时间分布呈现频数情况。Hans Rosling 开创的动态图(motion chart),可以很好地将不同时期具有突出特点的语言特征,以及多个语言特征之间的相互关系,以动画效果连续呈现出来。
在历时语言研究的统计方法方面,比较能代表相关统计方法最新进展的是聚类分析、对应分析和混合效应逻辑回归建模等。这些方法属于多因素分析。它们可以将不同历史时期进行切分,以判断历时语言演变的节奏快慢,也可以综合考察多个语言特征与历史时期之间的对应关系,以及哪些因素更能反映相应时期的语言特点等等。
下文将介绍基于语料库的长期语言演变和短期语言渐变研究概况,其中涉及对词汇、短语、语法、话语、语用、认知等多个方面的历时语言研究。
未完待续……
期刊介绍:教育部主管、北京外国语大学主办的学报。我国外语界著名学者王佐良、许国璋教授等曾先后担任本刊主编。现设有语言学、语言研究、外语教育、翻译研究、中外文化交流研究等栏目,涵盖外语学科各主要方面。
推荐阅读
精彩不容错过!近期28场语言学、翻译、科研公益讲座回放集锦(附官方链接)
2019年中国语言文字工作“靓”点 + 中国语言生活总体状况介绍
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻 by Lakoff & Johnson)
语言学家 Lakoff & Duran:特朗普正在将言语变成武器,对民众进行洗脑!
总理记者会妙喻连连,“翻译女神”张璐逐个击破,真稳!| 侃英语
视频双语 | 总理记者会精彩语录+双语全文,张璐翻译传神到位!
重磅资源 | 外语教学论文写作与发表(免费下载论文写作资料大礼包)
学习资源 | 几乎所有中国美食的英文翻译及相关知识, 一定要收藏备用!
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
Forceville等:《多模态隐喻》| 德古意特认知语言学应用丛书
讲座视频 | 乔姆斯基: 语言学的基本问题 (上) Fundamental Issues in Lingui. (at MIT)
讲座视频 | 乔姆斯基: 语言学的基本问题 (下) Fundamental Issues in Ling. (at MIT)
重磅资源丨第四批发布!外文局审定新冠疫情相关词汇英文表达(1-4批大合集)