冯志伟：语料库语言学研究与计算语言学

冯志伟应用语言学研习 2022-06-09

感谢关注我们！加油，研习人！

欢迎关注我们，一站式获取海量语言学资源

本文来源：世图语言学公众号 2016-02-16

转载编辑：研习君

敬请星标应用语言学研习，喜欢请点赞，真爱请分享⭐

原创冯志伟

　　语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。

　　语料库应该按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲，语料库实际上是通过对自然语言运用的随机抽样，以一定大小的语言样本来代表某一研究中所确定的语言运用总体。

　　语料库一般可分为如下类型：

　　•按语料选取的时间划分，可分为历时语料库（diachronic corpus)和共时语料库（synchronic corpus)。

　　•按语料的加工深度划分，可分为标注语料库（annotated corpus)和非标注语料库（non-annotated corpus)。

　　•按语料库的结构划分，可分为平衡结构语料库（balance structure corpus)和自然随机结构的语料库（random struc¬ture corpus )。

　　•按语料库的用途划分，可分为通用语料库（general corpus) 和专用语料库（specialized corpus )。专用语料库又可以进

一步根据使用的目的来划分，例如，又可以进一步分为语言学习者语料库（learner corpus)、语言教学语料库（ped-agogical corpus )。

　　•按语料库的表达形式划分，可分为口语语料库（spoken corpus)和文本语料库（text corpus)。

　　•按语料库中语料的语种划分，可分为单语种语料库（mono- lingual corpus)和多语种语料库（multilingual corpus)。多语种语料库又可以再分为比较语料库（comparable corpus) 和平行语料库（parallel corpus )。比较语料库的目的侧重于特定语言现象的对比，而平行语料库的目的侧重于获取对应的翻译实例。

　　•按语料库的动态更新程度划分，可分为参考语料库（refer¬ence corpus) 和监控语料库（monitor corpus)。参考语料库原则上不做动态更新，而监控语料库则需要不断地进行动态更新。　　

　　早在1897年，德国语言学家Kaeding就使用大规模的语言材料来统计德语单词在文本中的出现频率，编写了《德语频率词典》（J- Kaeding，Haufigkeitsworterbuch der deutschen Sprache，Steglitz : published by the author，1K97 )。由于当时还没有计算机， Kaeding使用的语言材料不是机器可读的（machinereadable )，所以他的这些语言材料还不能算真正意义上的语料库，但是Kaeding使用大规模语言资料来编写频率词典的工作，是具有开创性的。

　　1959年，英国伦敦大学教授Randolph Quirk提出建立英语用法调查的语言资料库，叫做SEU (Survey of English Usage)。由于当时技术条件的限制，SEU是用卡片来建立的，也不是机器可读的。后来Quirk把这些语言资源逐步转移到计算机上，使之成为机器可读的语料库，并根据这个语料库领导编写了著名的《当代英语语法》。

　　1964年，A. Juilland 和 E. Chang-Rodriguez 根据大规模的西班牙语资料编写了《西班牙语单词频率词典》。在收集语言资料时，注意到了抽样框架、语言资料的平衡性、语言资料的代表性等问题。

　　1979年，美国 Brown 大学的Nelson Francis 和Henry Kucera 在计算机上建立了机器可读的BROWN语料库（布朗语料库）。这是世界上第一个根据系统性原则采集样本的平衡结构语料库，规模为100万词次，并用手工做了词类标注（part of speech tag¬ging)。BROWN 语料库是一个代表当代美国英语的语料库。

　　接着，英国Lancaster大学的Geoffrey Leech教授提出倡议，挪威Oslo大学的Stig Johansson教授主持完成，最后在挪威Bergen 大学的挪威人文科学计算中心联合建立了LOB语料库（LOB是 Lancaster，Oslo和Bergen的首字母缩写），规模与Brown语料库相当。这是一个代表当代英国英语的语料库。

　　欧美各国学者利用BROWN和LOB这两个语料库开展了许多大规模的研究，取得了引人注目的成绩。

从20世纪90年代初、中期开始，语料库逐渐由单语种向多语种发展，多语种语料库开始出现。目前多语种语料库的研究正朝着不断扩大库容量、深化加工和不断拓展新领域等方向继续发展。随着从事语言研究和机器翻译研究的学者对多语种语料库重要性的逐渐认识，国内外很多研究机构都致力于多语种语料库的建设，并利用多语种语料库对各种各样的语言现象进行了深入的探索。

　　近年来，语料库语言学的研究硕果累累，关于这些研究成果，我在《应用语言学中的语料库》（世界图书出版公司，2006) 一书的导读中已经做过介绍，有兴趣的读者可以参看。

　　在建设或研究语料库的时候，我们应当注意语料库的代表性、结构性和平衡性，还要注意语料库的规模，并制定语料的元数据规范。下面分别讨论这些问题。

首先讨论语料库的代表性。

　　语料库样本的有限性是无法回避的，所以在语料的选材上，要尽量追求语料的代表性，使有限的样本语料尽可能多地反映无限的真实语言现象的特征。语料库的代表性不仅要求样本取自于符合语言文字规范的真实的语言材料，而且要求样本要来源于正在“使用中”的语言材料，包括各种环境下的、规范的或非规范的语言应用。语料库的代表性还要求语料具有时代性，能反映语言的发展变化和当代的语言生活规律。只有通过具有代表性的语料库，才能让计算机了解真实的语言应用规律，才有可能让计算机不仅能够理解和处理规范的语言，而且还能够处理不规范但被广泛接受的语言、甚至包含有若干错误的语言。

再来讨论语料库的结构性。

　　语料库是有目的地收集的语料的集合，不是任意语言材料的堆积，因此要求语料库具有一定的结构。在目前计算机已经普及的技术条件下，语料库必须是以电子文本形式存在的、计算机可读的语料集合。语料库的逻辑结构设计要确定语料库子库的组成情况，定义语料库中语料记录的码、元数据项、每个数据项的数据类型、数据宽度、取值范围、完整性约束等。

接着讨论语料库的平衡性。

　　平衡因子是影响语料库代表性的关键特征。在平衡语料库中，语料库为了达到平衡，首先要确定语料的平衡因子。影响语言应用的因素很多，如：学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、语料的用途（公函、私信、广告）等。一般根据实际需要，即平衡语料库的用途选取其中的一个或者几个重要的指标作为平衡因子，最常用的有学科、年代、文体、地域等。

在建设语料库时，还应当考虑语料库的规模。

　　大规模的语料库对于语言研究，特别是计算语言学的研究具有不可替代的作用。但随着语料库的增大，垃圾语料带来的统计垃圾问题也越来越严重。而且，当语料库达到一定的规模后，语料库的功能并不会随着其规模同步地增长。我们应根据实际的需要来决定语料库的规模，语料库规模的大小应当以是否能够满足其需要来决定。

还应当考虑语料库的元数据（metadata)问题。

　　语料库的元数据对语料库研究具有重要的意义。我们可通过元数据了解语料的时间信息、地域信息、作者信息、文体信息等各种相关信息；也可通过元数据形成不同的子语料库，满足不同兴趣研究者的研究需要；还可通过元数据对不同的子语料库进行比较，研究和发现一些对语言应用和语言发展可能有影响的因素；元数据还可记录语料的知识版权信息、语料库的加工信息和管理信息。　　关于语料库的标注（annotation)问题，学术界存在不同看法。由于在汉语书面文本中词与词之间没有空白，不便于计算机处理，因此，汉语书面文本的语料库一般都要做切词和词性标注。有的学者主张对语料进行标注，认为标注过的语料库具有开发和研究上的方便性、使用上的可重用性、功能上的多样性、分析上的清晰性等优点。有的学者则对语料库标注提出批评，批评主要来自两方面：一方面认为，语料库经过标注之后失去了客观性，所得到的标注语料库是不纯粹的，带有标注者对于语言的主观认识；另一方面认为，手工标注的语料库准确性高但一致性差，自动或半自动的标注一致性高但准确性差，语料库的标注难以做到两全其美，而目前大多数的语料库标注都需要人工参与，因而很难保证语料库标注的一致性（J. Sinclair，Corpus，Concord¬ance，Collocation，Oxford University Press，1991)。我们认为，不论标注过的语料库还是没有标注过的语料库都是有用的，其中都隐藏着丰富的语言学信息等待我们去挖掘，我们甚至可以使用机器学习的技术，从语料库中自动地获取语言知识。

　　近年来，在语料库的建立和开发中逐渐创造了一些独特的方法，提出了一些初步的原则，并且对这些方法和原则在理论上进行了探讨和总结，逐渐形成了“语料库语言学”（corpus linguis¬tics)。由于语料库是建立在计算机上的，因此，语料库语言学是语言学和计算机科学交叉形成的一门边缘学科。目前语料库语言学主要是利用语料库对语言的某个方面进行研究，是一种新的研究手段，同时也逐步建立了自己学科的理论体系，正处于迅速的发展过程中。　　语料库语言学是一种新的获取语言知识的方法，它提倡建立语料库，在计算机的辅助下，使用统计的方法或机器学习的方法，自动或半自动地从浩如烟海的语料库或因特网中获取准确的语言知识，其中包括经过标注的结构化的语言数据和未经过标注的非结构化的语言数据。这是语言学获取语言知识方式的巨大变化，在语言学的发展史上具有革命性的意义。　　语料库语言学也为语言研究人员提供了一种新的思维角度，辅助人们的语言“直觉”和“内省”判断，从而克服语言研究者本人的主观性和片面性。我们预计，语料库方法将会逐渐成为语言学研究的重要方法，受到语言研究者的普遍欢迎。　　目前，语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、自动切分、词性标注、语义标注，并研究具有上述功能的语料库在词典编纂、语言教学、语言定量分析、词汇研究、词语搭配研究、语法研究、多语言跨文化研究、法律语言研究、作品风格分析等领域中的应用，已经初步展现出这门新兴学科的强大生命力，并且也影响和推动了计算语言学的发展。计算语言学研究

　　1946年美国宾夕法尼亚大学的J. P. Eckert和J. W. Mauchly 设计并制造出世界上第一台电子计算机ENIAC。电子计算机惊人的运算速度，启发人们开始思考传统翻译技术的革新问题。为了探索如何用计算机来改进翻译技术，1952年在美国的MIT召开了第一次机器翻译会议，1954年美国乔治敦大学在国际商用机器公司（IBM)的协同下，用IBM-701计算机，进行了世界上第一次机器翻译试验，把几个简单的俄语句子翻译成英语，拉开了人类历史上使用计算机来处理自然语言的序幕。接着，苏联、英国、日本也进行了机器翻译试验，机器翻译出现热潮。

　　为了推动机器翻译的研究，1954年美国出版了第一本机器翻译的期刊MachineTranslation (《机器翻译》）。1962年美国成立了“机器翻译和计算语言学学会& (Association for machineTranslation and Computational Linguistics)，为使期刊名与学会名称保持一致， 1965 年 Machine Translation 杂志改名为 Machine Translation and Computational Linguistics (《机器翻译和计算语言学》）。在杂志的封面上，首次出现了“Computational Linguistics”这个新学科的名字。但是“and Computational Linguistics”这三个单词是用特别小号的字母排印的，说明当时学者们对于“计算语言学”是否能够算为一门真正的独立的学科还没有确实的把握。根据这些史料，我们认为，早在1962年，就出现“计算语言学”这个学科了，尽管刚出现时还“犹抱琵琶半遮面”，但现在，它已登上了庄严的学术殿堂。

　　40多年来，计算语言学发展迅速，逐渐建立了完整的理论和方法，成为一门独立的学科，取得了很大成缋，在当代语言学中引人注目。

　　计算机的速度和存储量的增加，使得计算语言学在语音合成(speech synthesis )、语音识别（speech recognition )、文字识别 (character recognition )、拼写检查（spellingcheck )、语法检查 (grammar check )这些应用领域，都进行了商品化的开发。除了早期就开始的机器翻译（machine translation)和信息检索（infor¬mation retrieval) 等应用研究进一步得到发展之外，计算语言学在信息抽取（information extraction )、问答系统(question answering system)、自动文摘（text summarization)、术语的自动抽取和标引(term extraction and automatic indexing)、文本数据挖掘(text data mining)、自然语言接口 ( natural language interaction)、计算机辅助语言教学（computer-assisted language learning)等新兴的应用研究中，都有了长足的进展。计算语言学的技术在多媒体系统 (multimedia system)和多模态系统（multimodal system)中也得到了应用。

语料库语言学与计算语言学之间的关系在过去40多年间，从事计算语言学应用系统开发的绝大多数学者，都把自己的研究局限于某个十分狭窄的专业领域之中，他们采用的主流技术是基于规则的句法—语义分析，尽管这些应用系统在某些受限的“子语言”（sub-language)中也曾获得一定程度的成功，但是，要想进一步扩大这些系统的覆盖面，用它们来处理大规模的真实文本，仍然有很大的困难。因为从计算语言学应用系统所需要装备的语言知识来看，其数量之浩大和颗粒度之精细，都是以往任何系统所远远不及的。而且，随着系统拥有的知识在数量上和程度上发生的巨大变化，系统在如何获取、表示和管理知识等基本问题上，不得不另辟蹊径。这样，在计算语言学中就提出了大规模真实文本的自动处理问题。　　1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议（即COLING’90)为会前讲座确定的主题是：“处理大规模真实文本的理论、方法和工具”，这说明，实现大规模真实文本的处理已经成为计算语言学在今后相当长时期内的战略目标。为了实现战略目标的转移，计算语言学需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议（TMI-92)上，宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”，所谓“理性主义”，就是指基于规则（rule-based)的方法；所谓“经验主义”，就是指以大规模语料库的分析为基础的方法，也就是基于语料库（corpus-based)的方法。语料库的建设和语料库语言学的崛起，为计算语言学战略目标的转移提供了语言资源方面的保证。随着人们对大规模真实文本处理的日益关注，越来越多的学者认识到，基于语料库的方法至少是对基于规则的方法的一个重要补充。因为从“大规模”和“真实”这两个因素来考察，语料库才是最理想的语言知识资源。在每两年召开一次的“自然语言处理中的经验主义方法会议” （Empirical Methods in Natural Lan¬guage Processing，简称 EMNLaP) 上，基于语料库的机器学习方法成为了会议的主流议题。计算语言学和语料库语言学发生了鱼水难分的密切联系。　　在21世纪，这种基于语料库的机器学习方法在计算语言学中进一步以惊人的步伐加快了它的发展速度。我认为，计算语言学的加速发展在很大的程度上受到下面三种彼此协同的因素的推动。　　第一个因素是带标记语料库的建立。在语言数据联盟（Lin-guistic Data Consortium, 简称 LDC) 和其他相关机构的帮助下，计算语言学的研究者可以方便地获得口语和书面语的大规模语料库，而且其中还包括数量可观的标注过的语料库，如宾州树库 (Penn Treebank )、布拉格依存树库（Prague Dependency Tree Bank)、宾州命题语料库（PropBank)、宾州话语树库（Penn Dis¬course Treebank)、修辞结构库（RSTBank) 和Time Bank。这些语料库是带有句法、语义、语用、修辞结构等不同层次标记的标准文本语言资源。这些标注语料库的存在使得计算语言学的研究可以使用“有监督的机器学习方法”（supervised machine learn¬ing ) 来处理那些在传统上非常复杂的自动句法分析和自动语义分析等问题。这些标注语料库也推动了计算语言学中有竞争性的评测机制的建立，不再采用传统的人工评测方法而采用机器自动评测方法，评测的范围涉及到自动句法分析、信息抽取、词义排歧、问答系统、自动文摘等领域。　　第二个因素是统计机器学习技术的成熟。对机器学习日益增长的重视，导致了计算语言学的研究者与统计机器学习的研究者更加频繁地交流，彼此之间互相影响。支持向量机技术（support vector machine)、最大熵技术（maximum entropy)、多项逻辑回归 (multinomial logistic regression )、图式贝叶斯模型（graphical Bayesian models )等统计机器学习技术在计算语言学中得到了普遍的应用，深受计算语言学研究者的欢迎。　　第三个因素是高性能计算机系统的发展。高性能计算机系统的广泛应用，为机器学习系统的大规模训练和效能发挥提供了有利的条件，这在上一个世纪是难以想象的。　　进入21世纪以来，除了有监督的机器学习方法之外，大规模的“无监督统计学习方法” ( unsupervised statistical machine learn- ing)在计算语言学中也得到了广泛的关注。机器翻译（machine translation)和主题模扨（topic modeling)等领域中统计方法的进步，说明了在计算语言学中也可以只训练完全没有标注过的语料库来构建机器学习系统，这样的系统也可以得到有成效的应用。由于建造可靠的标注语料库要花费很高的成本，建造难度很大，在很多问题中，这成为使用有监督的机器学习方法的一个限制性因素。因此，今后在计算语言学研究中将会更多地使用无监督的机器学习技术。我们相信，计算语言学和语料库语言学的联系将会更加密切，进一步发展到水乳交融的程度。

本文选自《语料库与计算语言学研究丛书》序，作者冯志伟

语言学中的数学方法冯志伟导读

世界图书出版公司

作者：（美）帕蒂（Partee,B.H），（美）默伦（Meulen,A），（美）华尔（Wall,R.E）ISBN：978-7-5062-9287-0定价：69.00元

本书是一本关于计算语言学的专著。全书包括A、B、C、D、E五篇：A篇讲述集合论，B篇讲述逻辑和形式系统，C篇讲述抽象代数，D篇讲述作为形式语言的英语，E篇讲述形式语言、形式语法和自动机，读者可以从中了解并掌握语言学研究中使用的主要的数学方法。

相关推荐

冯志伟：大哉，计算语言学之为用！| 中国社会科学报

冯志伟 | 我国计算语言学研究70年

人工智能的诗与远方，一文读懂NLP起源、流派和技术（外一篇）

《中国大百科全书》第三版首批条目发布！约21万中文条目已上线

新书预告 | 乔姆斯基《句法结构》第二版中译本

冯志伟：“语法”定名胜于“文法” |《中国语文》1961年2月号