冯志伟:语料库语言学研究与计算语言学
欢迎关注我们,一站式获取海量语言学资源
本文来源:世图语言学公众号 2016-02-16
敬请星标应用语言学研习,喜欢请点赞,真爱请分享⭐
冯志伟
语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。
语料库应该按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体。
语料库一般可分为如下类型:
•按语料选取的时间划分,可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus)。
•按语料的加工深度划分,可分为标注语料库(annotated corpus)和非标注语料库(non-annotated corpus)。
•按语料库的结构划分,可分为平衡结构语料库(balance structure corpus)和自然随机结构的语料库(random struc¬ture corpus )。
•按语料库的用途划分,可分为通用语料库(general corpus) 和专用语料库(specialized corpus )。专用语料库又可以进
一步根据使用的目的来划分,例如,又可以进一步分为语言学习者语料库(learner corpus)、语言教学语料库(ped-agogical corpus )。
•按语料库的表达形式划分,可分为口语语料库(spoken corpus)和文本语料库(text corpus)。
•按语料库中语料的语种划分,可分为单语种语料库(mono- lingual corpus)和多语种语料库(multilingual corpus)。多语种语料库又可以再分为比较语料库(comparable corpus) 和平行语料库(parallel corpus )。比较语料库的目的侧重于特定语言现象的对比,而平行语料库的目的侧重于获取对应的翻译实例。
•按语料库的动态更新程度划分,可分为参考语料库(refer¬ence corpus) 和监控语料库(monitor corpus)。参考语料库原则上不做动态更新,而监控语料库则需要不断地进行动态更新。
早在1897年,德国语言学家Kaeding就使用大规模的语言材料来统计德语单词在文本中的出现频率,编写了《德语频率 词典》(J- Kaeding,Haufigkeitsworterbuch der deutschen Sprache,Steglitz : published by the author,1K97 )。由于当时还没有计算机, Kaeding使用的语言材料不是机器可读的(machinereadable ), 所以他的这些语言材料还不能算真正意义上的语料库,但是Kaeding使用大规模语言资料来编写频率词典的工作,是具有开创性的。
1959年,英国伦敦大学教授Randolph Quirk提出建立英语用 法调查的语言资料库,叫做SEU (Survey of English Usage)。由于当时技术条件的限制,SEU是用卡片来建立的,也不是机器可读的。后来Quirk把这些语言资源逐步转移到计算机上,使之成为机器可读的语料库,并根据这个语料库领导编写了著名的《当代英语语法》。
1964年,A. Juilland 和 E. Chang-Rodriguez 根据大规模的西班牙语资料编写了《西班牙语单词频率词典》。在收集语言资料时,注意到了抽样框架、语言资料的平衡性、语言资料的代表性 等问题。
1979年,美国 Brown 大学的Nelson Francis 和Henry Kucera 在计算机上建立了机器可读的BROWN语料库(布朗语料库)。这是世界上第一个根据系统性原则采集样本的平衡结构语料库,规模为100万词次,并用手工做了词类标注(part of speech tag¬ging)。BROWN 语料库是一个代表当代美国英语的语料库。
接着,英国Lancaster大学的Geoffrey Leech教授提出倡议,挪威Oslo大学的Stig Johansson教授主持完成,最后在挪威Bergen 大学的挪威人文科学计算中心联合建立了LOB语料库(LOB是 Lancaster,Oslo和Bergen的首字母缩写),规模与Brown语料库相当。这是一个代表当代英国英语的语料库。
欧美各国学者利用BROWN和LOB这两个语料库开展了许多大规模的研究,取得了引人注目的成绩。
从20世纪90年代初、中期开始,语料库逐渐由单语种向多语种发展,多语种语料库开始出现。目前多语种语料库的研究正朝着不断扩大库容量、深化加工和不断拓展新领域等方向继续发展。随着从事语言研究和机器翻译研究的学者对多语种语料库重要性的逐渐认识,国内外很多研究机构都致力于多语种语料库的建设,并利用多语种语料库对各种各样的语言现象进行了深入的探索。
近年来,语料库语言学的研究硕果累累,关于这些研究成果,我在《应用语言学中的语料库》(世界图书出版公司,2006) 一书的导读中已经做过介绍,有兴趣的读者可以参看。
在建设或研究语料库的时候,我们应当注意语料库的代表性、结构性和平衡性,还要注意语料库的规模,并制定语料的元数据规范。下面分别讨论这些问题。
1946年美国宾夕法尼亚大学的J. P. Eckert和J. W. Mauchly 设计并制造出世界上第一台电子计算机ENIAC。电子计算机惊人的运算速度,启发人们开始思考传统翻译技术的革新问题。为了探索如何用计算机来改进翻译技术,1952年在美国的MIT召开了第一次机器翻译会议,1954年美国乔治敦大学在国际商用机器公司(IBM)的协同下,用IBM-701计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,拉开了人类历史上使用计算机来处理自然语言的序幕。接着,苏联、英国、 日本也进行了机器翻译试验,机器翻译出现热潮。
为了推动机器翻译的研究,1954年美国出版了第一本机器翻 译的期刊MachineTranslation (《机器翻译》)。1962年美国成立了“机器翻译和计算语言学学会& (Association for machineTranslation and Computational Linguistics),为使期刊名与学会名称保持一致, 1965 年 Machine Translation 杂志改名为 Machine Translation and Computational Linguistics (《机器翻译和计算语言学》)。在杂志的封面上,首次出现了“Computational Linguistics”这个新学科的名字。但是“and Computational Linguistics”这三个单词是用特别小号的字母排印的,说明当时学者们对于“计算语言学”是否能够算为一门真正的独立的学科还没有确实的把握。根据这些史料, 我们认为,早在1962年,就出现“计算语言学”这个学科了, 尽管刚出现时还“犹抱琵琶半遮面”,但现在,它已登上了庄严的学术殿堂。
40多年来,计算语言学发展迅速,逐渐建立了完整的理论和方法,成为一门独立的学科,取得了很大成缋,在当代语言学中引人注目。
计算机的速度和存储量的增加,使得计算语言学在语音合成(speech synthesis )、语音识别(speech recognition )、文字识别 (character recognition )、拼写检查(spellingcheck )、语法检查 (grammar check )这些应用领域,都进行了商品化的开发。除了早期就开始的机器翻译(machine translation)和信息检索(infor¬mation retrieval) 等应用研究进一步得到发展之外,计算语言学在信息抽取(information extraction )、问答系统(question answering system)、自动文摘(text summarization)、术语的自动抽取和标引(term extraction and automatic indexing)、文本数据挖掘(text data mining)、自然语言接口 ( natural language interaction)、计算机辅助语言教学(computer-assisted language learning)等新兴的应用研究中,都有了长足的进展。计算语言学的技术在多媒体系统 (multimedia system)和多模态系统(multimodal system)中也得到了应用 。
语料库语言学与计算语言学之间的关系在过去40多年间,从事计算语言学应用系统开发的绝大多数学者,都把自己的研究局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法—语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从计算语言学应用系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,在计算语言学中就提出了大规模真实文本的自动处理问题。 1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学 会议(即COLING’90)为会前讲座确定的主题是:“处理大规模 真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理已经成为计算语言学在今后相当长时期内的战略目标。为了实现战略目标的转移,计算语言学需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”,所谓“理性主义”,就是指基于规则(rule-based)的方法;所谓“经验主义”,就是指以大规模语料库的分析为基础的方法,也就是基于语料库(corpus-based)的方法。语料库的建设和语料库语言学的崛起,为计算语言学战略目标的转移提供了语言资源方面的保证。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的方法至少是对基于规则的方法的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。在每两年召开一次的“自然语言处理中的经验主义方法会议” (Empirical Methods in Natural Lan¬guage Processing,简称 EMNLaP) 上, 基于语料库的机器学习方法成为了会议的主流议题。计算语言学和语料库语言学发生了鱼水难分的密切联系。 在21世纪,这种基于语料库的机器学习方法在计算语言学中 进一步以惊人的步伐加快了它的发展速度。我认为,计算语言学的加速发展在很大的程度上受到下面三种彼此协同的因素的推动。 第一个因素是带标记语料库的建立。在语言数据联盟(Lin-guistic Data Consortium, 简称 LDC) 和其他相关机构的帮助下 ,计 算语言学的研究者可以方便地获得口语和书面语的大规模语料 库,而且其中还包括数量可观的标注过的语料库,如宾州树库 (Penn Treebank )、布拉格依存树库(Prague Dependency Tree Bank)、宾州命题语料库(PropBank)、宾州话语树库(Penn Dis¬course Treebank)、 修辞结构库(RSTBank) 和Time Bank。 这些语料库是带有句法、语义、语用、修辞结构等不同层次标记的标准文本语言资源。这些标注语料库的存在使得计算语言学的研究 可以使用“有监督的机器学习方法”(supervised machine learn¬ing ) 来处理那些在传统 上非常复杂的自动句法分析和自动语义分析等问题。这些标注语料库也推动了计算语言学中有竞争性的评测机制的建立,不再采用传统的人工评测方法而采用机器自动评测方法,评测的范围涉及到自动句法分析、信息抽取、词义排歧、问答系统、自动文摘等领域。 第二个因素是统计机器学习技术的成熟。对机器学习日益增长的重视,导致了计算语言学的研究者与统计机器学习的研究者更加频繁地交流,彼此之间互相影响。支持向量机技术(support vector machine)、最大熵技术(maximum entropy)、多项逻辑回归 (multinomial logistic regression )、图式贝叶斯模型(graphical Bayesian models )等统计机器学习技术在计算语言学中得到了普 遍的应用,深受计算语言学研究者的欢迎。 第三个因素是高性能计算机系统的发展。高性能计算机系统的广泛应用,为机器学习系统的大规模训练和效能发挥提供了有利的条件,这在上一个世纪是难以想象的。 进入21世纪以来,除了有监督的机器学习方法之外,大规模 的“无监督统计学习方法” ( unsupervised statistical machine learn- ing)在计算语言学中也得到了广泛的关注。机器翻译(machine translation)和主题模扨(topic modeling)等领域中统计方法的进步,说明了在计算语言学中也可以只训练完全没有标注过的语料 库来构建机器学习系统,这样的系统也可以得到有成效的应用。 由于建造可靠的标注语料库要花费很高的成本,建造难度很大, 在很多问题中,这成为使用有监督的机器学习方法的一个限制性因素。因此,今后在计算语言学研究中将会更多地使用无监督的机器学习技术。我们相信,计算语言学和语料库语言学的联系将会更加密切,进一步发展到水乳交融的程度。人工智能的诗与远方,一文读懂NLP起源、流派和技术(外一篇)
《中国大百科全书》第三版首批条目发布!约21万中文条目已上线
冯志伟:“语法”定名胜于“文法” |《中国语文》1961年2月号
综合编辑:应用语言学研习
微信公众平台审核:梁国杰
选题宝 | 教育部人文社科项目申报线上培训——语言学专场(8.12日)
在线课程 | 人文社科研究方法——质化、量化、混合研究方法,报名马上学!
文献延伸阅读(研习人指引)
本平台友情整理相关文献索引链接,
欢迎感兴趣的朋友按需选购。
精选推荐
扫码即享限时特惠价52.84元,北大社直销快递包邮
扫码关注↑↑↑ 即可获取最新入群二维码!
目前已有 3.56 万语言文学、区域国别与
跨文化传播学研习者关注本公号
欢迎加入交流群,分享学习,共同进步!
亲爱的研习人,
一起来点赞、在看、分享三连吧!