冯志伟:语料库语言学研究与计算语言学
欢迎关注我们,一站式获取海量语言学资源
本文来源:世图语言学公众号 2016-02-16
敬请星标应用语言学研习,喜欢请点赞,真爱请分享⭐
冯志伟
语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。
语料库应该按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体。
语料库一般可分为如下类型:
•按语料选取的时间划分,可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus)。
•按语料的加工深度划分,可分为标注语料库(annotated corpus)和非标注语料库(non-annotated corpus)。
•按语料库的结构划分,可分为平衡结构语料库(balance structure corpus)和自然随机结构的语料库(random struc¬ture corpus )。
•按语料库的用途划分,可分为通用语料库(general corpus) 和专用语料库(specialized corpus )。专用语料库又可以进
一步根据使用的目的来划分,例如,又可以进一步分为语言学习者语料库(learner corpus)、语言教学语料库(ped-agogical corpus )。
•按语料库的表达形式划分,可分为口语语料库(spoken corpus)和文本语料库(text corpus)。
•按语料库中语料的语种划分,可分为单语种语料库(mono- lingual corpus)和多语种语料库(multilingual corpus)。多语种语料库又可以再分为比较语料库(comparable corpus) 和平行语料库(parallel corpus )。比较语料库的目的侧重于特定语言现象的对比,而平行语料库的目的侧重于获取对应的翻译实例。
•按语料库的动态更新程度划分,可分为参考语料库(refer¬ence corpus) 和监控语料库(monitor corpus)。参考语料库原则上不做动态更新,而监控语料库则需要不断地进行动态更新。
早在1897年,德国语言学家Kaeding就使用大规模的语言材料来统计德语单词在文本中的出现频率,编写了《德语频率 词典》(J- Kaeding,Haufigkeitsworterbuch der deutschen Sprache,Steglitz : published by the author,1K97 )。由于当时还没有计算机, Kaeding使用的语言材料不是机器可读的(machinereadable ), 所以他的这些语言材料还不能算真正意义上的语料库,但是Kaeding使用大规模语言资料来编写频率词典的工作,是具有开创性的。
1959年,英国伦敦大学教授Randolph Quirk提出建立英语用 法调查的语言资料库,叫做SEU (Survey of English Usage)。由于当时技术条件的限制,SEU是用卡片来建立的,也不是机器可读的。后来Quirk把这些语言资源逐步转移到计算机上,使之成为机器可读的语料库,并根据这个语料库领导编写了著名的《当代英语语法》。
1964年,A. Juilland 和 E. Chang-Rodriguez 根据大规模的西班牙语资料编写了《西班牙语单词频率词典》。在收集语言资料时,注意到了抽样框架、语言资料的平衡性、语言资料的代表性 等问题。
1979年,美国 Brown 大学的Nelson Francis 和Henry Kucera 在计算机上建立了机器可读的BROWN语料库(布朗语料库)。这是世界上第一个根据系统性原则采集样本的平衡结构语料库,规模为100万词次,并用手工做了词类标注(part of speech tag¬ging)。BROWN 语料库是一个代表当代美国英语的语料库。
接着,英国Lancaster大学的Geoffrey Leech教授提出倡议,挪威Oslo大学的Stig Johansson教授主持完成,最后在挪威Bergen 大学的挪威人文科学计算中心联合建立了LOB语料库(LOB是 Lancaster,Oslo和Bergen的首字母缩写),规模与Brown语料库相当。这是一个代表当代英国英语的语料库。
欧美各国学者利用BROWN和LOB这两个语料库开展了许多大规模的研究,取得了引人注目的成绩。
从20世纪90年代初、中期开始,语料库逐渐由单语种向多语种发展,多语种语料库开始出现。目前多语种语料库的研究正朝着不断扩大库容量、深化加工和不断拓展新领域等方向继续发展。随着从事语言研究和机器翻译研究的学者对多语种语料库重要性的逐渐认识,国内外很多研究机构都致力于多语种语料库的建设,并利用多语种语料库对各种各样的语言现象进行了深入的探索。
近年来,语料库语言学的研究硕果累累,关于这些研究成果,我在《应用语言学中的语料库》(世界图书出版公司,2006) 一书的导读中已经做过介绍,有兴趣的读者可以参看。
在建设或研究语料库的时候,我们应当注意语料库的代表性、结构性和平衡性,还要注意语料库的规模,并制定语料的元数据规范。下面分别讨论这些问题。
1946年美国宾夕法尼亚大学的J. P. Eckert和J. W. Mauchly 设计并制造出世界上第一台电子计算机ENIAC。电子计算机惊人的运算速度,启发人们开始思考传统翻译技术的革新问题。为了探索如何用计算机来改进翻译技术,1952年在美国的MIT召开了第一次机器翻译会议,1954年美国乔治敦大学在国际商用机器公司(IBM)的协同下,用IBM-701计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,拉开了人类历史上使用计算机来处理自然语言的序幕。接着,苏联、英国、 日本也进行了机器翻译试验,机器翻译出现热潮。
为了推动机器翻译的研究,1954年美国出版了第一本机器翻 译的期刊MachineTranslation (《机器翻译》)。1962年美国成立了“机器翻译和计算语言学学会& (Association for machineTranslation and Computational Linguistics),为使期刊名与学会名称保持一致, 1965 年 Machine Translation 杂志改名为 Machine Translation and Computational Linguistics (《机器翻译和计算语言学》)。在杂志的封面上,首次出现了“Computational Linguistics”这个新学科的名字。但是“and Computational Linguistics”这三个单词是用特别小号的字母排印的,说明当时学者们对于“计算语言学”是否能够算为一门真正的独立的学科还没有确实的把握。根据这些史料, 我们认为,早在1962年,就出现“计算语言学”这个学科了, 尽管刚出现时还“犹抱琵琶半遮面”,但现在,它已登上了庄严的学术殿堂。
40多年来,计算语言学发展迅速,逐渐建立了完整的理论和方法,成为一门独立的学科,取得了很大成缋,在当代语言学中引人注目。
计算机的速度和存储量的增加,使得计算语言学在语音合成(speech synthesis )、语音识别(speech recognition )、文字识别 (character recognition )、拼写检查(spellingcheck )、语法检查 (grammar check )这些应用领域,都进行了商品化的开发。除了早期就开始的机器翻译(machine translation)和信息检索(infor¬mation retrieval) 等应用研究进一步得到发展之外,计算语言学在信息抽取(information extraction )、问答系统(question answering system)、自动文摘(text summarization)、术语的自动抽取和标引(term extraction and automatic indexing)、文本数据挖掘(text data mining)、自然语言接口 ( natural language interaction)、计算机辅助语言教学(computer-assisted language learning)等新兴的应用研究中,都有了长足的进展。计算语言学的技术在多媒体系统 (multimedia system)和多模态系统(multimodal system)中也得到了应用 。
人工智能的诗与远方,一文读懂NLP起源、流派和技术(外一篇)
《中国大百科全书》第三版首批条目发布!约21万中文条目已上线
冯志伟:“语法”定名胜于“文法” |《中国语文》1961年2月号
综合编辑:应用语言学研习
微信公众平台审核:梁国杰
选题宝 | 教育部人文社科项目申报线上培训——语言学专场(8.12日)
在线课程 | 人文社科研究方法——质化、量化、混合研究方法,报名马上学!
文献延伸阅读(研习人指引)
本平台友情整理相关文献索引链接,
欢迎感兴趣的朋友按需选购。
精选推荐
扫码即享限时特惠价52.84元,北大社直销快递包邮
扫码关注↑↑↑ 即可获取最新入群二维码!
目前已有 3.56 万语言文学、区域国别与
跨文化传播学研习者关注本公号
欢迎加入交流群,分享学习,共同进步!
亲爱的研习人,
一起来点赞、在看、分享三连吧!