卷首语 || 大数据文本分析与语料库语言学
回溯现代语料库语言学的发展史,毫不夸张地讲,是计算机科学缔造了它的传奇。语料库语言学惯用的方法,如索引、词频统计,其实并不是什么新鲜物。在中国古代,就已出现按照索引来编撰书籍,便于快速学习和查阅。上个世纪二十年代,陶行知与朱经农按照陈鹤琴所统计的汉字字频表,用一千多个常用汉字编写了《平民千字课》。在西方,索引的方法也用于对《圣经》的考据。但这些与语料库语言学并无直接关联。上世纪四十年代末,第一台电子计算机在美国问世,二十年后有了世界上首个大型电子语料库,即布朗语料库。J. Svartvik曾讲述过一件有关布朗语料库的轶事:创建人N. Francis带着装有布朗语料库的磁盘来到伦敦,遇到当时在伦敦大学学院执教的R. Quirk,他把一个大块头的磁盘放在Quirk的办公桌上,非常兴奋地说,这就是“Habeas Corpus”。两位年轻人也许不曾想到,随着计算机科学的飞速发展,今日的语料库早已今非昔比,其规模之巨大,用途之广泛,叹为观止。
2. 语料库语言学依何而兴?
语料库语言学的兴起有两个条件,一是语言学注重依赖真实文本研究意义,二是计算机技术的发展。但有了语料库,并不等于就有了语料库语言学;使用了语料库,并不等于在做语料库语言学的研究。由于早期计算机在运算与存储性能上很有限,无法大批量处理自然语言数据,因此,在布朗语料库问世之后的近二十年里,语料库语言学基本上处于萌芽状态,J. Sinclair等人只能开展一些其他类型的科研工作,如话语分析。现代语料库语言学的真正发轫是在上世纪八十年代,其中部分可归因于计算机科学的发展与成熟,而更为重要的是,通过计算机技术,可对海量的自然语言数据进行观察与分析,如Sinclair及其团队就基于COBUILD语料库,开展了大量的实证研究,提出了一系列重要的语料库语言学思想,奠定了现代语料库语言学的基石。之后,语料库语言学研究如雨后春笋、层出不穷。
3. 语料库语言学走往何方?
机遇与发展随行,荣誉与质疑共生。对质疑语料库语言学学科属性,并强调它纯属一种研究方法的人来说,语料库语言学是没有未来的。然而,语料库语言学不但有传承,更会有未来。对于语料库语言学从业者而言,语料库语言学的发展方向是摆在面前的一个现实问题,语料库语言学未来走往何方关乎该学科的兴衰与存亡。纵览语料库语言学的发展历程,我们清楚地看到,计算机、大型文本数据与语料库语言学生息与共。文本分析是语料库语言学研究的生命之源泉,脱离文本,语料库语言学的大厦则根基不稳。同时,也要探索语料库语言学在大数据分析中的应用价值。
供稿:编辑部责编:梦寒
《当代外语研究》
主编丨杨 枫
副主编丨吴诗玉、甄凤超
编辑部主任丨杨 丽
编辑 | 管新潮、邓梦寒
本刊网址:
http://ddwyyj.cbpt.cnki.net本刊邮箱:ddwyyj@sjtu.edu.cn
更多好文
请点击如下链接