卷首语 || 大数据文本分析与语料库语言学

甄凤超当代外语研究 2021-09-19

1. 语料库语言学从何而来？

回溯现代语料库语言学的发展史，毫不夸张地讲，是计算机科学缔造了它的传奇。语料库语言学惯用的方法，如索引、词频统计，其实并不是什么新鲜物。在中国古代，就已出现按照索引来编撰书籍，便于快速学习和查阅。上个世纪二十年代，陶行知与朱经农按照陈鹤琴所统计的汉字字频表，用一千多个常用汉字编写了《平民千字课》。在西方，索引的方法也用于对《圣经》的考据。但这些与语料库语言学并无直接关联。上世纪四十年代末，第一台电子计算机在美国问世，二十年后有了世界上首个大型电子语料库，即布朗语料库。J. Svartvik曾讲述过一件有关布朗语料库的轶事：创建人N. Francis带着装有布朗语料库的磁盘来到伦敦，遇到当时在伦敦大学学院执教的R. Quirk，他把一个大块头的磁盘放在Quirk的办公桌上，非常兴奋地说，这就是“Habeas Corpus”。两位年轻人也许不曾想到，随着计算机科学的飞速发展，今日的语料库早已今非昔比，其规模之巨大，用途之广泛，叹为观止。

2. 语料库语言学依何而兴？

语料库语言学的兴起有两个条件，一是语言学注重依赖真实文本研究意义，二是计算机技术的发展。但有了语料库，并不等于就有了语料库语言学；使用了语料库，并不等于在做语料库语言学的研究。由于早期计算机在运算与存储性能上很有限，无法大批量处理自然语言数据，因此，在布朗语料库问世之后的近二十年里，语料库语言学基本上处于萌芽状态，J. Sinclair等人只能开展一些其他类型的科研工作，如话语分析。现代语料库语言学的真正发轫是在上世纪八十年代，其中部分可归因于计算机科学的发展与成熟，而更为重要的是，通过计算机技术，可对海量的自然语言数据进行观察与分析，如Sinclair及其团队就基于COBUILD语料库，开展了大量的实证研究，提出了一系列重要的语料库语言学思想，奠定了现代语料库语言学的基石。之后，语料库语言学研究如雨后春笋、层出不穷。

3. 语料库语言学走往何方？

机遇与发展随行，荣誉与质疑共生。对质疑语料库语言学学科属性，并强调它纯属一种研究方法的人来说，语料库语言学是没有未来的。然而，语料库语言学不但有传承，更会有未来。对于语料库语言学从业者而言，语料库语言学的发展方向是摆在面前的一个现实问题，语料库语言学未来走往何方关乎该学科的兴衰与存亡。纵览语料库语言学的发展历程，我们清楚地看到，计算机、大型文本数据与语料库语言学生息与共。文本分析是语料库语言学研究的生命之源泉，脱离文本，语料库语言学的大厦则根基不稳。同时，也要探索语料库语言学在大数据分析中的应用价值。

供稿：编辑部责编：梦寒

《当代外语研究》

主编丨杨枫

副主编丨吴诗玉、甄凤超

编辑部主任丨杨丽

编辑 | 管新潮、邓梦寒

本刊网址：
http://ddwyyj.cbpt.cnki.net本刊邮箱：ddwyyj@sjtu.edu.cn

更多好文

请点击如下链接

卷首语 || 学者的光芒与锋芒

卷首语 || 高等外语教育的国家意识、跨学科精神及应用理念

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

卷首语 || 大数据文本分析与语料库语言学

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

生成图片，分享到微信朋友圈

卷首语 || 大数据文本分析与语料库语言学

您可能也对以下帖子感兴趣