其他
期刊好文 | 基于CiteSpace的国内语料库语言学研究概述(1998-2013)
图1所示为1998年至2013年CSSCI来源期刊登载语料库相关论文数量的分布走势。其逐年递增的总体趋势,一目了然。在数据所覆盖的14余年中,自2003年开始,似乎出现了明显的增长势头,到2010年到达顶峰,截止数据采集当日,该数据库仅收集了2013年第1、2期的文献。由于文献数量不全导致了2013年数量的减少。
708 篇语料库相关研究分布于不同的学科。其中最多的是语言学(586篇),其次是教育学(50篇)、图书情报学(29篇)以及新闻学与传播学(10篇)。语料库在语言学研究中的应用从1998 年至今日益增多,但在其他领域的应用在近三四年间才得到推广。本研究的数据显示,教育学和图书情报学领域的第一篇语料库相关研究发表于2002 年,新闻与传播学领域更晚,直到2007 年才出现第一篇。但从2010 年到2013 年初,这三个领域应用语料库的研究几乎占据了14 余年的一半,如教育学(24/50),图书情报学(13/29),新闻学与传播学(6/10)。由此可见,语料库已经越来越多地被其他领域的研究者掌握并应用到各自的研究中。
国内CSSCI 期刊中,登载语料库语言学文章最多的前10个刊物及其刊文数量为:《外语电化教学》(双月)93篇,《外语教学与研究》(双月)57篇,《现代外语》(季刊)39篇,《语言文字应用》(季刊)38篇,《当代语言学》(季刊)32篇,《外语界》(双月)32篇,《外语学刊》27篇,《外语与外语教学》(双月)27篇,《外国语》(双月刊)25篇,《中国外语》(双月)23篇。语言学尤其是外国语言学类CSSCI 刊物似乎都愿意接受语料库语言学研究稿件,这一定程度上也可看出各家刊物对语料库语言学这种新式研究方法的认可度。
对国内语料库语言学研究的总体趋势有了一个大致了解之后,我们将借助CiteSpace这一科学计量学的方法,进一步考察语料库语言学研究的基本情况,试图探测其发展趋势或动向,并以可视化的方式加以呈现。根据其节点类型,CiteSpace可以呈现四类可视化图谱,第一类是作者、研究机构、国别;第二类是参引文献(cited reference)之间以及被引作者(cited author)之间的被引关系;第三类是关键词和名词性术语;第四类是研究基金。本文将基于1998 到2013年初的数据,分别呈现并讨论前三类可视化图谱。
2.2 国内语料库语言学研究的主要研究单位及学者
图2中的圆圈(即节点)代表研究单位及学者,其大小代表该机构或学者发表的文章数量,数量越多,节点越大。节点由不同颜色的年轮构成,每一年轮对应文章的出版时间,由内到外,年轮对应的时间由远及近。节点间的连线代表作者与作者以及作者与机构之间的联系。为了让图谱中的文字更加清晰,笔者设定阈值为4,即图2中有文字标注的节点,均是发表文章大于等于4的学者和机构。
1998-2013年间,国内有一些产出语料库语言学研究成果较多的单位或机构,比如,北京外国语大学(及北京外国语大学中国外语教育研究中心)、上海交通大学(及上海交通大学外国语学院)、华南师范大学外国语言文化学院、上海外国语大学、南京大学外国语学院、对外经济贸易大学英语学院、清华大学外语系、华中科技大学、河南师范大学外国语学院、燕山大学外国语学院等。以上基本是外语院校,它们从事的主要是基于语料库的英语研究。在开展语料库研究的单位中,也有一些以中文为主要研究对象的机构,如教育部语言文字应用研究所、北京语言大学对外汉语研究中心、华中师范大学语言与语言教育研究中心等。有关汉语学界基于语料库开展的研究可参看Feng(2006)。
显然,图2提供的信息勾勒出了国内从事语料库语言学研究的主要机构。这些机构往往由一些核心成员形成研究团队,从而能持续产出有影响的研究成果。语料库语言学研究本质上离不开团队协作。团队的存在是语料库建设与研究成果产生的重要平台。国际范围内,兰卡斯特大学、伯明翰大学、伦敦大学学院、比利时鲁汶天主教大学、北亚利桑那大学等无不是学者聚集的团队。只有形成团队,构建学术交流机制,才能不断产生更新更好的语料库产品和学术成果。
2.3 语料库语言学的知识结构
“ 一篇文献的被引频次可以在一定程度上反映该文献的影响度”(刘则渊等 2008: 143)。理清国内语料库语言学具有高被引频次的文献,以及他们的被引用情况,能够帮助我们廓清该领域的知识结构,并通过找到文献的被引激增以及转折点,发现该领域的研究动向。图3呈现了国内语料库语言学研究的共被引图谱,并标注出了国内学者引用最多的前11条文献。根据节点大小,我们不难看出,被引频次从高到低依次为:Sinclair( 1991)、杨惠中(2002)、Hunston(2002)、桂诗春、杨惠中(2003)、王克非等(2004)、Baker(1993)、文秋芳等(2003)、卫乃兴(2005)、黄昌宁(2002)、李文中、濮建忠(2001)、何安平(2004)。这些高频次被引文献可分为两大类:一类是关于语料库的基础知识,如Sinclair(1991)、杨惠中(2002)、黄昌宁(2002);另一类是关于语料库的应用,在这一类中又可分为两类,一是语料库如何应用到教学和学习中,如Hunston(2002)、桂诗春、杨惠中(2003)、文秋芳等(2003)、卫乃兴(2005)、李文中、濮建中(2001)、何安平(2004),另一类是语料库如何应用到翻译研究中,如王克非等(2004)、Baker(1993)。
任何学科发展过程中都会经历一些具有重要意义的转折点,语料库语言学也不例外。CiteSpace通过计算每一个节点的中介中心度(betweenness centrality),继而标注出整个网络图谱中用以连接两个子网络的节点,即转折点。表1列举了国内语料库语言学的十个转折点,并按照其中介中心度由高到低排列。
此外,图3的知识图谱中还有一些在1998-2013 年之间被引激增的文献。“通过对被引激增文献的考察,我们可以追踪某一学科和研究领域的热点及其历时演变”(Chen 2012:597)。在本研究的数据中,我们探测到12个被引激增的文献,如图4所示,他们均是在过去13余年间语料库语言学研究的热点。最近三年出现引用激增的文献有Baker(1993)、Baker(2000)以及Tognini-Bonelli(2001)。前两条文献足以说明将语料库应用到翻译研究是当下的研究热点,后者则体现了近期语料库语言学领域中关于两种研究范式的争论,正是Tognini-Bonelli(2001)首次对基于语料库和语料库驱动的研究范式进行了区分。通过进一步观察这三条文献的施引文献(citing reference),甚至进一步锁定引文内容,便可证实我们的猜测。但如果想要更加直观地了解语料库语言学的研究热点,还需要通过节点类型为关键词(keyword)的知识图谱来呈现。
2.4 国内语料库语言学研究热点
关键词是每一篇文章核心内容的浓缩,如果某一关键词在该领域的文献中重复出现,就可以被视为研究热点,再将它们与所出版的时间相联系,就能发现某个领域在特定时期的研究热点。图5直观地列出了国内语料库语言学研究的部分关键词,如果将出现频率最高的前50个关键词进行合并和分类,我们可以大致将国内语料库语言学的研究热点分为三个研究取向:中介语研究(如“外语教学”、“学习者语料库”等)、翻译研究(如“平行语料库”、“翻译共性”等)和语料库语言学的研究议题(如“语义韵”、“搭配”等),前两者的出现频率远远高于后者,而且在相当长时期内,中介语研究和翻译研究都会是我国外语界语料库语言学研究的两个主要方面。图5中的信息还可以按年份来观察。图中左上方以翻译为主的节点(“平行语料库”、“语料库翻译学”等),揭示出近期国内语料库研究的主要关切点,而右下部分的关键词(“英语教学”、“学习者语料库”等)表明这些研究点势头趋缓。研究热点的转变反映了我国外语界语料库语言学研究的两大方面,即学习者语料库研究和双语语料库研究。学习者语料库研究的巅峰时期在过去的5-8年以前,最近五年左右,双语语料库成为国内语料库语言学研究的一个新的热点。另外,语料库语言学在中国发展至今,有关词块、搭配和意义单位的探讨在1998年至2011年期间一直为大家所关注,这与国际上语料库语言学研究趋势基本吻合,即有关短语学(phraseology)的探究始终是热门话题。其中有关意义单位的讨论出现更晚一些,到最近几年才陆续产出了一批成果。
还有一些最近三年新出现的关键词,由于出现频率少,节点不易显现,如“口译语料库”、“汉语中介语语料库”、“web语料库”、“社会语言学”、“中国立法语言语料库”、“中文文本情感分析”、“汉语方言”、“手语语料库”、“文献计量”等,但这些关键词更能体现目前语料库语言学的研究趋势。我们不难看出,语料库逐渐成为了各研究领域的工具,越来越多的学者带着各自的理论视角投入基于语料库的研究当中,因此语料库语言学领域产生了许多新的研究点。
本文对1998-2013年间国内语料库语言学研究所作的综述,主要基于量化数据和计算机自动分析,虽然有其自身的优势,但同时也有不足之处。一方面,CSSCI数据库本身存在一定的缺陷,所以基于该数据库的分析需要注意以下几点:第一,该数据库并未收录所有的好文,不同时间的检索结果并不一致;第二,某些文献的发表年代有误;第三,同一文献的引用格式不同(如作者的姓名和出版机构的拼写格式),这有可能影响网络节点之间的连线。对以上问题,我们都进行了详细的手工排查和批量处理,但仍不能保证没有错误。另一方面,我们需要清醒地认识到,学术评价不是单凭文献引用率可以最终裁判的。文献的高频引用更多反映的是学术关注度,而不是学术品质本身。譬如说,我们不能简单地认为,从文献引用率看,学习者语料库热度已退,因此我们就放弃了对学习者中介语的探究。相反,我们更应认真思考,如何突破中介语对比分析法的局限,探索出新的研究增长点。事实上,中介语研究仍然大有可为。同理,我们不能简单地认为某位学者被引用率高,其研究的水准一定高。文献引用有其特点,比方说,某领域的综述类文章远比某专题的实证研究更易被引用,出版早的文献较新文献引用率会偏高。
概而言之,基于文献引用的综述让我们可以更全面地了解“普罗大众”的学术关注,使我们在开展研究时,不至于闭目塞听、闭门造车。对于学术观点和研究价值的判定,新的研究选题的发掘,则在于多读、多问、多思、多行。
《语料库语言学》(半年刊)是教育部人文社科重点研究基地中国外语教育研究中心创办的语料库语言学专业期刊,由北京外国语大学中国外语教育研究中心承办,外语教学与研究出版社出版。
本刊旨在记录和追踪国内外语料库研究的进展与动态,使之成为了解语料库语言学的重要窗口。本刊期望《语料库语言学》能够促成中国语料库学界作出既具本土特色,又与国际学界接轨的优质研究。本刊的主要栏目有:语料库与中介语研究、语料库与语言对比研究、语料库与翻译研究、语料库与话语研究、语料库的研制与创建、语料库软件的设计与开发、书刊评介。
电子邮箱:bfsucrg@sina.com 投稿网址:http://ylyy.chinajournal.net.cn (点击下方阅读原文直接进入)