查看原文
其他

学术观点 | 刘迪麟、雷蕾 :学术词表研究综述

通讯君 语言学通讯 2021-03-17

点击蓝字关注我们 Spring comes

学术词表研究综述 


作者简介


 

刘迪麟教授

刘迪麟,阿拉巴马大学英语系教授,博士,博士生导师,研究方向:语料库语言学、二语习得。


 

雷蕾教授

华中科技大学外国语学院教授,博士,博士生导师,研究方向:语料库语言学、学术英语。







摘    要学术英语词汇在学术英语教学和学习中占有重要地位,直接影响学习者的学术成就。本文对AWL, AVL, ASWL等学术英语词表进行综述,并就词表开发中有关学术词汇还是通用词汇、词族使用、词形还原、词形标注等重要问题展开讨论。最后,本文就未来学术英语词表研究提出建议。

关键词:学术词表; 学术词汇; 学术词表开发; 综述; 

基金项目:国家社科基金项目“短语学视阈下中国学者学术英语语篇研究”(项目编号:15BYY179)的阶段性研究成果

文献来源刘迪麟,雷蕾.学术词表研究综述[J].外语教学,2020,41(02):34-38+50.    

学术观点 | 姜峰、Ken Hyland:互动元话语:学术语境变迁中的论辩与修辞

学术观点 | 胡光伟、刘焰华:学科性与学术语篇

学术观点 | 雷蕾:中国英语学习者学术写作句法复杂度研究


本文获得作者与期刊授权独家公众号媒体推送,欢迎其他媒体转载


1.引言


学术英语词汇研究一直是学术英语研究热点问题,究其原因,学术英语词汇不仅在学术英语学习中占有重要地位(Coxhead 2000; Gardner & Davies 2014; Lei & Liu 2016),而且是词汇学习的难点(Cohen et al.1979)。如,学术词汇学习成功与否直接影响到学习者的阅读能力(Corson 1997; Nagy et al. 2012)和学术成就(Goldenberg 2008; Jacobs 2008; Masrai & Milton 2018)。

为帮助学习者学习学术英语词汇,开发各类英语词表以服务于英语词汇,特别是学术英语词汇的教学和学习成为了学术英语研究的重要任务(Coxhead  2000; Gardner & Davies 2014; Lei & Liu  2016;Nation & Webb 2011; Snow & Kim 2007)。比如,West (1953)开发了通用英语词表(General Service List, GSL),该词表列出了英语中常用的2000个词族(word family)。又如,早期研究者开发了数个学术英语词表,如Campion & Elley (1971)开发的学术英语词汇表(Academic Vocabulary List)、Praninskas (1972)开发的美国大学单词表(American University Word List),以及Lynn(1973)和Ghadessy(1979)利用教科书中学生标记的词汇开发的学术词表。Xue & Nation(1984)则将上述四个早期的学术词表合并,开发了大学单词表(University Word List)。当代最成功、影响最广泛的学术英语词表当属Coxhead(2000)开发的学术单词表(Academic Word List,AWL)。据2018年6月Scopus数据库检索结果,Coxhead(2000)一文已被引用600余次,在学术词汇相关文献中被引量最高。基于Coxhead(2000)开发词表的方法,学者们也开展了一系列相关研究(Chen & Ge 2007; Hyland & Tse 2007; Li & Qian 2010; Liu & Han 2015; Martinez et al. 2009; Neufeld et al.2011; Valipouri & Nassaji 2013; Wang et al. 2008; Yang 2015)。最近,Gardner & Davies (2014)采用全新方法开发了学术词汇表(Academic Vocabulary List,AVL),该研究也引起了学界关注(Durrant 2016; Hsu 2018; Lei & Liu 2016)。有意思的是,Dang et al.(2017)还开发了学术口语单词表(Academic Spoken Word List, ASWL),这是迄今唯一一份学术口语词表。

本文首先介绍AWL,VL和ASWL等学术英语词表及其相关研究,然后就词表开发中涉及的学术词汇还是通用词汇、词族使用、词形还原、词形标注等重要问题展开讨论,最后就学术英语词表相关研究进行展望。



2.学术英语词表


2.1 学术单词词表(AWL)

AWL(Coxhead 2000)基于学术文本语料库开发而成,由人文、商业、法律及科学四个学科组成,每门学科下皆有七个子学科领域(共28个),合计350万英文词。该词表采用了如下三条标准来提取学术单词。

1)专业性(specialized occurrence)。入选AWL的单词必须是通用英语词表(GSL)(West 1953)中没有出现的词汇,以保证入选词汇是英语中最常用2000个词族以外的单词。使用该条标准的理据在于,学习者在学习学术英语词汇之前,应该已经掌握GSL中最常用2000个词族中的单词。

2)广泛分布(range)。入选AWL的单词须在上述人文、商业、法律、科学四个学科中各出现至少十次,且在28个子学科领域中至少出现在15个子学科领域中。该条标准要求入选词汇相对高频,且广泛分布在大多数学科领域,以保证入选词汇是通用学术英语词汇,而不是少数学科领域的词汇。

3)高频(frequency)。入选词汇须在语料库中出现100次或以上。

根据Coxhead(2000)研究结果,AWL词表共包含570个词族,覆盖了学术英语语料库大约10%的词汇量。Coxhead (2000)认为,GSL词表能覆盖75%左右学术英语语料库的词汇,与AWL词表合计覆盖约85%学术文本的词汇。也就是说,如果学习者掌握了GSL和AWL两个词表,并掌握了学习者所在学科的基本英语术语,那么他们可以基本无障碍阅读所在学科的学术文本(Nation 2006; Schmitt et al. 2017)。

关于AWL词表,有三点值得关注:一是该词表排除了其单词必须是通用英语词表(GSL)(West 1953)中的词汇;二是该词表采用了与GSL词表(West 1953)类似的词族方法。比如,以approach为词元的词族包含了approachable,approached,approaches,approaching和unapproachable几个单词。采用词族方式开发词表的理据是,学习者在掌握基本的英语构词规则之后,能够轻松通过构词规则习得该词族的所有单词(Bauer & Nation1993; Nation 2016; Schmitt 2000);三是该词表对单词没有进行词形还原(lemmatisation) 处理,也没有标注单词的词性。我们将在下文讨论上述三个问题。

AWL词表发布后,引起了学界的强烈兴趣,研究者们围绕AWL进行了大量研究。相关研究主要围绕两个方面展开:一是对AWL词表覆盖率进行验证,二是采用AWL词表方法,开发其他诸多学科的学术英语词表。

一方面,多项研究从不同学科和文本类型对AWL词表的覆盖率进行了验证,比如,理工科和社会科学文本(Hyland & Tse 2007)、医学论文(Chen & Ge 2007)、农学论文(Martinez et al. 2009; Munoz 2015)、工程教科书(Ward 2009)、应用语言学研究论文(Vongpumivitch et al.2009)、金融文本(Li & Qian 2010)、中学科学教科书(Coxhead et al.2010)、中学英语教科书(Noorizan et al.2017)、大学生学术写作文本(Csomay&Prades 2018)、学术英语口语(Dang&Webb 2014)等。上述研究结果显示,AWL在各类学术文本中的覆盖率约为6%(Munoz2015)至11%(Valipouri & Nassaji 2013; Ward 2009),其在学术英语口语中的文本也达到了5%左右(Dang & Webb 2014)。上述研究表明,AWL在各类学术文本中具有较好的词汇覆盖率,可广泛运用于各学科学术英语的词汇教学和学习。

另一方面,研究者也采用AWL方法(Coxhead 2000),开发了各学科的学术英语词表。比如,Wang et al.(2008)开发了医学英语学术词表,Valipouri & Nassaji(2013)开发了化学英语学术词表,Liu & Han(2015)开发了环境科学英语学术词表,Yang (2015)开发了护理专业英语学术词表,Hsu (2018)开发了传统中医英语学术词表。上述研究表明AWL的词表开发方法具有广泛的适用性,也说明了针对不同学科开发词表的必要性(Hyland & Tse 2007)。

2.2 学术词汇词表(AVL)

Gardner&Davies(2014)采用全新方法开发了AVL。AVL基于一百二十多万词的当代美国英语语料库(Corpus of Contemporary American English,COCA)学术文本开发而成,其具体收录单词标准如下。

1)频次比率(ratio)。为保证收录AVL的单词为学术英语高频词,而不仅仅是通用英语高频词,要求收录单词在COCA学术文本中的频次是其在COCA非学术文本中的频次的1.5倍。此条标准保证收录AVL的单词是真正的高频学术词汇,而不仅仅是通用英语的高频词汇。

2)广泛分布(range)。收录AVL的词汇须至少出现在7个学科领域(共9个学科领域),且在每个学科领域中出现的频次至少为20%的期望频次。此条标准保证收录AVL的单词能较广泛分布在9个学科领域。

3)均匀分布(dispersion)。收录AVL词汇的均匀分布指数(Juilland’s D)需在0.80或以上。此条标准保证收录AVL的单词在9个学科领域中均匀分布。

4)学科指数(discipline measure)。收录AVL的词汇在某个学科领域的频次不能超过其在该学科期望频次的3倍或以上。此条标准保证词汇不是某学科领域特别高频出现的单词。

通过上述方法开发的AVL包含3015个学术英语单词,覆盖了近14%的英国国家语料库(British National Corpus,BNC)和COCA学术文本。另外,Gardner & Davies (2014)从AVL随机抽取了570个单词组成词族,发现该570个单词词族也大约覆盖了14%的BNC和CO-CA学术文本,比AWL 7%的覆盖率高出一倍。

值得注意的是,AVL不仅在收录单词方法上与AWL不同,还有两点与AVL存在巨大差异:其一,AVL不预先排除GSL等词表的高频词,而是通过频次比率方法保证收录的单词是学术词汇,因此其收录的词汇有可能来自GSL等高频词词表。不排除高频词的原因在于,有些高频词在通用英语与学术英语中的词义可能完全不同。如,arrest在普通英语中表示“逮捕”,而其在医学英语中表示“心跳停止”。因此,不能仅根据某个单词是否为GSL等高频词表收录作为其是否为学术英语词的依据之一(Lei & Liu 2016)。AVL没有采用词族方法收录词汇,而是对所有单词进行还原处理和词性标注。

AVL也引起了学界的关注。比如,Hartshorn & Hart(2016)系统对比分析了AWL和AVL,发现就收录词汇而言,AWL和AVL重合的词汇不到三分之一,但在词汇频次和对学习者英语熟练水平(proficiency levels)的解释力方面,它们之间没有差别。又如,Lei & Liu(2016)大致采用AVL方法,开发了医学英语词汇表(Medical Academic Vocabulary List,MAVL)。与Gardner&Davies(2014)不同的是,除了遵循上述AVL收录词汇的四条标准以外,Lei&Liu(2016)还设置了最低频次标准(minimum frequency),即收录MAVL的单词的频次至少为28.57次每百万词。设置该标准的原因在于,Gardner & Davies(2014)收录单词的四条标准并不能保证收录的单词为高频词,也就是说,即使单词满足了Gardner&Davies(2014)的四条标准,该单词也可能是低频词,因而不应该被收录进词表。

2.3 学术口语单词表(ASWL)

先前开发的诸多学术英语词表均为学术笔语词表,而Dang et al.(2017)另辟蹊径,开发了迄今为止第一份学术口语词表(ASWL)。ASWL基于1300万词的学术口语语料库开发而成,该语料库包含讲座(lectures)、研讨会(seminars)、实验室讨论(labs)、导师个别指导(tutorials)等学术口语语体,涵盖四大学科门类(纯硬科学、应用硬科学、纯软科学、应用软科学)和24个子学科领域。ASWL采用了如下标准收录单词。

1)广泛分布(range)。收录ASWL的单词必须在四个学科门类中都出现,且至少出现在12个子学科领域中,以保证收录ASWL的单词较广泛分布于各个学科领域。

2)高频次(frequency)。收录ASWL的单词的频次至少为350次(26.9次每百万词),以保证收录的单词具有较高频次。

3)均匀分布(dispersion)。收录ASWL的单词的均匀分布指数(Juilland’s D)至少为0.60,以保证收录ASWL的单词较均匀分布于24个子学科领域。

ASWL共有1741个词族。根据频次分成四个级别,其中第一级别覆盖学术英语口语语料库81.62%,四个级别合计覆盖近90%。相比AWL与AVL的覆盖率(约4%和24%),ASWL取得了较好的学术口语覆盖率。

另外,采用与Dang et al. (2017)类似的方法,Dang(2018a)和Dang(2018b)还分别开发了硬科学和软科学英语口语词表。

值得注意的是,与Coxhead (2000)相似,Dang et al. (2017)、Dang (2018a)和Dang (2018b)也采用了与GSL词表 (West 1953) 类似的词族方法,没有对单词进行词形还原处理,也没有标注单词的词性。但与Coxhead (2000)不同的是,Dang et al. (2017)、Dang (2018a)和Dang (2018b)并没有排除GSL(West 1953)等通用英语高频词表中的词汇。



3.几个重要问题


3.1 学术词汇与通用词汇

虽然学界对学术英语词汇进行了多年的探索,但到底如何定义学术词汇却一直没有定论。Nation & Webb(2011)将英语词汇分成四个级别,一级为以GSL (West 1953)为代表的高频词,二级为以AWL(Coxhead 2000)为代表的学术词汇,三级为各个学科的术语词汇,四级为低频词。Nation&Webb(2011)认为,语言学习者往往先学习高频词,再学习学术词汇,最后学习术语词汇和低频词汇。虽然Nation & Webb(2011)将词汇分成了四个级别,并认为学术词汇是学习者学习了高频词汇之后才需要学习的词汇,但他们并没有对学术词汇做出明确定义。另外,高频词中也可能包含学术词汇,而学术词汇也可能是高频词(Gardner & Davies 2014),因此,高频词汇与学术词汇多有交叉,故不能将二者明确区分开来。这也是为什么今年新开发的词表如AVL(Gardner & Davies 2014),MAVL(Lei & Liu 2016), ASWL(Dang et al.2017)等并没有像AWL(Coxhead 2000)那样将GSL(West 1953)等高频词排除在词表以外。有些研究只是对什么是学术词汇做了工作定义,如Gardner & Davies(2014)和Lei & Liu(2016)将学术词汇定义为在学术文本中高频出现且比其在非学术文本中更高频出现、分布广泛且均匀的词汇。

也有学者质疑是否存在通用于各学科领域的核心学术词汇。如Hyland & Tse(2007)研究了AWL词汇在科学、工程、社会科学等领域的使用情况,发现AWL词汇虽然在该研究所使用的语料库中覆盖率达到了10%,但很多词汇在各个学科领域的频次、分布、搭配和意义大相径庭。也就是说,可能并不存在通用的核心学术词汇,因此应该为各个学科的语言学习者提供适用于本学科领域的学术英语词表。另外,Durrant (2016)对AVL词汇的研究也有类似发现,即AVL词汇在不同类型文本和不同学科的频次不尽相同,只有少数单词(其3015个单词中只有427个单词)在90%学科中高频出现。

Masrai & Milton(2018)通过比照BNC/COCA分级词表,研究了AWL词汇的分布情况,发现AWL词汇大多分布在英语最常用的3000级别词汇中。该研究结果的原因在于,AWL词汇是排除了GSL词表中最常用的1000和2000级别词汇后产生的。该研究的一项重要启示是,AWL的重要性可能并不一定体现在其包含的是学术词汇,而在于其包含的是相对高频的3000级别词汇。

上述Hyland & Tse(2007)和Masrai & Milton(2018)的研究发现至少为今后学术词表研究提供了两点启示:1)需要开发不同学科领域的学术词表(Lei & Liu 2016; Valipouri & Nassaji 2013; Yang 2015);2)高频词与学术词汇之间并没有明晰的界限,高频词可能是学术词汇,学术词汇也可能是高频词,因此,没有必要在开发学术词表时排除高频词(Dang et al. 2017;Gardner & Davies 2014; Lei & Liu 2016)。

3.2 词族使用、词形还原和词性标注

近年来开发的学术英语词表,在词汇展现方式上明显分为两大阵营,一是以AWL(Coxhead 2000)为代表的以词族来展现词汇的词表(Dang et al.2017;Wang et al. 2008; Ward 2009; Yang 2015),二是以AVL(Gardner & Davies 2014)为代表的以单个单词来展现词汇的词表(Lei&Liu 2016)。

之所以以词族来展现词汇,一是可能受到GSL(West 1953)等经典词表使用词族方式展现词汇的影响;二是可能受Bauer & Nation(1993)等学者影响,认为词元(lemma)应该包括词干(stem)及其曲折变化,即一个词族应该由词干及其曲折变化和派生变化构成;三是认为学习者在掌握了基本的英语构词规则之后,能够轻松通过构词规则习得该词族的所有单词(Bauer & Nation1993; Nation 2016; Schmitt  2000)。

然而,有学者对使用词族方式展现词汇提出了质疑。首先,同一个词族的词汇可能意义不尽相同(Nagy et al. 2012)。比如,同一词族的reactionary与reactivation的核心意义并不相同(Gardner&Davies 2014)。其次,同一词族中的同一词汇如果词性不同,意义可能相去甚远(Gardner & Davies 2014;Lei & Liu 2016)。比如approach一词,如果不区分词性,根本不清楚其收录学术词表时,是做名词表示“方法”,还是做动词表示“接近”。最后,学习者不一定能通过词干来学习词汇(Brezina & Gablasova 2015;Gardner & Davies 2014),因为他们可能并未完全掌握英语构词规则(Nagy et al.2012;Schmitt & Zimmerman 2002)。

我们完全同意上文中对使用词族方式展现词汇的质疑,因此在开发MAWL词表(Lei&Liu 2016)时采用了词形还原、以词元方式展现词汇、对词汇标注词性的做法。除了上述原因之外,我们认为没有必要以词族方式展现词汇的原因还有两个:1)以词族方式展现词汇会增加学习者学习负担。如,AWL词表表面上看只有570个单词或词族,但如果仔细观察会发现,它实际上包含了3100多个不同词形的单词。将某个词元的不同曲折变化和派生变化放在一个词族内,无形中增加了学习者负担。一个典型的例子是以revolution为词元的词族,包含revolutionary, revolutionaries, revolutionise, revolutionised, revolutionises, revolutionising, revolutionist, revolutionists, revolutionize, revolutionized, revolutionizes, revolutionizing, revolutions等词形;2)既然学习者在掌握基本英语构词规则后能够轻松通过构词规则习得该词族所有单词(Bauer & Nation 1993; Nation 2016; Schmitt 2000),那么上述在词族中列出所有曲折和派生变化的方式,既无必要又影响了词表的表面效度(face validity)。



4.结语


学术词汇研究及学术词表开发是学术英语研究中的重要课题。本文在简述学术词表发展历史之后,较详细地综述了近年来开发的AWL (Coxhead 2000), AVL(Gardner & Davies 2014),ASWL (Dang et al.2017)等几个重要学术英语词表及其相关研究,并对词表开发中如何处理学术词汇与通用高频词汇的关系、词汇展现方式、词形还原与词性标注等重要问题进行了讨论。

展望学术词表相关研究,我们可以从如下几个方面继续开展工作:1)由于各学科领域学术英语词汇存在较大差异(Durrant  2016; Hyland & Tse 2007),我们可继续开发不同学科的学术英语词表,以满足各学科语言学习者的学习需求;2)鉴于当前学术词表研究大多集中在英语学术词表研究,今后亦可开发其他语种学术词表,比如为汉语国际教育学生开发汉语学术词表等;3)口语学术词表的研究尚处于起步阶段,其主要局限性在于学术口语语料库资源的匮乏。另外,现有的三个学术英语口语词表 (Dang 2018a, 2018b; Dang et al.2017)均基于AWL词表 (Coxhead 2000)方法开发,今后研究在加大编撰学术口语语料库的基础上,可尝试采用AVL词表(Gardner&Davies 2014)方法开发新型的学术口语词表;4)今后研究可根据已有学术词表资源,开发词汇学习和测试工具(Townsend&Kiernan 2015);5)学术词汇研究不应仅仅局限于学术词表的研究,亦可尝试学术英语多词单位研究(Coxhead et al.2017; Liu 2012; Simpson-Vlach & Ellis 2010)、学术英语搭配词表(Ackermann & Chen 2013; Lei & Liu 2018)等领域的研究。





研究方法网课| 语言学通讯推荐

科研助力 | 学术研究方法网课集锦

科研助力 | “中国文学的趣读与研究” 网课推荐

科研助力 | 扎根理论听不懂,NVivo实操做不出,科研论文没救了?

文学悦读 | 美国加州圣玛利学院徐贲教授:这些文艺复兴时期经典为何有必要精读?

文学悦读 | 谭晶华教授:日本文学的黄金时代——从夏目漱石到川端康成

文化解读 | 复旦大学葛剑雄教授《不一样的中国史》

文化解读 | 复旦大学葛兆光教授:用故事讲透全球史

学术杂谈 | 牛津大学博士严飞:社会学看待“污名化”与社会突发事件

科研助力 | 扎根理论听不懂,NVivo实操做不出,科研论文没救了?

科研助力 | 香港中文大学李连江教授的统计学课

科研助力 | 中山大学王宁教授的方法课:30讲带你搞懂质性研究方法

科研助力 | 浙江大学耿曙教授:研究设计35讲

科研助力 | 加利福尼亚州立大学刀熊博士:7大实证研究方法逐个击破


编者按


参考文献略,欢迎查阅《外语教学》2020年第2期纸质原文。

本文编辑:上海理工大学 孙雨

本文审核:吉林大学  王峰

公众号外联:我们优先推广免费的学术会议、讲座、研修等项目。收费项目与商务合作需支持劳务费,请联系dianzishu@126.com 商谈

欢迎加入语言学通讯读者群,添加时请自报实名,单位和研究方向

语言学及应用语言学加群联系人:sflsy0803 孙老师

文学与翻译加群联系人:Nicole2397471433 李老师

继续为各位提供有益的学术资讯

长按二维码赞赏语言学通讯

八万学者关注了

语言学通讯

科研助力|学术观点|专著推荐|期刊动态|教师研修|招贤纳士|博士招生|读书小札

请留下你指尖的温度

让太阳拥抱你

记得这是一个有情怀的公众号

我知道你在看

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存