好文荐读|鲍贵:二语词汇习得任务有效性准实验设计质量调查
好文荐读(第四十期)二语词汇习得任务有效性准实验设计质量调查。
“好文荐读”不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~
二语词汇习得任务有效性准实验设计质量调查
鲍贵
南京工业大学外国语言文学学院
文章简介
文章来源:鲍贵.二语词汇习得任务有效性准实验设计质量调查[J].解放军外国语学院学报,2021,44(06):9-17+158.
摘要:研究设计的质量是方法论严谨性的有力体现,但是其评估需要精细化。本文以二语词汇习得任务有效性研究为例,遴选2001—2019年间在中外应用语言学重要期刊上发表的28个准实验,从比较组、目标词、统计控制和结果测量4个质量维度评价准实验设计的质量。中文核心期刊论文中准实验设计在比较组质量和结果测量质量方面好于SSCI期刊论文,但是在目标词质量和统计控制质量方面不及SSCI期刊论文。在两类期刊论文中,目标词质量和被试特征变量统计控制质量都有待提高。
关键词:二语词汇习得;准实验设计;任务有效性;统计控制;结果测量;
感谢《解放军外国语学院学报》授权推广,全文下载请点击文末“阅读原文”。
零、引言
二语习得研究的中心目的是确立二语学习多元变量之间错综复杂的关系,探究影响二语学习效果的因果机制,推动二语习得理论与实践的深入开展。为此,研究者通常使用实证研究方法,包括调查、相关研究和实验。实验被认为是因果推断的“黄金标准”,将相关研究向前推进一步,力图通过严谨的设计和标准化的操作程序考察变量之间的因果关系。由于在理论探索和教学实践等方面的重要性,实验研究的质量一直受到二语习得研究者的重视,也取得了一些有价值的发现,如描述性统计量报告不充分和忽略统计假设(Plonsky2013;鲍贵2020)。
由于实验设计的复杂性和研究领域的特质性,前期评价性研究缺乏精细化和针对性。鉴于此,本研究以二语词汇习得任务有效性为主题,通过构建的系统化评估方案,考察国内外重要期刊论文在实验设计质量多级体系上的变化特点和不足之处,为后期教学实验研究的推进提供方法论参考。
一、文献综述
研究方法论质量,又称方法论严谨性,体现研究设计的内在逻辑性、研究实施的有效性和研究结论的置信度,是学术研究推动学科发展的决定因素,也是研究价值的最有力体现。近年来,二语习得研究者开始重视对研究方法论质量的评价。评价性研究大体上沿着3个方向。第一个方向是综合评价涉及不同主题的实验研究的质量(Plonsky2013、2014;吴旭东、张文忠2002;鲍贵2020)。第二个方向是针对同一个主题的实验研究的质量开展综合评价或元分析(Plonsky&Gass2011;Goo&Mackey2013;Yanagisawa&Webb2021)。这两个方向的评价性研究涉及研究设计、测量和统计分析等多个方法论质量的维度。第三个方向是统计分析评价(Lindstromberg2016;赵蔚彬2002;鲍贵2012)。不同方向的研究指出了前期研究存在的一些方法论问题,为我们评价他人研究和开展后期研究提供了重要启示。例如,吴旭东、张文忠(2002)发现,半数以上的研究未能提供理论框架、研究假设、实验方案和实验步骤等关键信息,也未能提供实验各阶段之间的内在关系。这些问题警示我们,实验研究是系统化的学术探究,研究者只有厘清实验设计、实验实施和统计分析三大模块之间的内在逻辑,完整透明地报告研究过程和结果,方能体现研究的价值。
虽然方法论综合评价能使我们在宏观上把握研究的各个要素,但是落实到具体某个领域的研究,这些评价结果赋予我们的启示难免有局限性,因为对不同研究领域中实验研究方法论的评价会面临具体的问题。因此,以上第二个方向的评价性研究或许由于研究主题的聚焦而使方法论评价比第一个方向的评价性研究更具有针对性,对研究者的实际指导意义更大。二语词汇习得任务有效性是二语习得研究的热点,理论上受到Hulstijn&Laufer(2001)提出的投入量假设的驱动,本研究以之为评价主题。出于以下3点考虑,本研究只评价被试间准实验设计(quasiexperimental designs)的质量。其一,被试间准实验设计的特点是被试向实验条件的分配通常以自然组(intact group,如班级)为单位,而不是以被试个体为单位进行随机分配。由于教学条件的限制和对生态效度(ecological validity)的重视,准实验设计是二语习得研究者开展理论检验和教学实践改革的重要手段。其二,相对于随机化实验设计,因果推断在被试特征变量控制方面对准实验设计提出了更高的要求,有必要在质量评价方面区别对待两类实验。其三,前期实验设计质量的评价大都没有提供有力的理论支撑,评价的精细化程度不足。譬如,Plonsky&Gass(2011)以二语教学互动研究为主题,调查实验设计质量包括的4个要素,即随机分配、对照组/比较组、前测和后测,但是质量的评价只考虑期刊论文中是否包含这些要素,没有对这些要素的质量开展细致剖析。本研究以效度(validity)理论框架(Shadish etal.2002)为支撑,对被试间准实验设计的质量进行多维度的等级划分,希冀评估结果更完整,对研究者更具指导意义。
二、研究方法
(一)研究问题
本研究以二语词汇习得任务有效性为主题,利用构建的准实验设计质量评价体系调查国内外重要期刊论文的质量,主要回答以下两个问题:
1)任务有效性研究使用的被试间准实验设计的质量如何?
2)中文核心期刊和SSCI期刊论文使用的被试间准实验设计的质量有何异同?
(二)期刊论文筛选
本研究利用以下数据库检索符合筛选条件的(北大)中文核心期刊和SSCI期刊论文:中国知网(CNKI)期刊全文数据库、ERIC、Google、google scholar、Linguistics and Language Behavior Abstracts(LLBA)。另外,本研究还利用近期刊发的论文中列出的参考文献查找相关论文。论文检索的关键词为:投入量、任务、词汇、involvement load、task、vocabulary、second language、foreign language。论文首轮筛选遵循以下两条标准:第一,论文于2001—2019年间发表在应用语言学类中文核心期刊和SSCI期刊,研究主题和设计与投入量假设检验有关;第二,论文报告实验研究,针对目标词后测知识开展推理统计分析,比较不同任务(如填空、造句和作文)对二语词汇附带习得的有效性。
首轮筛选得到中文核心期刊论文17篇,SSCI期刊论文32篇。第二轮筛选使用被试间设计的准实验研究,排除使用随机化设计和被试内设计的实验研究,筛选标准是:1)研究者以平行班或自然组为单位将被试指定或随机分配到不同的实验条件;2)实验之初以被试为单位开展随机分配,但是在统计分析时有选择地使用被试数据的实验也归为准实验。经过筛选,13篇中文核心期刊论文(鲍贵2016;鲍贵、李景怡2017;黄燕2004;孔繁霞、王歆2014;雷蕾,等2007;李燕2008;汪红、甄薇薇2014;魏梅、王立非2011;杨秀丽2013;岳颖莱,等2012;张艳、任爱军2013;周浩2008;周榕、吕丽珊2010)和12篇SSCI期刊论文(Bao2015;Hulstijn&Lanfer2001;Laufer2003;Laufer&Rozovsiki-Roitblat2015;Laufer&Girsai2008;Lu2013;Min2008;Nassaji&Hu2012;Nguyen&Boers2019;Yang etal.2017;Zou2016、2017)使用被试间准实验设计。在筛选的SSCI期刊论文中,有一篇论文(Hulstijn&Laufer2001)报告两个实验,另一篇论文(Laufer2003)报告3个实验。因此,本研究评价的中文核心期刊论文数和SSCI期刊论文数分别为13和15。
(三)准实验设计质量评价体系
本研究对准实验设计质量的定义依据研究的效度,包括内部效度(internal validity)、构念效度(construct validity)、统计结论效度(statistical conclusion validity)和外部效度(external validity)(Shadish etal.2002)。内部效度指结果测量的差异在多大程度上能够归因于不同的实验处理。构念效度指实验处理和结果测量的操作体现构念定义的充分性。统计结论效度指对实验处理与结果之间关系所做推理的合理性。外部效度指研究发现向实验条件和情境之外推广的合理性。本研究评价的被试间准实验设计有以下主要特点:1)实验设计形式为非对等比较组设计(nonequivalent comparison-group designs),即各个任务组大都为自然班,在一个或多个被试特征变量上相似或对等,但是在其他未被测量的变量上可能不对等;2)实验目的是比较不同任务对目标词(被试实验前不认识的二语单词或短语)知识习得的有效性;3)实验前需要确定被试不认识或可能不认识的目标词;4)结果测量变量是被试对目标词后测的知识。
根据以上特点,本研究对被试间准实验设计质量的评价包括4个维度:比较组质量、目标词质量、统计控制质量和结果测量(即目标词知识后测)质量。下页表1概括了准实验设计质量的评价维度及其等级划分,在同一维度上的等级越高,设计的质量就越高。
在本研究评价的准实验设计中,任务实施基本上在课堂进行,且任务时间普遍较短,目标词知识评分较为简单和客观,因而使用非对等比较组设计能够控制历史、成熟和测量工具变化等内部效度威胁(鲍贵2019)。此类设计面临的主要内部效度威胁是被试选择偏差,因而有必要检查不同任务组被试实验前在与结果测量相关的重要被试特征变量上的可比性。任务组在重要被试特征变量上的可比性越强,内部效度就越高。表1把比较组质量分为3个等级。随着等级的提高,体现任务组之间可比性的证据就越强。
就目标词选择而言,最好的方法是对被试实施备选词(和短语)前测,只保留被试实验前不认识的词作为目标词,以提高目标词的构念效度和实验研究的内部效度。由于研究条件的限制,研究者可能没有对被试实施目标词前测,而是使用其他方法,如让任课教师确认被试应该不认识的目标词。在表1中,目标词质量包括4个等级。一级提供的目标词效度证据最弱;二级在实验前测量非参与者的目标词知识。这些非参与者与被试处于同一个年级、同一个二语水平或者比被试的二语水平更高,选择非参与者不认识的目标词增加被试也不认识目标词的可能性。在三级上,研究者对被试开展目标词前测或实验后核查,报告被试实验前认识少量目标词或者未报告目标词前测或核查结果。在四级上,研究者对被试开展目标词前测,确定所有被试均不认识的目标词,使用生造词也包含在这一等级。生造词的使用避免了目标词前测,也排除了被试认识目标词的可能性。
统计控制质量涉及对被试实验前的目标词知识和语言水平等重要被试特征变量的控制。被试特征变量的控制同实验前目标词知识的控制一样都有助于提高实验研究的内部效度和统计结论效度。在等级水平的排序上,优先考虑被试实验前的目标词知识,因为实验前的目标词知识与目标词后测知识直接相关,比其他被试特征变量更直接地影响因果推论的效度和统计结论效度。表1据此将统计控制质量分为4个等级。在等级划分时,如果研究者没有对被试实验前的目标词知识进行测量或实验后核查,或者未报告目标词前测或核查的结果,从而没有实施对实验前目标词知识统计控制,这样的设计归为一级或二级。如果某个设计中被试没有目标词前测知识或者目标词为生造词,统计分析(如t检验或方差分析)只检验不同任务在目标词后测上的差异,则该设计归为三级。如果统计分析对被试已有的目标词实验前知识实施了控制,则该设计也归为这一级。对目标词实验前知识的统计控制包括:1)使用增分(gain scores,被试后测分值与前测对应分值的差异)检验(如对增分开展t检验或方差分析);2)在目标词后测评分时将被试在前测中认识的目标词记作0分或者只考虑被试实验前不认识的目标词(如计算被试仅在后测认识的目标词数占被试实验前不认识的目标词总数的百分比),然后对调整的后测分数开展统计分析;3)将目标词前后测作为被试内因素(即测量时间)的不同水平,采用混合设计方差分析(任务与被试内因素的交互效应等同于利用增分作为因变量的任务效应);4)将目标词前测作为协变量,对后测或增分开展协方差分析(对后测和增分开展协方差分析得到的任务效应相同)(Hendrix etal.1978)。四级上的统计控制在三级上增加对被试特征变量的控制。
表1报告的最后一个设计质量评价维度是结果测量,涉及目标词知识的测量类别和测量时间。因为词汇学习任务可能促进词汇知识的多个方面,如词形、词义知识或接受性、产出性词义知识,词汇知识的多个测量或综合测量比单一测量更能体现任务的相对有效性,避免单一方法偏差(mono-method bias)产生的构念效度威胁。相对于一次后测(如即时后测),多次后测(如即时后测和延时后测)能够考察任务效应随着时间的变化,提高研究结果的外部效度。测量质量的等级划分优先考虑测量的构念效度,再考虑测量的外部效度,因为在实验研究中,构念效度(和内部效度)通常比外部效度更重要。表1据此将结果测量质量分为4个等级。
(四)准实验设计质量等级标注与统计分析
各个维度上的准实验设计质量指标的标注依据表1。3位研究助手独立参与了标注工作。一位助手标注所有的准实验设计质量指标和等级,另外两位助手分别标注了中文核心期刊论文和SSCI期刊论文中使用的准实验设计的质量指标和等级。对标注不一致的地方开展讨论,直至达成一致意见。研究者本人对所有的标注进行二次校对。
对本研究两个问题的回答采用描述性统计,在整体上和期刊类别上分别计算与比较在每个质量评价维度上每个等级包括的准实验数占比(百分比)。对于任一维度,高级别上的准实验数占比越大,设计的整体质量就越高。
三、结果与讨论
本节依据比较组、目标词、统计控制和结果测量4个质量维度报告前期研究使用被试间准实验设计的整体质量,比较中文核心期刊和SSCI期刊在各个维度方面设计质量的异同。
(一)比较组质量和目标词质量
图1显示了比较组和目标词质量在不同设计质量等级上的实验数占比。
左图显示,比较组质量大体上位于两极,位于一级(13/28)和三级(14/28)的准实验数相当,只有一个准实验设计中的比较组质量位于二级。从期刊类别来看,中文核心期刊和SSCI期刊论文中的比较组质量差异明显。具体而言,在中文核心期刊论文中,比较组的质量主要位于三级(11/13),很少有实验使用质量位于一级的比较组(2/13),说明绝大多数准实验研究检验并确保了各个组实验前在若干重要被试特征变量(如二语水平或词汇水平)上的可比性,减少了被试选择偏差对实验研究内部效度构成的威胁。相比之下,在SSCI期刊论文中,比较组的质量主要位于一级(11/15),位于三级的实验研究很少(3/15),说明大多数研究者未能提供强有力的证据论证比较组之间在重要被试特征变量上的可比性,削弱了研究的内部效度。
右图显示,目标词质量总体上较好。多数实验通过前测或实验后核查确定被试实验前是否认识目标词,在一半的实验(14/28)中目标词质量位于三级,在约三分之一的实验中(9/28)目标词质量位于四级。这表明,绝大多数研究者认识到检查被试在实验前是否认识目标词的重要性。三级和四级上实验数占比的差异意味着依据研究者的主观评价和同级水平非实验参与者的测试结果等方法确定目标词不够准确,有损目标词的构念效度。SSCI期刊论文中目标词质量总体上好于中文核心期刊论文中的目标词质量。相对于SSCI期刊论文,中文核心期刊论文中目标词质量等级分布较为分散。中文核心期刊论文中有一个实验使用的目标词质量位于一级,3个实验使用的目标词质量位于二级。相比之下,SSCI来源期刊论文中只有一个实验使用的目标词质量位于二级,其他实验使用的目标词质量均处在更高的等级。SSCI期刊论文中位于三级的实验数占比(9/15)比中文核心期刊中的实验数占比(5/13)高出20%。但是,在SSCI期刊论文中位于四级的实验数占比(5/15)与中文核心期刊中的实验数占比(4/13)接近。值得一提的是,中文核心期刊中有两个实验使用生造词。生造词的使用降低了研究发现的生态效度(外部效度的一个类别)。如果排除这两个实验,则SSCI期刊中位于四级的实验数占比会明显高于中文核心期刊中的实验数占比。以上结果表明,两类期刊论文的作者都应该投入更多的精力确保被试实验前不认识目标词,特别是中文核心期刊论文的作者。
(二)统计控制质量和结果测量质量
图2显示了统计控制和结果测量质量在不同等级上的实验数占比。
左图显示,统计控制质量大体上位于一级和三级。一级上的实验数占比约为三分之一(9/28),三级上的实验数占比接近三分之二(17/28),没有准实验设计中的统计控制质量达到四级水平。统计控制质量在一级水平上的准实验研究者可能认为,虽然有被试实验前认识个别目标词,但是这不会明显地影响内部效度,加之统计分析能力有限,因而采用相对简单的统计检验方法,如独立组t检验或单因素方差分析。针对三级水平上的准实验设计,有些实验成功地使被试实验前不认识目标词(包括使用生造词),采用了与第一个水平上的实验相同的统计检验方法;另有一些研究者则通过调整目标词后测计分方法、使用前后测或增分等消除被试实验前的目标词知识对任务效应的影响。这些研究者比第一个水平上的研究者更注重减少目标词实验前知识对内部效度的威胁。相对于较强的对被试实验前目标词知识的统计控制,很少有研究者考虑对被试特征变量的统计控制。具体而言,在二级水平上,只有两个实验(两类期刊中各有一个实验)在统计分析时考虑了对被试特征变量的控制,但是在四级水平上,没有实验考虑对被试特征变量的控制。出现这一结果的主要原因是大多数研究者或许认为各个任务组被试来自教学平行班或者在语言水平等重要被试特征变量上相似,没有必要在统计分析时控制这些变量,使分析趋于复杂。我们认为,在统计分析中增加作为因素的被试特征变量,不仅有助于在被试特征变量与任务没有交互作用时提高任务效应的推广度或者在有交互作用时限定任务效应的条件,推断投入量假设的合理性,而且还有助于减少实验误差,提高统计效力。即便不把被试特征变量作为因素而是作为协变量,在统计假设满足时使用协方差分析也会提高统计效力。两类期刊对比发现,中文核心期刊论文中统计控制的质量总体上不及SSCI期刊论文。这主要表现在一级和三级上的实验数占比。在中文核心期刊论文中约一半的实验使用的统计控制位于一级(6/13),在SSCI期刊论文中则只有五分之一的实验位于一级(3/15)。在三级水平上,中文核心期刊论文中的实验数占比接近一半(6/13),SSCI期刊论文中的实验数占比则接近四分之三(11/15)。出现这一差异的主要原因是较多的SSCI期刊论文作者使用了目标词前测或实验后核查,并在统计分析时考虑到了被试实验前的目标词知识,说明这些作者更重视与被试实验前目标词知识有关的内部效度问题。
右图显示,结果测量质量主要位于二级和四级。超过四分之一的实验(8/28)在测量质量方面位于二级。四级水平显示,超过一半的实验(15/28)不仅使用了多元词汇知识测量检验任务效应,而且在时间维度上检验任务效应的外部效度。SSCI期刊论文中只有一个实验使用了单一测量和一次后测。整体上看,超过三分之二(19/28)的实验中研究者意识到多元测量的重要性,超过五分之四(23/28)的实验中研究者意识到检验词汇记忆保持(即时间维度上的外部效度)的重要性。两类期刊比较发现,测量质量的差异主要体现在二级和四级。在目标词知识采用单一测量时,SSCI期刊论文的作者比中文核心期刊论文的作者更注重时间维度上的外部效度(实验数占比分别为6/15和2/13)。但是,目标词知识采用多元测量时,中文核心期刊论文的作者比SSCI期刊论文的作者更重视时间维度上的外部效度(实验数占比分别为9/13和6/15)。
四、结语
实验设计是对研究问题或研究假设的直接回答,因而在方法论中发挥统领作用。本研究以28项二语词汇习得任务有效性准实验研究为例,首次利用构建的准实验设计质量评价体系评价非对等比较组设计的质量。中文核心期刊论文中的准实验设计在比较组的质量和结果测量质量方面好于SSCI期刊论文,但是在目标词质量和统计控制质量方面不及SSCI期刊论文。两类期刊论文中的设计质量在每个评价维度上均有不同程度的波动性,目标词质量和被试特征变量统计控制的质量尤其需要提升。
非对等比较组设计是二语习得实验研究常用的设计形式。在实验设计阶段,研究者要充分考虑与结果测量变量密切相关的变量,尤其要考虑与结果测量变量相同的前测变量,在研究条件许可时尽可能地增加设计要素(如前测和测量时间),提高研究的内部效度、构念效度和外部效度。研究者同时也应对如何选择恰当的统计分析方法提高统计结论效度做到心中有数,努力实现实验设计要素之间环环相扣,综合提高研究质量。
作者简介
鲍贵,男,安徽滁州人,教授,博士,硕士生导师,研究方向为应用语言学、应用统计学和自然语言处理。现为南京工业大学外国语言文学学院教授。
本文来源:《解放军外国语学院学报》
点击文末“阅读原文”可跳转下载课程推荐
往期推荐
“语言学心得交流分享群”“语言学考博/考研/保研交流群”
今日小编:慧 伟
审 核:心得小蔓
转载&合作请联系
"心得君"
微信:xindejun_yyxxd
点击“阅读原文”可跳转下载