新书速递 | 《第二语言听力测评研究与实践》(剑桥语言测试研究丛书)
导 读(摘选)
一、
简介
《第二语言听力测评研究与实践》是由Michael Milanovic和Cyril Weir担任总主编、剑桥大学出版社出版的语言测试系列丛书Studies in Language Testing(简称SiLT)的第35卷,由Ardeshir Geranpayeh和Lynda Taylor主编,与第26卷Examining Writing(Shaw & Weir, 2007)、第29卷Examining Reading(Khalifa & Weir, 2009)、第30卷Examining Speaking(Taylor, 2011)一起构成英语语言能力测评研究与实践的完整系列。
二、
主要内容
听力卷共分为八章,第一章是引言,介绍本专辑的语境、目标读者、目的及重点。第二章到第七章运用Weir(2005)提出的社会—认知框架,从六个维度对听力能力测试效度展开讨论,并对剑桥大学英语考评部(Cambridge ESOL)的剑桥通用五级考试(Cambridge Main Suite,简称MS)进行效度验证。这六个维度分别是考生特征(第二章)、认知效度(第三章)、语境效度(第四章)、评分效度(第五章)、结果效度(第六章)和准则关联效度(第七章)。第八章是结论,对六个维度的效度验证进行了总结,重申了社会—认知框架作为Cambridge ESOL系列考试进行效度验证框架的适切性,并指出未来研究方向。
01
考生特征
O’Sullivan(2000)的框架把考生特征分为三大类:身体/生理特征、心理特征和经验特征。这些特征之间相互影响,甚至相互依赖。每一个特征在效度验证时都应予以考虑,以减少偏颇。考试开发者需要考虑考试的语境和目标考生,识别出会在该语境中影响公平性的因素。
Cambridge ESOL从了解考生入手,根据了解到的信息设计、开发、实施考试。报名参加考试的考生均需填写一份考生信息表(Candidate Information Sheet,简称CIS)。收集这些信息主要出于以下两个目的:1)根据CIS数据从不同维度对考生进行分析,并跟踪考生的考试表现,确保考试没有偏颇;2)在修订考试的过程中考虑考生的典型特征。
Cambridge ESOL听力考试包括多种任务类型,以求在内容与方法上达到某种平衡,尽量使个性差异的影响降到最低。多种应答形式的采用,减少了考生认知风格不同而导致的差异。在情感图式方面,则是通过一个“禁忌”清单,避免那些会让考生产生不良反应的话题。考试形式固定,使经过准备的考生不觉陌生。所有这些都有助于减少考生的压力。
特别值得一提的是Cambridge ESOL遵循国际惯例,在不影响考试完整性,即不改变考试构念的前提下,对有特殊需要的考生做出特殊安排,这既是法律上的要求,也是道义上的要求。
02
认知效度
认知效度指的是考试任务成功地诱发了考生的一系列认知过程,类似于真实听力环境中一个熟练的听众所经历的过程。就听力而言,是指语言使用者能够在不同层面处理信息。
从信息处理方式而言,听力所对应的是三类活动,即感知、语言、概念。这三类活动与人们所熟知的Anderson(2000)的解码、分析、应用三层级处理模型相对应。“应用”这一表述略有歧义,因此本专辑中用意义建构和语篇建构取而代之。
本专辑采用的认知信息处理模型综合了Cutler & Clifton(1999)和Field(2009)的一些特征。两个模型综合的结果与Anderson(2000)的三层级处理模型基本一致,只是把其中的两个层级又做了细分。
Cambridge ESOL采用上述框架对MS进行认知效度验证,参考资料包括《剑桥通用五级考试教师手册》、《Cambridge ESOL研究报告》、《剑桥通用五级考试命题指南》(简称《命题指南》)以及五个级别的考试样卷。
录音材料和测试任务的认知效度验证主要围绕以下三个问题展开:
1)考试任务所诱发的认知过程与真实世界中的认知过程相似度有多高?
2)MS所涉及的认知过程在多大程度上覆盖了听力框架中所包括的过程?代表性如何?
3)从认知要求的角度来看,MS的梯度如何?
首要任务是考查听力材料与真实世界中话语的相似度,由此确定解码过程是否与真实世界的听力活动相似。MS的录音材料包括独白和对话,采用对话时,注意包括不同性别的说话者,多于三个说话者时,则尽量采用有区别性特征的声音,同时注意不同口音的合理比例。录音材料的长度、信息密度、抽象程度则随着考试级别的提高而加大,呈现出较合理的梯度。
就听力框架中的信息处理过程而言,研究人员在对MS的信息焦点做比较以后发现,这些考试均覆盖了框架中所涉及的信息处理过程,且在认知要求方面表现出较好的梯度。
03
语境效度
语境效度事关测试任务的代表性,与测试任务的语言要求以及完成语言任务的场景有关。语境效度与认知效度、评分效度相互影响。Weir(2005)提出的语境参数包括任务背景、语言要求和说话者。
就任务背景而言,Cambridge ESOL在其网站上为考生提供了MS的试卷结构、任务类型,以及每一个任务的应答方式。所有考试均强调考查考生的交际能力,即处理意义的能力。多种任务类型及应答方式的采用确保了听力考试构念的覆盖。在任务顺序方面遵循由易到难的原则。听力材料长度、听力考试时间逐级增加,体现了较好的梯度。
就语言要求而言,MS的文本包括提供信息和表达意义两大类。低级别考试的文本主要是提供信息类,高级别考试的文本则主要是表达意义类,只有最高级别的CPE中有一个部分是探究性的文本。
就说话者而言,对MS的样卷分析表明KET和PET语速较慢,但并没有超出目标语使用域的范围。FCE、CAE和CPE的听力录音则基本是自然会话语速。Cambridge ESOL在口音方面的把握既考虑考生在多种口音并存的国际语境下能正常工作,同时也注意避免特别重的口音,以避免偏颇。
总而言之,Cambridge ESOL通过详细的《命题指南》确保其各级别考试所用的文本及测试任务符合语境效度各参数要求,与级别难度和目标语使用域相匹配。
04
评分效度
社会—认知框架下的评分效度参数包括考试难度、考试偏颇、内部一致性、测量误差、评分。
Cambridge ESOL在听力试题命制过程中采用了题库系统(Local Item Banking System,简称LIBS),题库中所有题目均被标定到一个与CEFR对应的难度量表上,保证了各级别难度的适切性和不同级别之间的梯度。
就考试偏颇而言,Cambridge ESOL把重点放在听力考试的命题环节,通过《命题指南》、话题清单、“禁忌”清单等手段予以控制。此外,还通过大样本、涉及不用一语背景考生的试测以及考后的项目功能差异分析这些方式予以避免。
Cambridge ESOL坚持认为,信度是效度的一部分,没有信度就没有效度。因此任何一种信度估算法都需要考虑考试的构念效度。在MS的听力考试中,信度系数指标采用Cronbach’s α系数,效度验证结果显示信度均在0.74以上,测量误差为原始分2分,组合信度均在0.9以上。
就评分及分数报告而言,值得一提的是Cambridge ESOL提供的分数报告的丰富性。考生得到的信息包括以下内容:标准分(与能力标准相关联的量表上的分数)、等级(如C等)、考生在每一部分的表现(优秀—好—临界—弱)、考生的强项与弱项(图示方式呈现,具有一定的诊断功能)。除此之外,考生还会收到一份正式的考试证书,包括考生在考试中的整体表现以及在CEFR中的等级,以帮助考生更好地了解等级所代表的意义。
简而言之,Cambridge ESOL已经建立起历年参加考试的考生信息库,根据考试用途、考试目的、决策属性等方面确定每一项考试的合理的精度。使用Rasch模型使得Cambridge ESOL可以确定每一个级别的平均难度、难度分布和题目数量。
05
结果效度
结果效度事关分数解释,包括考试对个人在课堂和工作中的影响、考试对机构和整个社会的影响。结果效度与准则关联效度应该在测试的同一阶段进行验证,唯有一个例外,即在考试开发环节对决策的后果进行考量,这是一种伦理学层面的考量。社会—认知框架中的结果效度在很大程度上受到Messick(1989, 1996)提出的整体效度观的影响。McNamara(2006)指出,虽然Messick从未用过“结果效度”这个概念,他用的是“构念效度的结果”(1996: 241),但“测试使用后果”是他的重要关切。他认为仅讨论内容效度、准则效度、构念效度是不够的,分数使用的社会后果必须予以考虑。
Cambridge ESOL关注考试对教育领域以及对社会的影响,做过大量专题研究,在SiLT系列就有六卷涉及考试的结果效度研究。不仅如此,Cambridge ESOL长期以来关注其考试对考生以及其他涉考者的影响,他们每年都会对相关问题进行研究并报告研究结果。他们提出的VRIPQ(validity, reliability, impact, practicality, quality)效度验证模型是持续改进考试的一个例证,这一模型与Messick的整体效度观相呼应,也与Bachman & Palmer(1996)的测试有用性框架六个属性中的四个(validity, reliability, impact, practicality, VRIP)相重叠。
这一部分还列举了一些涉及剑桥系列考试中听力考试的后效或影响研究,研究资料包括常规性的考试开发与修订过程、Cambridge ESOL的研究报告(涉及考试开发、效度验证等),以及针对一些具体考试项目的反拨或影响研究。
06
准则关联效度
就准则关联效度而言,有三个方面需要考虑:同一项考试的不同试卷之间的可比性、一项考试与其他考试之间的可比性、考试与外部语言标准或语言框架的关联性。就MS而言,这三个方面密切关联。完全标准化的过程和基于Rasch模型的题库系统确保MS是一个统一的、连贯的体系,也确保了同一项考试的不同试卷之间的可比性、一项考试与其他考试之间的可比性以及与CEFR各级别之间的关联性。
考试开发的标准化程序确保了同一项考试的不同试卷之间的可比性。MS的听力考试均历经一个包括委托、预编辑、编辑、试测、试测结果审查、试卷编制、审查、校对各环节的过程。在这个过程中,Cambridge ESOL还开发了技能清单,每一项考试还有详细的《命题指南》。在试卷编制过程中,Cambridge ESOL采用基于统一量表的题库系统LIBS。标准化的程序还要求听力试卷难度控制在特定的范围之内,以达到该级别考试的平均难度值。
就不同考试间的可比性而言,Bachman等(1995)的研究通过因子分析证明FCE和TOEFL的听力部分载荷到了同一个一阶因子上,且在很大程度上是单维的因子。这项研究还分析了两项考试听力部分的文本和试题,结果表明两项考试的听力部分具有很高的相似度。对Cambridge ESOL而言,其内部各种考试之间的可比性通过同样的考试开发过程、在同一个题库系统中把试题标定到一个量表上而得以实现。
就考试与语言标准或语言框架的可比性而言,Cambridge ESOL的考试与CEFR之间的关系一直十分密切。Cambridge ESOL作为利益相关方,为CEFR的A2和B1级别描述语的修订提供了反馈,这些描述语也为KET的考试说明奠定了基础。反之,CEFR的B2级别借鉴了Cambridge ESOL的考试,C2级别就是根据CPE考试来定义的。
三、
本书特色
作为听、说、读、写技能系列的一部分,本专辑在格式和方法上与其他三个专辑保持高度一致,继续在Weir(2005)提出的效度验证框架——社会—认知框架下理解与构思服务于某种测试目的的听力能力构念,并继续以Cambridge ESOL的系列考试为研究对象,对跨越不同水平等级的听力考试以及社会—认知框架在实践中的应用进行审视。作为一部听力能力测试专辑,本书在以下两个方面表现出很强的系统性。其一,本专辑讨论了从听力考试的开发到评分再到后效(或影响)研究的全过程。其二,本专辑详细论述了影响听力考试表现的诸多因素,如输入文本特征、测试任务特征等等。这种系统性有利于读者全面了解听力测试从理论到实践的各个层面,对于听力考试的开发与研究具有很大的参考价值。
特别值得一提的是本专辑所采用的效度验证框架。测试效度验证是语言测试领域一个永恒的主题。在我们根据考生在测试中的表现做出任何推论或决策前,首先应对该测试的效度进行验证。为了帮助测试开发者与使用者更好地理解效度并进行效度验证,在过去的三、四十年中,众多专家学者相继从不同角度提出了不同的理论与方法,如效度整体观(Messick, 1989)、构念效度(Bachman, 1990; Bachman & Palmer, 1996)、测试后效(如Wall & Alderson, 1993; Messick, 1994, 1996; Cheng, 1999)、测试公平性(Kunnan, 2004)、测试伦理(如Stansfield, 1993; Davies, 1997; Spolsky, 1997)、语言测试的社会维度(McNamara, 1998, 2006, 2007; McNamara & Roever, 2006)以及批判语言测试(Shohamy, 1998)等。尽管这些理论与方法在很大程度上增进了研究者对效度概念的理解,但是过于笼统和抽象,在实践中不具有很强的可操作性。因此,近年来,基于论证的效度验证方法(argument-based approach)受到越来越多研究者的青睐,如Mislevy et al.(2003)的以证据为中心的方法(evidence-centered design)、Kane(1992, 2001, 2004, 2006)的解释性论证(interpretive argument)、Bachman & Palmer(2010)的评估使用论证(assessment use argument)。以证据为中心的方法,强调证据推理的重要性。解释性论证通过构建从考生表现到决策制定之间的推断关系,强调分数解释和测试结果的正确使用。Cambridge ESOL在充分认可上述框架的基础上,认为Weir(2005)提出的社会—认知框架更适用于剑桥英语考试系列,多年来的实践证明其在理论上的合理性以及在实践上的可行性。在这一框架下,考试所测的能力被视为考生的心理过程,即认知的维度。考生用语言完成任务被视为一种社会现象,而不是纯粹的语言现象,这与CEFR中语言服务于社会的观点相一致。社会—认知框架明确了在考试开发、实施、评分等各个阶段需要收集的各种效度证据。在本专辑中,多位语言测试领域的专家从该效度验证框架所包含的考生特征、认知效度、语境效度、评分效度、结果效度、准则关联效度六大维度对MS考试进行了全方位的效度验证,为我们提供了一个分析和理解听力测试不同方面的理想框架。
总而言之,本专辑系统性、专业性、可读性很强,所采用的理论框架也具有很强的可操作性,相信一定能为考试机构、二语听力能力测试研究人员、英语教师等群体提供借鉴,并助力公众的语言评估素养的提升。
何莲珍
2019年10月15日
注:由于篇幅所限,参考文献与注释已省略。
本书即将上架,敬请持续关注!
相关阅读
🔹 新书速递 | 《面向学习的测评:一种系统的方法》(剑桥语言测试研究丛书)