查看原文
其他

期刊好文 | 大学英语教师语言评估素养调查报告(文/徐鹰 韩苏 陈芸)

徐鹰 韩苏 陈芸 外语学术科研网 2021-03-17

大学英语教师语言评估素养调查报告


华南理工大学

徐鹰 韩苏 陈芸

提要:为研究大学英语教师的语言评估素养,本研究采用自编问卷对参加大学英语四、六级考试阅卷的249位大学英语教师进行了调查。问卷信度(Cronbach’s α)达到0.927。该问卷包括三个维度:“测什么”、“怎么测”、“为什么这么测”。“怎么测”又包括“课堂评估”、“试题命制”、“标准化测试”和“评分”四个子维度。研究结果表明,调查对象语言评估素养普遍较高,教龄不同的教师对各维度的熟练程度不存在显著差异,但是兼教英语专业和非英语专业的教师对“课堂评估”的熟练程度显著高于非英语专业教师。最后,本文提出提高我国大学英语教师语言评估素养的建议。本研究结果说明大规模考试阅卷经验有助于提高教师的语言评估素养。


关键词:问卷调查;语言评估素养;课堂评估


本文原载于《中国外语教育》2016年第4期


1.引言

评估素养(Assessment Literacy)最早由Stiggins(1991)提出,指的是不同利益相关人在应对各类评估问题时所需要的技能和知识在语言测试领域,评估素养内涵中的“技能”指的是测验分析和开发所需的专业技术,“知识”指的是相关教育测量学背景知识和语言学知识(Davies 2008)。Brindley(2001)较早从语言测试学的专业视角研究评估素养,他提倡“课程相关评估”,即针对课堂教学的课程评估能力。Inbar-Lourie(2008)进一步明确提出语言评估素养(Language Assessment Literacy),将社会语境定位为评估和评估素养问题的核心,同时区分了“测试(testing)”和“评估(assessment)”两种文化:前者指的是在心理测量学框架下进行高风险标准化测试的环境,后者指的是在维果斯基建构主义理论指导下和当下学习环境相一致的评估环境。她认为,习得评估素养意味着教师信念必须转变,即他们必须接受知识和意义是社会建构的基本观点。


近年来,评估素养已成为语言测试学研究的热点之一。2011年“第33届国际语言测试研讨会”的一个主题即为评估素养。语言测试界权威杂志Language Testing继2008年第三期系统回顾了评估素养在语言测试领域的发展情况之后,2013年第三期以评估素养为专刊主题,发表了五篇从不同视角探讨语言评估素养的研究论文。正如Fulcher(2012)所说,由于人们对测验和评估的使用持续增加、各国移民政策对语言考试的硬性规定、课堂评估和促学评估在语言测试领域地位的不断上升,语言评估素养问题将长时间受到人们的关注。在这一背景下,国内学者对教师评估素养的兴趣也与日俱增,但是绝大多数研究还处在概念引介阶段,缺乏实证研究。



2. 文献回顾



关于评估素养的实证研究以调查问卷和访谈为主,其中有两个研究工具值得关注。第一个是Plake et al.(1993)根据美国《教师对学生的教育评价能力标准》(AFT, NCME & NEA 1990)(以下简称为《评价能力标准》)设计的教师评估素养问卷(Teacher Assessment Literacy Questionnaire,以下简称为TALQ)。该问卷包括两个部分:第一部分包括 35个小题,分别对应《评价能力标准》中规定的七种能力成分;第二部分对教师背景和教师对测验使用的态度进行调查。Plake et al.(1993)邀请了555位美国中小学教师填写了问卷,分析结果发现该问卷的内在一致性(KR 20)达到0.54,在职教师在分数解释方面的得分最低。Alkharusi(2011)对TALQ进行了全面的效度验证,对259位阿曼教师的问卷结果分析发现该问卷内在一致性(KR 20)达到0.84,问卷的第一部分测量了评估素养这个构念。第二个是Mertler(2003)在该问卷基础上设计的课堂评估素养量表(Classroom Assessment Literacy Inventory,以下简称为CALI),该问卷可以上网填写(http://pareonline.net/htm/v8n22/cali.htm)。CALI和TALQ在内容和体例上基本相同。Mertler(2003)对61位职前和101位在职教师调查发现在职教师分数显著高于职前教师分数,但两种类型教师在分数解释方面均未达到《评价能力标准》规定的能力要求。


此外,Fulcher(2012)设计了在线问卷对语言教师的评估培训需求进行了调查,旨在对语言评估素养的内涵作进一步的界定。278位来自不同国家的语言教师完成了问卷。分析结果显示,23个封闭式选择题的信度(Cronbach’s α)达到0.93,探索性因子分析提取出测验设计与开发、大规模标准化测试、课堂评估与反拨、信度与效度四个因子。在此基础上,Fulcher(2012:125)对评估素养进行了操作化定义,具体包括图1中的三层含义。



在图1中,最低层是评估实践,指的是语言测试的具体作法,涵盖设计、开发、评估大规模标准化考试和/或课堂测验所需的知识、技能和能力;中间层是评估原则,指的是指导和支撑语言测试具体实践的原则和概念以及对整个测验过程的熟练程度,包括测试伦理和业务守则等;最高层是评估的社会语境,指的是将这些知识、技能、过程、原则以及概念置于各种历史、社会、政治和哲学框架下,从而增强人们对语言测试实践各种作法存在理据的认识,同时评估语言测试对社会、机构和个人的影响。


相比而言,国内关于评估素养的研究以综述为主(林敦来、高淼 2011;林敦来、武尊民 2014;唐雄英 2013;许悦婷 2013)。唯一的实证研究是郑东辉(2010)对我国某省在职中学全科教师(包括语言文科类、数理科类、技术类、艺术类和其他)评估素养进行的调查,结果发现该省中学教师的评估素养普遍偏低,并且教师对于评估的态度与其评估素养呈显著相关。然而,国内尚未有对外语教师语言评估素养的实证研究。因此,本文将通过对国内大学英语教师的语言评估素养进行问卷调查,旨在揭示大学英语教师群体的语言评估素养现状,为教师评估能力培训教师评估培训课程开发提供参考。具体而言,本研究拟回答的研究问题是:

1)大学英语教师的语言评估素养如何?

2)教龄、所教学生类别对大学英语教师的语言评估素养是否有影响?


3. 研究设计



3.1 问卷


本研究所采用的工具是大学英语教师语言评估素养调查问卷,由笔者根据评估素养相关文献和教学及评估经验开发该问卷包括两部分。第一部分是40道封闭式选择题,采用4点量表(1代表不太熟练,2代表有一点熟练,3代表比较熟练,4代表非常熟练),要求调查对象对各种评估作法的熟练程度进行自我评估。该问卷没有采用传统的5点量表,即没有设置“完全不熟练”的选项,原因在于本问卷是在评分人参加大学英语四、六级考试(CET)阅卷期间填写,且问卷是由评分组长统一派发和收回。虽然问卷是匿名填写,但是在一定程度上评分组长可能能够判断每份问卷的作者。由于评分人的工作绩效是由评分组长负责考核,评分人都希望评分组长对自己有一个比较好的印象。鉴于上述考虑,我们最终未采用5点量表。全部题项可以分成三个维度,分别对应语言评估素养的三大核心内容(Inbar-Lourie 2008)。维度一(包括1—5题)对应“测什么”的问题,主要包括信度、效度、语言能力、专业课程等内容。维度二(包括6—35题)对应“怎么测”的问题,主要包括试题设计及分析、课堂评估设计及使用、促学评估等内容。维度三(包括 36—40题)对应“为什么这么测”的问题,主要包括评估的社会维度、公平性、测试使用等内容。其中,维度二是重点,涉及评估的整个流程和具体作法,又可依次细分为四个子维度:“课堂评估”(包括 6—14题)、“试题命制”(包括15—20题)、“标准化测试”(包括 21—26题)和“评分”(包括27—35题)。维度二题量最多的原因在于语言测试学科实践性比较强,一线语言教师更希望能在培训课程中增加“怎么测”的内容(Malone 2013)。其次,《评价能力标准》中的七种能力成分大部分同“怎么测”相关。第二部分收集调查对象的背景信息,包括教龄、学位、学生类别等信息。需要指出的是,本问卷要求调查对象匿名填写,保护了他们隐私,有效消除了因为各种心理因素(如面子问题、自我保护意识)对数据真实性产生的影响,从而保证了数据的可靠性。


问卷初稿首先在2013年12月对三位来自广东省不同层次高校(一所985高校、一所省属211高校、一所普通高校)的大学英语教师进行了试测。然后,笔者对问卷初稿各题项的排序和用词进行了修改,从而形成问卷终稿。

 

3.2 调查对象


在2014年1月CET阅卷期间,笔者对来自广东省的249位评分人发放了问卷并全部回收,其中有效问卷172份,有效率为69.08%。选择CET阅卷教师作为调查对象是因为他们都来自广东省内不同层次高校,其中来自一本高校、二本高校和高职高专院校的教师比例约为1 : 1 : 1,能在一定程度上代表大学英语教师总体。此外,由于CET采用集中会议式分组阅卷,因此能够较高效地采集到大量样本。


全体调查对象的背景信息如表1所示。值得一提的是,学位变量包括三个层次,其中学士和博士的人数太少,不满足做推断性统计的条件,因此下文不对该变量进行分析。


3.3 数据分析


首先把172份有效问卷数据输入SPSS 18.0并进行信度和描述性统计分析,然后检验问卷的效度,最后以各维度的熟练程度为因变量,采用多元方差分析(MANOVA)分别对两个自变量(教龄和学生类别)进行分析。由于问卷包括三个维度,且维度二包括四个子维度,因此分别对三个维度和四个子维度进行MANOVA分析。


4.结果

略  (结果可点击文末“阅读原文”登录期刊网页查看)


5.讨论

总体来看,本研究采用的大学英语教师语言评估素养调查问卷信度较高,内容涵盖了《评价能力标准》所规定的主要内容(选择评估方法、试题命制、使用评估结果、评分、分数报告和反馈以及道德因素)。相比于TALQ和CALI,内容更全面,既包括“怎么测”的内容,又增加了“测什么”和“为什么这么测”的内容,因此能够较全面地评价调查对象的语言评估素养。


5.1 调查对象对问卷各维度的熟练程度


从表2可以看出,在三个维度中,调查对象对“测什么”的熟练程度最高(2.98),对“为什么这么测”的熟练程度最低(2.86),所有维度的熟练程度都接近3(比较熟练),说明调查对象对问卷各维度比较熟练,也即意味着大学英语教师整体语言评估素养较高。这一发现似乎同其他相关研究(Black & William 1998;Stiggins 2001;Taylor 2009;Wang et al. 2008)结论相左,可能原因如下:1)全体调查对象参加了CET阅卷。而Gilmore(2002)的研究发现教师参加大规模考试的阅卷可以对他们的语言评估素养产生积极的促进作用。2)本研究的大部分调查对象的教龄在五年以上,五年以下教龄的教师比率只有21.5%。其他相关研究大多数调查对象为职前(pre-service)教师,教学经验缺乏,因此实际教学评估技能偏弱。


在四个子维度中,熟练程度最高的是“评分”(3.25),而且熟练程度最高的题项(第33和34题)也属于“评分”。这一结果同Plake et al.(1993)和Mertler(2003)的研究结果一致:教师们对“评分”最为熟练。可能原因在于调查对象具有较丰富的教学经验,而教师工作的重要内容是对学生的学习情况、考试表现给出具体的分数。在实际教学工作中,教师可能不需要命题,但是必须要给学生评分。此外,调查对象经过CET阅卷培训,对评分工作比较熟悉。因此,教师们对“评分”子维度的熟练程度最高。熟练程度平均值最低的是“标准化测试”(2.50),而且熟练程度最低的题项(第21和23题)也属于“标准化测试”。这一结果同前人(Plake et al. 1993;Mertler2003)的研究结果一致,原因可能在于尽管我国的职前外语教师培训和教学体系设置有语言测试等课程,但是对其上级学科(教育测量学和心理测量学)关注不足(Jin 2010),而且教育评估和测试领域的著作专业性较强,“标准化测试”涉及统计知识,加大了教师学习的难度,因此即使是有经验的教师也感到信心不足(Taylor 2009;Spolsky 2008)。此外,“课堂评估”(2.82)的熟练程度也较低,该子维度包含了熟练程度最低的题项(第11和12题),原因可能是在目前我国各高校所开设的语言测试类课程中,“课堂评估”相关课程所占教学时间最少(Jin 2010),受重视程度最低,传统的关于课堂评估的教师培训内容同真正的教学评估实践不完全匹配(Schafer 1993)。因此,尽管教师们对测试以外的评估手段(如动态评估、学生自评和互评、诊断评估)关注度不断上升,但是在实践中教师们仍然较少采用,所以熟练程度较低。这一结果同其他学者(Imparaet al. 1993;Shepard 2000)的结论类似:尽管教师的评估信念正在发生范式的转变,但是在评估实践中他们仍然大量采用测试的形式。因此,要提高他们对课堂评估的熟练程度,有必要从教育评估制度设计、师资培训、教师绩效考核等方面进行进一步的改革。


5.2 教龄和学生类别对语言评估素养的影响


尽管不少研究(Edelenbos & Kubanek-German 2004;Mertler 2004)发现有教学经验的教师比新教师的评估能力更强,并引发了评估素养习得的方式是来自课堂教学还是来自日常实践的争论,但是本研究发现教龄对语言评估素养并没有产生显著影响,不同教龄的大学英语教师在语言评估素养各维度熟练程度上不存在显著差异。这一结果可能是因为本研究的研究对象和前人研究不同,调查对象都是在职教师,大部分(>75%)教师都有五年以上教龄,没有职前教师。这一结果说明,教学经验不一定能促进语言评估素养的习得,大学英语教师的语言评估素养也可能会“石化”。这一结论还需要通过访谈、民族志、课堂观察等质性研究手段进行验证。如果这一假设得到证实,那么在职教师的教育和培训(尤其是常态、系统的评估培训)对于提高教师语言评估素养意义重大。


此外,表4显示学生类别主效应显著(p<0.05),且非英语专业教师的“课堂评估”熟练程度显著低于兼教英语专业和非英语专业教师(p<0.05)。这一结果的可能原因在于课程设置不同,非英语专业教师主要讲授大学英语系列课程,教学目的在于提高学生英语综合应用能力(教育部高等教育司 2007),班级规模较大;而英语专业教师主要讲授包括英语专业技能、英语专业知识和相关专业知识的专业课程(高等学校外语专业教学指导委员会英语组 2000),班级规模较小。因此,英语专业教师和学生交流的机会更多,能够根据课程性质采用各种灵活的课堂评估手段(如档案袋、自评和互评等)。而兼教英语专业和非英语专业教师对这种课程设置上的差异最为敏感,因此他们在“课堂评估”熟练程度上的平均值最高。


5.3 对提高大学英语教师语言评估素养的建议

通过以上分析,我们认为可以采取以下措施提高大学英语教师的语言评估素养:1)加强在职教师语言测试相关课程培训,建立在职教师课程评估培训的固定机制,促进教师语言评估素养的习得。2)在培训中增加教育测量学和心理测量学的内容,同时提高课堂评估相关内容的比重。3)丰富教师评估培训的手段,将教师评估培训同教师日常工作实践相结合,采用多种培训形式,如工作坊、在线自学、教师描述自己评估经验的叙事法(Taylor 2009)、建立评估学习小组,让教师通过命题实践、试题分析、自评和他评等方式来学习提高语言评估素养。


6.结语

本研究采用自编问卷对参加CET阅卷的大学英语教师的语言评估素养进行调查。结果发现,大学英语教师语言评估素养较高,教龄对大学英语教师的语言评估素养无影响,但是学生类别对大学英语老师的“课堂评估”熟练程度有显著影响。


本研究是国内语言测试界对大学英语教师语言评估素养首例实证研究,有助于了解大学英语教师语言评估素养现状。但是,本研究本质上属于探索性研究,既没有对问卷进行严格的构念效度验证和效标关联效度验证,也没有采用分层随机抽样的方法选择调查对象,此外采用的4点量表也可能存在数据收集不完整的问题,一定程度上影响了研究结论的可信度和外推力。下一步的研究可以在弥补这些不足的基础上,对职前大学英语教师和在职教师进行对比分析。


本文原载于《中国外语教育》2016年第4期



《中国外语教育》创刊于2008年,是教育部国家重点文科研究基地中国外语与教育研究中心创办的外语教育专业学术期刊,由北京外国语大学中国外语与教育研究中心承办,外语教学与研究出版社协办。本刊主编为北京外国语大学文秋芳教授;副主编北京外国语大学梁茂成教授。本刊以理论联系实际、学术性与应用性兼容、科学性与社会性并重为办刊宗旨,鼓励研究者以教师所关注的问题为研究重点,支持一线教师开展具有个性的研究,是我国外语教育研究者进行学术交流的专业平台。


本刊已被收入中文社会科学引文索引数据库(CSSCI)年来源集刊目录、《中国学术期刊网络出版总库》及CNKI系列数据库。


主要栏目:“热点聚集”、“外语教学”(外语教学、外语教师、外语课程与教学资源、外语教育政策及理论等方面的研究)、“外语学习”(外语学习与外语学习者的研究)、“外语评测”、“书评”、“学术动态”、“一带一路语言人才培养”等。


投稿说明:本刊发表的文章以实证研究为主,同时也刊登综述类和部分外语教育理论方面的文章。稿件内容及格式具体要求请登录本刊网站查询(点击本文左下角“阅读原文”可直接访问)。


在线投稿:http://submit.celea.org.cn/fleic


【声明】感谢《中国外语教育》编辑部授权iResearch发布此文。本文版权归《中国外语教育》和作者编辑部所有。其他任何学术平台若有转载需要,可致电010-88819585或发送邮件至research@fltrp.com,我们将帮您协商授权事宜,请勿擅自转载。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存