查看原文
其他

ICI学术║如何监测学校课程实施中的评价?崔允漷、王少非教授为您解密!

邀您共赏的 华东师大课程与教学研究所
2024-09-26


近期,崔允漷、王少非教授在权威期刊《教育研究》2020年第1期上发表《学校课程实施过程中的评价监测初探》,指出评价在学校课程实施过程中的重要作用,并就评价监测的历史演进做了深入的研究,提出了完善学校课程实施质量评价的监测框架,以保证其真正对学校课程实施起到积极的作用,最终促进我们所期望的学生学习。



▲ 崔允漷 教授

华东师大课程与教学研究所所长、博士生导师



▲ 王少非 教授

浙江台州学院教师教育学院




《学校课程实施过程中的评价监测初探》


来源:崔允漷,王少非.学校课程实施过程中的评价监测初探.教育研究.2020(1):43-49



【摘要】评价在学校课程实施过程中起着重要的作用,评价的质量直接影响学校课程实施的质量,学校课程实施上的诸多偏差与评价上的偏差紧密相关。因此,对学校课程实施过程质量的监测不能忽略评价的监测。实际上,评价监测无论作为一种观念还是一种实践都有较长的历史。学校课程实施过程中的评价监测要同时关注外部评价和内部或课堂评价,以及其与学校课程实施过程的关系。外部评价需要监测合规性、利害关系与课程效度;内部或课堂评价需要监测课程效度、教学效度与后果效度。



学校层面的课程实施是整个课程实施过程中的重要一环,是课程层级转化到学生体验层面是否依然保持或接近“课程理想”的关键。学校课程实施过程本质上是教师、方案、学生的互动过程,[1]而教师、方案和学生之间的互动通常受制于多种情境因素。评价(在本文中仅指学生学业评价)既构成了学校课程实施的重要情境,也是学校课程实施的重要手段,在很大程度上影响着学校课程实施过程和结果的质量因此,学校课程实施过程质量监测必须纳入评价监测。本文基于这一认识,针对我国中小学课程实施过程中的评价监测缺失而导致学校课程实施的偏差现象,借鉴已有国际经验,尝试建构一种相对完整的评价监测框架,以期为进一步研究或有关部门进行相关决策提供一定的学理依据。



一、评价在学校课程实施过程中的作用




评价在学校课程实施过程中起着非常重要的作用,它既构成学校课程实施的情境,也是学校课程实施的重要手段。评价的质量会直接影响学校课程实施的质量,事实上,学校课程实施中的许多偏差都能在评价上找到根源。因此,如果我们尝试对学校课程实施过程进行监测,必须同时监测学校课程实施过程中的评价。


(一)学校课程实施过程中的评价

学校课程实施过程中牵涉到的评价多种多样,几乎所有的评价都会对学校课程实施产生重要的影响。无论是学校外部实施的升学考试、区域统考、质量监测、学科抽查,还是学校内部的学业评价制度及其运行,或者优质课评比与教学大比武等课堂教学评价,一定会影响学校、教师的课程行动,影响学生的课程学习活动,进而影响学校、教师、方案、学生的互动,从而对学校课程实施过程发生重要影响。


本文关注学生学业评价是学校课程实施过程中发生得最为频繁的评价,几乎贯穿学校课程实施过程尤其是课堂层面的课程实施过程的始终。在学校课程实施过程中,学生学业评价可能是教师自己组织实施的,如课堂小测验,也可能是学校或学校之外的特定机构组织实施的,如期末考试、各种统考、联考;可能是正式的、显性的,即占用专门的时间采用专门的工具的评价,如各种测验、考试,也可能是非正式的、隐性的,即与教学过程紧密结合在一起的或无需专门工具的评价,如作业甚至是观察、交流。不过,学校课程实施过程中的评价不仅仅是“过程之中”的评价,也包括了过程基本终结之后的评价,如中考、高考。



(二)评价在学校课程实施过程中的角色


从评价功能来看,学校课程实施过程中的评价可以是一种形成性评价,可能具有推进学校课程实施的巨大潜力。实际上,学校课程实施过程中经常将评价当作课程实施的驱动力和杠杆,许多评价事实上也起到推进学校课程实施的作用。课程实施过程中也存在总结性评价,这些评价通常在课程实施完成后来进行,按理说不会对课程实施过程带来影响,但实际上,所有总结性评价都会对包括教与学活动在内的课程实施过程产生巨大的反拨作用。这种反拨作用主要靠影响学校课程实施的情境,或影响学校课程实施相关主体的社会心理环境,进而影响相关主体的互动方式来实现。


可是,无论作为学校课程实施的情境,还是作为学校课程实施的手段,评价实际发生的作用并不确定,可能有预期之中也有预期之外,可能是积极的也可能是消极的。评价包括那些指向于形成性目的的评价,并不总是能够实际产生形成性的效果,有时不仅没有起到推进学校课程实施的作用,相反可能会阻碍课程在学校层面的有效实施。尽管评价作用的方向可能取决于很多因素,如教师与学生的自我期望、教师的专业水平等,但起关键作用的还是评价本身,包括评价的目的、评价的内容、试题的类型、评价质量和评价程序、对教师和学生的利害关系等。[2]



(三)评价监测缺失会导致学校课程实施的偏差


学校课程实施过程中有可能会发生一些偏差,以致于严重影响学校课程实施过程的质量和成效。这些偏差的根源可能多种多样,譬如学校条件、教师质量等,但不可否认,评价是学校课程实施过程偏差的重要根源之一。下面以“课程窄化”“绩效定向”这两种常见的偏差来做简单的分析。


首先,课程窄化。课程窄化经常体现在两个层面上。

一是学校中实际实施的课程在范围上小于正式课程,即减少科目或课时,未开齐、没上足。最明显的表现就是学校未开齐国家课程方案上规定的课程门类,而有些课程课时数大大超过国家课程方案规定的上限。我们近来进行的全国义务教育阶段学生课程表调查表明,相较于国家颁布的《义务教育课程设置方案》和各省份制定的课程计划,语文有26.5%的班级超课时,缺课时的班级仅为2.2%,九年级超课时比例达38.3%;数学有26.2% 的班级超课时,缺课时的班级仅占0.5%,九年级超课时班级比例高达48.1%;英语有41.5%的班级超课时,缺课时的班级仅占3.9% ,九年级超课时班级比例高达57.4% 。相反,道德与法治类课程有42.3%的班级缺课时,体育有36.0% 的班级缺课时,音乐有17.7%的班级缺课时,美术有12.3%的班级缺课时。我们不否认这种情况有学校师资条件等方面的原因,但那么高比例的班级都选择背离国家课程方案的规定,如果不能说完全是因为有高利害评价的原因,至少与学校以评价为理由所做的选择有关。

二是学生实际经验到的课程小于预设要实施的课程,即目标缺失或内容失衡。学生实际所学到的跟课程目标要求相比更少,这与教师专业水平相关,也与学生学习能力相关,但同样肯定与评价相关,表现为“为考而教”,甚至教师可能像驾校教练那样,不会多教一点考试以外的内容。其实在学生经验层面还有一种情况(或许不能归到“课程窄化”之中),就是教与学都严重偏离课程,原因可能是评价与课程不一致。就此而言,“不是课程形塑了评价,而是评价形塑了课程”[3]


其次,绩效或成绩目标定向

埃姆斯(Ames,C.)认为,具有绩效目标(performance goals)定向的学生更关注学习带来的个人效益,倾向于避免学习上的风险,采用比较浅层的学习策略;而有学习或掌握目标(mastery goals)定向的学生会将自己的注意力放在有助于达成目标的行动中,而不太关注其他行动。他们有更多的高级学习策略,有更高的作为学习者的胜任感,对学校活动有更大的兴趣,且对学校的态度更积极。[4]这种目标分类同样适用于学校、教师,定向于绩效或成绩目标的学校和教师会关注成绩、分数,定向于学习目标的学校和教师会关注真正的学习和掌握。但这种目标定向并非天生,而是后天习得的结果。其接受的评价就是影响目标定向的一个关键因素,当评价主要指向于学生之间的相互比较时,或者评价主要涉及对个人的判断时,学生就易于倾向定位于绩效或成绩目标;若评价主要指向于提供关于任务完成情况的信息,那么学生更可能定位于学习目标,更可能关注任务完成或掌握本身。





 二、评价的演进与扩展



评价既可能促进教育,也可能阻碍教育,其实际上发挥何种作用,最终取决于评价质量。从历史上看,自测验在教育领域得到广泛运用以来,人们就开始认识到其可能带来的负面影响,因此在保障评价质量方面进行了诸多努力。尽管其中有些只是观念而不是一种实践,相关的实践也并不普遍,但这些观念和实践还是能为我们在学校课程实施过程中开展评价监测提供一些启发。


(一)从关注测验本身扩展到关注测验运用


早在1925 年,著名标准化测验编制者鲁赫(Ruch,G.)就呼吁,“测验购买者必须要像食物购买者那样得到保护”[5]。他期望测验出版商能够通过提供相关的信息来接受测验消费者的监督。20 世纪40 年代,美国心理学会(American Psychological Association,APA)为落实他们制定的测验标准,提议设立测验标准局(Bureau of Test Standards),负责测验审查和认证。但在当时这些更多是一种观念或提议,无论是鲁赫的呼吁,还是美国心理学会的提议,在当时都没有得到响应。




1938 年,巴罗斯心理测量研究所(BurosInstitute of Mental Measurements)启动了一个测验审查项目,对测验出版商出版的测验进行严格的审查和详细的质量分析。[6]1954 年,美国心理学会、美国教育研究会(American Educational Research Association,AERA)和美国教育测量委员会(National Council on Measurement in Education,NCME)共同制定的《关于心理测验和诊断技术的专项建议(Technical Recommendations for Psychological Tests and Diagnostic Techniques)》,以及后来的《教育与心理测验标准(Standards for Educational and Psychological Testing)》都强调“测验审查”。一些考试机构,如美国教育考试服务中心(Educational Testing Service,ETS)专门设立了公司质量保证部(Office of Corporate Quality Assurance),每三年对教育考试服务中心的每个产品至少审查一次,以保证每一产品都符合他们根据《教育与心理测验标准》制定的标准。[7]


然而,这些评价监控,无论是观念还是实践,基本上都聚焦于测验本身(test),也就是作为一种工具的测验,并没有太多关注测验的实际运用(testing)。随着评价理论的发展,测验的后果,即测验运用所产生的影响,被视为测验效度验证的关键证据,如1999 年版的《教育与心理测验标准》规定的效度验证证据中就包括了“测验后果的证据”。在实践中,测验的监控也扩展到测验的实际运用,譬如下面要提到的内布拉斯加州的实践。



(二)从外部评价扩展到内部评价


早期的测验监控聚焦于测验产品,主要是由一些测验专业机构所编制的测验,即早期的测验监控关注的是外部评价。但学校内部的评价也在逐渐得到关注,这源于两方面的动因:一是评价体系调整导致内部评价在高利害决策中作用的提升,二是对内部评价在学生学习中所起的作用的认识加深。

前者如新西兰和瑞典的实践。1946 年,新西兰建立了一个校本的大学入学认证系统,赋予学校决定其学生升学资格的权力。这样一来,本属于低利害评价的校内考试具有了高利害关系。为保证不同学校间考试结果的可比性,新西兰建立了一套机制,由督学依据自己的专业判断,结合传统大学入学考试提供的统计数据,对学校认证标准的松紧程度作出判断。[8]20 世纪70 年代,瑞典取消传统大学入学考试,用内部评价结果决定大学入学。但同时,瑞典运用全国性标准化考试系统的分数来对照学校内部评价的结果,以此来监控学校所采用的评价标准。[9]

后一种实践是因为人们越来越相信,相较于外部评价,学校内部教师日常实践层面的评价能够更大程度地促进学生学习,“如果评价不能在日常的课堂实践中有效地运行,那么其他层面(学区、州、国家和国际)的评价完全是浪费时间和金钱”[10]。譬如,美国内布拉斯加州为落实《不让一个孩子掉队法(No Child Left Behind)》,建立了“教师主导的校本评价和报告系统”(School-BasedTeacher-Led Assessment and Reporting System,STARS),[11]要求地方学区开发当地的、基于课堂的评价,评价结果作为问责的信息来源,更重要的是要为教和学的改进提供依据。但与此同时,内布拉斯加州也加强了对地方评价系统质量的评价,并将地方的评价实践纳入问责范围。为此,他们邀请巴罗斯心理测验研究所开发了相应的指标体系,一方面在州层面建立专门的机制对学区评价进行审查,另一方面也努力推进学区和学校对评价活动进行自我审查。[12]


(三)从传统测验质量指标到评价的后果


19 世纪初,桑代克(Thorndike,E,L.)及其弟子陆续开发了书写、阅读、语言、代数、拼写以及图画等领域的测验,使得定位于教育成就的测验获得了最初的立足之地。然而,差不多与此同时发展起来的心理测验以其“更为科学”的面目迎合了当时教育中科学管理的需求,逐渐压制了定位于成就的测验,成为测验运动的主流。自此,教育评价基本上为心理测量学范式的评价所控制。然而,心理测量学有一个基本假定:心理测验测量个体稳定的特征,这使得其在本质上不适合于为教育目的的评价,因为教育评价要评的是学生的学习,而学习的本质就是变化。


评价总会产生某种影响或后果,但如福柯(Foucault,M.)所说,“人们经常知道自己在做什么,也知道为什么做所做的事,但不知道自己为所做的事到底做了些什么”[13]。长期以来,人们更多关注的是评价的准确性或从评价结果作出的推论的正确性,极少关注评价可能产生的尤其对教与学最终对学生学习的影响或后果。近年来,测量学界开始越来越多地关注测量的后果效度,即评价在多大程度上达成预期的结果,后果被视为“评价测验运用的一个合乎逻辑的部分”[14]。这种观念在教育评价领域中的体现就是“为学习的评价”(Assessment for Learning)的兴起。斯蒂金斯(Stiggins,R.)指出,衡量评价的质量不仅要看它提供的关于学习的证据的质量,还得看它对学生未来学习的影响,“如果导致学生放弃学习,那么即使最有效、最可靠的评价都不能被认为是高质量的评价”[15]


评价旨在促进学习,这已经是教育评价的一个核心观念。但如何进行学习评价,人们尝试从效度演进历史中寻找启发。在20世纪60、70 年代曾经出现过但逐渐被边缘化的课程效度、教学效度重新进入人们的视野,尤其在美国基于标准的教学改革运动之后。按照克隆巴赫(Cronbach,L.)的最初界定,“课程效度是指试题在多大程度上代表了对课程目标的测量”,[16]而按麦克朗(McClung,M.S.)的认识,评价的教学效度强调学校陈述的目标是否被转化到课堂中实际教学的主题之中,也就是学生有没有机会学习所测的那些目标。[17]

好看的人都在看


三、学校课程实施过程中的评价监测框架的建构




如前所述,评价在课程实施全过程中扮演着重要的角色,因此,如果要监测学校课程实施过程,那么对评价的监测就应是这种监测基本的组成部分。


(一)评价监测的对象


在学校层面的课程实施过程中,有两类评价在持续地发挥作用。

一是包括中考、高考,以及其他以统考、联考或区域性学业质量监测为名的外部评价。在通常意义上,这一类评价是高利害的,但严格地说,除了中考、高考,其他外部评价的高利害只关乎学校或者教师,通常不涉及学生。然而,由于学校、教师在学校课程实施中实际占据主导地位,其对这种利害关系的认知和感受会影响学校的课程制度、运行模式,甚至学校文化(尽管这些评价不常实施),不只是学校、教师,学生的行为同样会受其持续影响。可以说,这类评价构成了学校课程实施的情境,至少是学校课程实施情境的重要构成成分。学校课程实施显然不是在真空中发生的,对课程实施的监测不能避开课程实施的情境。

二是教师在日常教学实践层面实施的对学生学习的评价,即课堂评价。这类评价是教师—学生—方案三者互动的重要方式,可以被视为课程实施的手段。作为课程实施的手段,这类评价自然应成为课程实施监测的对象。但除此之外,将课堂评价纳入课程实施过程监测是因为它的高利害。通常,课堂评价被视为低利害的,表面上可能是因为其不会给学生带来某种显性的重要后果,实际上更可能是因为这种评价就是学校、教师组织实施的,因而确实不会给学校或教师带来明显的重要后果。但若从课程实施的质量角度和学生视角来看,课堂评价绝不是低利害的。从课程实施质量角度看,课堂评价对课程实施的成效影响巨大,课堂评价的质量甚至会决定课堂教学的质量。从学生角度看,课堂评价的利害关系一点也不低,只不过课堂评价对学生这种利害是隐性的,会影响学生的学习目标定向、态度、信心、自我效能感、学校生活幸福感等。从学生长远发展看,课堂评价对学生学习的累积效应可能超过某种高利害评价的影响,且其影响更加持久,甚至持续终生;影响也更加弥散,会影响学生学校生活乃至未来学习经历的方方面面。

但是,由于这种评价监测置于学校课程实施过程质量监测中,因此可能不能像以往实践那样只关注评价和评价实施的质量本身,同时也应关注评价、评价实施与课程实施的关系,寻找学校课程实施质量的评价原因。



(二)评价监测框架的建构


鉴于学校、教师在学校课程实施过程中实际上所起的主导作用,对课程实施中的评价监测应首先考查对学校、教师有重要利害的评价,也即外部评价。如果监测的是初中学校,由于中考是所有学生都必须经历的,所以中考的课程效度必须加以考查。除中考之外,我们需要考查所有学校的课程实施情境中是否存在小升初考试、统考、联考、区域学业质量监测等外部评价。如果有这些外部评价存在,我们就需要考查依据评价结果赋予学校、教师的利害关系,譬如区域有无根据评价结果对学校进行或显或隐的排名,是否根据排名决定资源分配;学校有无根据评价结果决定教师的奖惩或其他人事决策。同时考查这些评价的课程效度——在当前政策背景下,核心是要考查这些评价所评的目标与课程标准中的内容标准或表现标准的匹配程度,进而考查这些评价对学校的课程安排的影响,对教师和学生的行为、课堂中实际运行的课程的影响,尤其是其对课堂评价的影响。无论外部评价是否存在,作为课程实施手段的课堂评价总是教师日常专业实践的重要组成部分,必须要加以考查,关注其课程效度和教学效度,考查其对学生学习的影响。基于这一思路,本文尝试建构一个课程实施过程中的评价监测框架。(见下图)



  课程实施过程质量监测中的评价监测的框架



(三)评价监测的关键考察点


如上图所示,课程实施过程中的评价监测的侧重点应依据所实施的不同评价来确定,不同类型的评价有不同的监测关键点。


1外部评价

外部评价监测的关键考察点有三个方面:

一是外部评价的合规性在我国当前的背景下,义务教育阶段能在教育政策上找到依据的外部评价就是中考和国家、省两级学业质量监测评价;省级以下的区域性学业质量监测并无政策上的依据,各类统考、联考从某种意义上说都是违规的,需要在政策上严加控制。

二是外部评价的课程效度。学业质量监测评价的是学业,理应与课程标准中的内容标准或学业质量标准相匹配;中考虽是一种选拔性评价,但与高考的选拔有所不同,还是基于学业成就的选拔,同样需要基于课程标准,与课程标准中的内容标准或学业质量标准相匹配。其他的外部评价监测同样需要关注其课程效度。三是评价的利害关系。理论上,中考会给学生带来直接的后果,但不应给学校和教师带来直接的显性的后果;学业质量监测如果有利害关系,这种利害只关乎学校和教师的行为改进,不涉及对学校和教师的奖惩或其他人事决策;而除此之外的外部评价就不应该存在。这一方面的考察就是要关注外部评价是否依据结果赋予不适当的主体以某种后果,或赋予适当的主体以某种不适当的后果。2内部(课堂)评价

在学校课程实施过程监测中,内部(课堂)评价监测的关键考察点也有三个方面:

一是课程效度。课堂评价本质上是从属于教学的,它服务于教学,指向学习目标的达成,因此课堂评价必须与相应教学阶段的目标相一致。具体地说,课堂评价的内容覆盖度、难度、能力表征都应与目标相匹配。课堂评价监测要高度关注评价目标对课程目标的代表性。

二是教学效度。课堂评价所评的必须是教学中实际教过且学生实际上有机会学过的那些目标,即通常所说的“所评即所教和所学”[18]。课堂评价监测要高度关注学生在相关评价目标领域的学习机会。三是后果效度。课堂评价的目的在于促进学习的改善,课堂评价监测要高度关注这一目的是否得到实现。课堂评价实现改善学习的目的主要通过两个层面展开:通过评价获得关于学生学习的准确的信息,教师依据这些信息制定、修订、调整并实施有助于学生学习的教学决策;通过评价获得关于学生学习的准确的信息,学生可获得、分析、研究这些信息,形成或作出有利于自己后续学习的决策。因此。对课堂评价目的是否实现的关注可着眼于评价是否获得对教与学有意义的关于学生学习的准确信息,以及这些信息是否在两个层面得到正确的运用。


正如学校课程实施过程质量监测的目的不在于对学校课程实施质量作出判断,而在于促进学校课程实施过程质量的提升,学校课程实施过程质量监测中的评价监测的目的也不在于对外部评价和内部(课堂)评价的质量作出判断,而在于促进评价质量的提升,保证其真正对学校课程实施起到积极的作用,最终促进我们所期望的学生学习。





参考文献:

[1] Alkin , M .C .,(2004)Evaluation Roots :tracing theorists' views and influences. California: Sage.187.

[2] Mehreas, W.(1998), Consequences of Assessment: What is the Evidence? Education Policy Analysis Archieve. Vol.6, No.13.

[3] 崔允漷等,(2019),全国义务教育阶段学生课程表的调查报告.未发表.

[4] 崔允漷,夏雪梅.从学生的课程表看我国义务教育课程方案实施状况.教育科学论坛.2006(10):14-18

[5] Brown,S. and Knight, P.(1994) Assessing Learners in Higher Education. Kogan Page.12.

[6] Ames, C. (1990) Motivation: what teachers need to know.Teachers College Record 91: 409-421.

[7] Ruch,1925,转引自:Madaus, G. Carolyn A.& Lynch, P. S. (2001). A brief history of attempt to monitor testing,NBETPP,Vol.2, No.2.

[8] Madaus, G.. Carolyn A.& Lynch, P. S. (2001). A brief history of attempt to monitor testing,NBETPP,Vol.2, No.2.

[9] Madaus, G.(1992), An independent auditing mechanism for testing, Educational Measurement: Issue and Practices,1992(1), 26-30,31.

[10] [11] Somerset , A.(1996) Examination and educational quality, In: Little, A. & A. Wolf(eds.) Assessment in Transition: learning, monitoring and selection in international perspective.Pergamon Press.280.

[12] Stiggins,R.,1998, 转引自:Roschewski, P., Gallaher, C., Isernhagen, J.(2001), Nebraskans research for the STARS. Phi Delta Kappan, No. 8, 611-615.

[13][17] Roschewski, P., Gallaher, C., Isernhagen, J.(2001), Nebraskans research for the STARS. Phi Delta Kappan, No. 8, 611-615.

[14] Brookhart, S. M.(2005), The quality of local district assessment used in Nebraska’s School-Based Teacher-Led Assessment and Reporting System(STARS).Educational Measurement: Issue and Practice,No.2, 14-21.

[15] Foucault(1977),转引自:Moss,P. A.(1998). The Role of  Consequences in validity Theory,Educational Measurement:Issues and Practice,17(2).pp.6-12.

[16] Shepard, L. A. (1997). The centrality of test use and consequences for test validity.  Educational Measurement: Issues and Practice, 16(2), pp.5-8,13.

[17] Stiggins, R.(2007), Assessment through the Studengs Eyes. Educational Leadership.67(8), 22-26.

[18] 转引自:Linn,R.L.(1983).Curricular Validity: Convincing the Courts that It was taught without Precluding the Possibility of Measuring It.In:Madaus,G,F.(ed.).The Courts,Validity, and Minimum Competency Testing, Springer Science+Business Media New York.P116.

[19] McClung, M.S.(1979),Competency Testing Programs: Legal and Educational Issues,Fordham Law Review,47(5).pp.652-712.



罗马不是一天建成的课程与教学的发展有赖于一个个严谨的研究!课程所各位同仁愿与同行学者和专家在科学严谨的基础上踏实推进“为学生、为课程、为未来”的伟大事业!


END



▼往期学术回顾




ICI学术║概念图怎么用才有效?王哲老师团队的实验研究告诉你


为课程·为学生·为未来

华东师大课程与教学研究所


继续滑动看下一个
华东师大课程与教学研究所
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存