【“四个评价”笔谈(8)】雷新勇:关于教育评价改革的若干思考
编者按:2020年6月30日,中央全面深化改革委员会第十四次会议审议通过《深化新时代教育评价改革总体方案》(以下简称《方案》)。《方案》提出,教育评价事关教育发展方向,要全面贯彻党的教育方针,坚持社会主义办学方向,落实立德树人根本任务,遵循教育规律,针对不同主体和不同学段、不同类型教育特点,改进结果评价,强化过程评价,探索增值评价,健全综合评价,着力破除唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,建立科学的、符合时代要求的教育评价制度和机制。这是继2018年全国教育大会提出“扭转不科学的教育评价导向”后指导教育评价改革的又一份纲领性文件。为深入探讨《方案》提出的“改进结果评价,强化过程评价,探索增值评价,健全综合评价”(简称“四个评价”),本刊邀请专家围绕“四个评价”展开笔谈,同时欢迎广大专家学者就此问题展开更广泛的讨论。
作者:
雷新勇,上海市教育考试院,研究员。
原文刊载于《中国考试》2020年第9期第10—14页。
摘要:针对中央全面深化改革委员会第十四次会议审议通过的《深化新时代教育评价改革总体方案》(简称《方案》),从教育评价过程和技术的角度,探讨如何在基础教育阶段实现《方案》提出的改革目标。改进结果评价,需要使测试卷与课程标准保持一致,并满足教育测量学的基本要求;强化过程评价可以理解为,通过评价提高教师教学过程的有效性,达到促进学生学业发展的目的,设计教学过程评价的关键是理解教学过程的4个环节,并在此基础上设计评价工具;探索增值评价的关键是测试卷的垂直和等值设计;健全综合评价的关键之一是如何使用综合素质评价结果,可行的办法是开发人工智能审读综合素质评价结果的平台,利用人工智能提取学生的综合素质评价信息,提供给招生学校参考使用。
关键词:教育评价改革;结果评价;过程评价;增值评价;综合评价
2020年6月30日,中央全面深化改革委员会第十四次会议审议通过的《深化新时代教育评价改革总体方案》(以下简称《方案》)提出“改进结果评价,强化过程评价,探索增值评价,健全综合评价”[1]。《方案》直指教育评价改革,尤其是基础教育评价改革,可以说是抓住了教育综合改革的“牛鼻子”,对引领我国教育的未来发展具有重要意义。
教育评价是对教师、学校、学生进行评估,旨在确定教育的有效性以及学生整合和理解信息的程度[2]。任何一项教育评价都至少包括以下环节:1)确定评价目的;2)设计评价计划和方案;3)确定需要评价的特质及其观察标志;4)开发观察工具或测试工具;5)分析观察数据或测试数据,获取评价信息;6)报告评价结果[3]。完成这些环节,不但需要评价理论的指导,还需要教育测量技术的支撑。如果没有测量技术作支撑,任何评价理念和目标都无法实现。笔者主要从教育评价过程和技术的角度,探讨如何在基础教育阶段实现《方案》提出的改革目标。
1
关于改进结果评价
结果评价(outcome-based evaluation)是指学生一定学段的课程学习结束后或者课程学习至某一阶段结束时,对学生的学习效果进行的评价[4]。结果评价的主要目的:一是确定学生通过一定阶段的课程学习是否达到课程学习目标或阶段性目标的要求;二是对学生的课程学习提供强项和弱项的诊断信息,为学校向学生提供教学干预措施提供依据;三是为课程执行过程存在的问题,尤其是教师教学过程可能存在的问题提供诊断信息。结果评价的对象是学生,获取评价信息的主要工具是考试。
改进结果评价的技术环节主要有:一是确定达到评价目的所要测试的学生的特质及其观察标志;二是开发收集评价信息的工具——测试卷;三是从测试结果中提取评价信息的教育测量统计方法或测试数据处理分析方法。
从我国基于标准的教育改革实践来看,结果评价所要测试的学生的特质应该是课程标准确定的学科核心素养,与学科核心素养对应的观察标志就是课程的质量标准;因此,改进结果评价首先需要获取信息的工具与课程标准保持一致。测试卷是收集评价信息的工具,除测试的特质和观察标志与课程标准保持一致外,测试卷至少还需要满足以下测量学要求:1)试题考查的学科认知能力准确;2)测试结果即分数具有可解释性;3)试卷考查的学科认知能力结构、知识结构、难度结构合理;4)有足够的题量。这些要求是测试工具具有高效度、高信度的基本要求,也是测试结果可用于对考生进行评价的基本要求。运用测试工具对学生进行测试获得评价的原始数据后,还需要根据评价目的,运用教育测量方法对数据进行分析,这样才能获得最终的评价信息。
结果评价既可以是教育系统内部的评价,也可以是教育系统外部的评价。学校以及地方教研部门开发的测试属于教育系统内部的评价测试,国家、省级考试机构开发的测试属于外部评价测试。从目前学校、地方教研机构开发的测试看,测试卷难以满足前述基本要求,这些机构也缺乏对测试结果进行处理分析、获取评价信息的教育测量人才。专业的教育考试机构具备开发满足结果评价要求的测试卷优势,因此,国家和省级教育考试机构应该担负起改进结果评价的重任,向学校和教育行政部门提供有效、可靠的教育评价结果。
2
关于强化过程评价
对于过程评价(process-based evaluation)通常有3种理解。第一种是指对学生在学校教育环境中发展的过程性评价,这种评价类似于档案袋评价或综合素质评价,它记录了学生在学校受教育过程中各方面的阶段性发展结果。第二种是指对学生学科知识、认知能力的习得过程的评价。学习理论将学习定义为“由实践或其他形式的经验所导致的行为或认知能力的持久变化”[5],指出“学习是不能直接观察的,只能通过学习的结果进行推测”[5],“通过学习结果推测学生学习的正式方法是考试评估”[6]。从学习理论的角度看,学生学科知识、认知能力的习得过程无法直接评价。第三种是指对教师教学过程的评价。与学生学习过程不同,教师的课堂教学过程可以直接观察评价,大量研究表明,教师的教学是对学生学业影响最为重要的因素;因此,通过对教师教学过程的评价,促进教师教学过程的优化和教学行为的改善,可以有效地促进学生的学习[7]。这里主要讨论教师教学过程的评价。
教学过程评价本质上是通过评价提高教师教学过程的有效性,达到促进学生学业发展的目的;因此,教学过程有效性就是过程评价需要评价的教师的“特质”。这个“特质”的外显标志是什么?这就需要理解教学过程。Dick和Carey提出的课程教学过程模型(图1)是当今课程教学领域广受推崇的过程模型,它与教育考试问题解决认知过程具有高度的契合性,对于理解过程评价及结果评价都具有重要意义。根据该模型,可以将教学过程分解为4个主要阶段:1)确定教学目标,包括确定知识目标、认知能力目标。教学目标必须与课程目标、课程的内容标准保持一致。2)选择教学材料。教学材料的选择应该有利于教学目标确定的知识内容和学科认知能力的发展。3)安排教学活动。教学活动及其顺序设计应该与学生问题探究、问题解决的认知过程一致,应该有利于学生学科知识的建构和认知能力的发展。4)评估教学结果。教学结果评估需要通过一定形式的测试或者学生完成某些任务来评估学生学习是否达到教学目标要求,发现存在的问题,以便采取教学干预措施。强化教学过程评价的关键是要强化这4个环节的评价,即从4个环节设计观察量表,对教师的教学过程评分,对分数进行处理分析,以获取教学过程有效性的评价信息。
上述教学过程与结果评价的逻辑过程十分类似,按照这一教学过程设计过程评价,可以做到与结果评价的逻辑过程一致,二者的评价信息可以互相支持、互相印证,有利于结果评价与过程评价形成合力,提高教育评价的效益和效率。
基于这些认识,对教育考试机构而言,虽然不必直接参与过程评价,但理解过程评价的逻辑过程,有利于使结果评价的测试工具与过程评价的逻辑过程保持一致;因此,教育考试机构命题人员需要深入学校,观察教学,理解教学。
3
关于探索增值评价
增值评价(value-added evaluation)实际上也是一种结果评价,只是其评价的不是学生达到课程标准确定的课程目标的程度,而是学生的学习进步程度。增值评价的直接对象是学生,通过学生或学生群体学习增值或相对进步的程度,可以进一步评价教师教学和学校办学的绩效。增值评价考查的学生特质及其观察标志与结果评价相同。
增值评价的工具与结果评价一样,也是测试;但与结果评价不同的是,用于增值评价的测试卷除需要满足用于结果评价的测试卷要求外,还需要在命题阶段进行垂直量表(vertical scaling)和等值(equating)设计[9]。这是由于增值评价需要对学生进行2次或多次测试,才能确定增值或相对进步程度。等值是为了调整不同次测试卷的难度差异,垂直量表设计则是考虑不同次测试考查的学科知识、认知能力的差异。图2为增值评价的试卷垂直和等值设计示意图,图中不同年级的试卷经过垂直设计,其中双向箭头表示等值设计,箭头两端对应的实线框中的试卷与虚线框中的试卷是等值的。每个年级的试卷都分为较易与较难两部分,以7年级和8年级试卷为例,对7年级学生而言,试卷B部分较难,学生几乎不能完全正确解答这部分试题;但经过8年级学习后,多数学生应该能够正确解答这部分试题,如此这样才能表明学生学业的进步。在设计8年级试卷时,由于试卷B部分学生已经做过,不能继续使用,因此设计与B部分等值的B1部分。实现试卷的垂直和等值设计需要相当数量的经过试测的试题,因此唯有开发试题库才能满足增值评价试卷设计的要求。增值测试完成后,还需要运用专门的教育测量技术、方法对测试数据进行处理,才能获得学生或学生群体(如班级、学校等)的增值结果[9-10]。
由于增值评价对教育测量技术要求较高,需要有专业的技术人员完成;因此,探索增值评价的工作应该由专业的考试机构实施。
4
关于健全综合评价
综合评价(comprehensive evaluation)是指在基础教育阶段的升学招生中综合考虑学生的考试成绩、平时成绩以及综合素质评价结果选拔学生的方式。显然,综合评价可以更加科学、全面地选拔人才。健全综合评价的关键之一在于如何使用综合素质评价结果。
从综合素质评价目前的实施情况来看,综合素质评价的基本做法是对学生在思想品德、身心健康、兴趣特长、社会实践、劳动实践等方面的行为作出如实的记录。由于综合素质评价以记实性记录为主,诸多行为记录不能合成某一个或若干个可以比较的指标,评价结果不具有可比性,因此限制了其在招生实践中的可用性。此外,我国的升学招生实践目前无法支持综合素质评价结果的使用,是因为升学考试评卷后,省级考试机构将考生的信息发送到招生学校,招生学校必须在有限的时间内确定是否录取,根本没有足够的时间、人力、精力审阅和使用考生的综合素质评价结果。
为健全综合评价,使综合素质评价在招生实践中发挥作用,可行的办法是,省级考试机构与高科技企业合作,开发人工智能审读综合素质评价结果的平台,利用人工智提取学生的综合素质评价信息,提供给招生学校参考使用。
综上所述,教育评价改革需要有教育测量理论和技术的支撑,需要考试机构的深度参与。考试机构应该加强教育测量理论和考试技术的研究,提高考试开发水平和试卷设计能力,提高考试数据的处理分析能力,尽早将人工智能技术引入综合素质评价结果的分析中,这样才能在即将到来的教育评价改革中发挥重要作用。
相关文章
● 周光礼, 袁晓萍. 聚焦“四个评价” 深化教育评价机制改革[J]. 中国考试, 2020(8): 1-5.
● 张楠, 宋乃庆, 申仁洪. 新时代教育评价改革的价值意蕴与实践路径[J]. 中国考试, 2020(8): 6-10.
● 张志勇, 杨玉春. 综合评价是考试招生制度改革的根本方向[J]. 中国考试, 2020(8): 11-15.
● 刘学智, 田雪. 新时代基础教育评价改革的路向转变[J]. 中国考试, 2020(8): 16-19.
● 许海霞, 王蕊, 马陆亭. 教育评价改革的几个关键问题[J]. 中国考试, 2020(8): 20-23.