韩玉梅 [美]严文蕃蒋丹｜探索增值评价的中国路向：基于美国实践经验的批判性分析

Original 韩玉梅等华东师范大学学报教育科学版 2023-04-20

收录于合集

#华东师范大学学报教科版2023年第2期目录 11 个

#教育评价 16 个

新刊速递 | 华东师范大学学报（教育科学版）2023年第2期目录

特稿

朱德全, 彭洪莉：教师跨学科教学素养测评模型实证研究

教育评价

马莉萍叶晓梅｜金本、银硕、铜博：能力信号还是学历歧视？——基于某“双一流”建设高校10届博士毕业生的实证研究

孙迟瑶刘继安徐艳茹｜谁从在线学习中受益更大？——基于研究生在线知识共享行为的实证研究

刘宝存黄秦辉｜PISA高绩效地区学生的全球素养：个体和学校因素的影响刘骥张晋｜国际学生评估项目（PISA）衍生品：全球教育治理的功利化挑战

2023-2

探索增值评价的中国路向：基于美国实践经验的批判性分析

韩玉梅^1,2 [美]严文蕃³蒋丹¹

1. 西南大学西南民族教育与心理研究中心

2. 西南大学教育政策研究所

3. 美国马萨诸塞大学波士顿分校

摘要：本文采用国际比较和批判性分析的视角，以教师增值评价为抓手，借鉴美国增值评价的理论和实践探索经验，批判性审思教师增值评价的本质特性、技术边界、应用限度、融合趋势、实施条件等问题，多方位探寻增值评价在中国教育评价体系中的价值路向、技术路向、应用路向、发展路向和实践路向。分析发现，教师增值评价具有以学生成绩增幅结果为依据诊断教师贡献度、以学生成绩增长的因果效应表征狭义“教师效能”、以增值模型为核心技术测度“增值”、以特定年级学科教师为适评对象等本质特征和局限，因此，在充分肯定和最大化发挥其循证导向和技术优势的同时，要避免对其价值的过分夸大和泛化。增值模型在信效度和统计偏误等技术层面依然存在激烈争议和未解难题，应针对性开展国际前沿技术探索，以破立并举的原则实现本土化技术突破与创新。美国教师增值评价政策演进和大量实证研究证明，增值评价结果服务高利害决策存在较高风险，应强化其诊断功能。增值评价与多元评价方法的融合趋势成为国际共识，应以价值多元化为导向，以利益相关主体的多元协商为原则，构建增值评价与多元化测评方法及多样化证据的系统性融合机制。增值评价从理论走向实践，须逐步在全国学生学业成就及进步程度测评体系和工具体系建设、动态追踪数据库建设、专业团队建设、全过程反馈机制建设等方面做好充足准备，最大化实现增值评价可能为整个教育评价体系所“增”之“值”。

关键词：增值评价 ; 教师增值评价 ; 教师效能 ; 批判性分析

本文发表在《华东师范大学学报（教育科学版）》2023年第2期 #教育评价栏目

韩玉梅，教育学博士，教育部人文社科重点研究基地西南大学西南民族教育与心理研究中心副研究员、硕士生导师，西南大学教育政策研究所、中国基础教育质量监测协同创新中心西南大学分中心特聘研究员。

严文蕃，通信作者，美国马萨诸塞大学波士顿分校（University of Massachusetts Boston）教育与人文发展学院教授、博士生导师。

目录概览

一、引言

二、价值路向：理性研判本质特性，探索增值评价的价值定位

三、技术路向：正视增值模型争议，探索增值评价的技术边界

四、应用路向：强化诊断功能，探索增值评价结果的应用限度

五、发展路向：构建多元化测评体系，探索增值评价的融合发展之路

六、实践路向：做足条件准备，探索增值评价的实施策略

七、结语

一、引言

作为教育评价体系中的一种重要理念和方法，增值评价一直颇具争议性。2020年10月，中共中央国务院印发了《深化新时代教育评价改革总体方案》（以下简称“《方案》”），提出要“探索增值评价”，引领教育研究者围绕增值评价开展理论、技术、实践等多层面的探索，通过国际比较及本土化的研究与实践，摸索出一条适宜新时代中国特色教育评价体系的增值评价路径。

20世纪80年代以来，增值评价在美国被广泛应用于学校评价、教师评价等教育评价体系中。其中，增值评价在教师评价体系中的应用引发了学术界旷日持久的争鸣与批判，也在实践层面掀起了一线教育者的长期对抗与质疑，经历了由占主导地位、大规模推广到与其他评价方式融合式发展和限定性、综合性应用的态势变革。在我国，增值评价一直处于理论探索和以研究为目的的小范围试验阶段，尚未在政策和实践层面开展实质性的大规模探索。20世纪末，少数学者开始尝试将增值评价的理念和方法技术引入到我国素质教育评价体系中（张兴，1998）。21世纪以来，一些学者尝试运用增值评价模型在我国样本地区开展学校效能、教师效能评价的实证研究（马晓强等，2006；边玉芳等，2007；邵越洋等，2020）。《方案》发布以来，在“新时代教育评价改革”战略视域下探讨增值评价的研究数量激增，研究热度攀升到前所未有的高度（郭元祥等，2021）。众多学者积极肯定了增值评价的价值，认为相比过程评价，增值评价既关注过程，又重视起点，具有较为合理的评价理念及科学的统计方法，保证了更加公平、公正、客观、科学的判断和比较，应该成为新时期我国教育评价的重要方式（杨小微，2020；邵越洋等，2020；边玉芳等，2015）。不可否认，增值评价具有强有力的量化表征能力及追求教育评价科学化、客观化的价值逻辑起点，可以为促进我国教育高质量发展带来新思路。然而从总体上来看，国内已有关于增值评价的研究重引荐与褒奖，轻批判和反思，对增值评价的弊端与局限、未解的难题与挑战、国际发展动态及实践证据剖析相对不足。

当前，在深化新时代教育评价改革战略带来的重要机遇和利好形势下，中国增值评价的本土路径何在？如何理性研判增值评价的本质特性与利弊优缺，客观把握增值评价在我国教育评价体系中的价值定位、技术边界和发展路向？如何在实践中最大化发挥增值评价的优势，为建设富有时代特征、彰显中国特色、体现世界水平的教育评价体系做出应有的贡献？围绕这些基本问题，遵循“坚持中国特色，扎根中国，融通中外”的原则，本文采用国际比较和批判性分析的视角，以教师增值评价为抓手，借鉴美国增值评价的理论与实践探索经验，批判性审思教师增值评价的本质特性、技术边界、应用限度、融合趋势、实施条件等问题，多方位地深入探寻增值评价在中国教育评价体系中的价值路向、技术路向、应用路向、发展路向和实践路向。

二、价值路向：理性研判本质特性，探索增值评价的价值定位

任何一种教育评价方法都是优势与风险并存的，在考量和选择增值评价方法的适切性和价值路向时，首先需要思考和权衡增值评价相较于其他方法所独具有的本质特性，从而明晰其在特定文化背景下和教育评价体系中的价值定位（NRC, 2010, p. 56）。

（一）研判教师增值评价的内涵与本质特征

“增值”（value-added）的概念来源于经济学领域，本意是指商品总价值扣除生产成本、中间投入后额外增加的价值部分，反映的是产品核心要素所贡献的价值（Deardorff, 2016）。引申到其他领域，“增值”泛指特定物品（或服务、人员）超出标准预期额外创造的更多“价值”。1971年，教育经济学家埃里克•哈努谢克（Eric Hanushek）发表文章探讨教师特征变量与学生成绩之间的关系，从教育投入产出的视角首次将经济学中的“增值”概念引入教育研究领域，将教师特征等影响因素变量视为投入成本，将学生成绩视为教育过程产出的“商品”，将一定时期后学习成绩的增长变化视为“增值”，并构建教育生产函数模型来定量刻画教师特征等参数与学生成绩增长的关系（Hanushek, 1971）。这一研究确立了教育学领域中“增值”概念的原初涵义，即学生在学习过程中受到教师等变量影响后，其成绩在特定时间段的增长幅度，反映了教师等关键要素对学生成绩产出所贡献的价值增量。

基于拉夫尔•W.泰勒（Ralph W. Tyler）的经典“目标—结果”导向评估理论，即主张评价是将实际教育结果与预期目标之间进行比较的过程，“增值评价”（value-added assessment）是基于学生成绩增长实际结果和预期结果之差值，来对教师、学校等影响因素的效能和贡献度进行评价的一种理念，旨在满足教育当局对教育目标和结果及其实现进程的监测需求，以及对学校和教育者促进学生学习的效能的研判需求（Sanders & Horn, 1994）。根据不同的测评目的，增值评价可以运用到教师评价、学校评价等教育评价子体系中。在教师评价子体系，增值评价即指以特定周期中学生学业成就增长幅度为评价依据，对教师促进学生学业增长的效能或贡献度进行评判的理念和手段（Darling-Hammond et al., 2012）。换言之，教师增值评价是检测学生特定时间段内学业成绩的实际增长在多大程度上归因于教师效能的测评手段，被视为衡量教师质量水平的重要标尺。

图1简要呈现了教师增值评价中“增值”的二步测算方法。首先，采用增值模型（value-added model），代入教师所教学生的标准化测试起点成绩数据（如3年级数学成绩）、学生个体特征变量数据、学校层面控制变量数据、教师变量数据等进行测算，预测出学生在特定时段后（如一学年）的成绩增幅均值（即4年级数学成绩预测增幅均值）；其次，将学生同等时期实际成绩增幅均值（4年级数学成绩实际增幅均值）与预测成绩增幅均值进行比较，所得的差值即为教师的“增值”分值，即教师效能估算值，该分值越高，表示教师效能越高，反之则越低（SDP, 2012）。

图 1 教师增值评价的概念图示

（来源：译自哈佛大学教育政策研究中心战略数据项目组报告）

依据上述内涵阐释，可以基本把握教师增值评价的几个本质特性：

其一，以学生成绩增幅结果为依据诊断教师贡献度。教师是促进学生学习的关键，学生学业成就在一定程度上是教师等关键因素综合作用的产出结果。教师增值评价通过学生标准化测试手段和特定周期成绩增幅数据实现对学生学习进步程度的量化测度，以此作为重要参数来衡量教师对学生成绩增长的贡献度，这为教师评价提供了一种便利的操作方法和数量化的精准描述。相较于主观的课堂观察法、学生调查法和传统的终结性成绩评估法等，增值评价采用一种纵向的视野将学生学业成就的起点纳入考量范畴，控制背景变量和影响因素，检测特定周期学生成绩的纵向发展变化与“净增长”程度，实现了测评客体在时空维度由定点向过程、由绝对向相对、由静态向动态的跨越。这一评价方式为教师效能评判提供了更加立体、公正的客观依据，为教师促进学生学习的贡献度评估提供了形成性、诊断性工具，为教育产出结果、教师质量水平和教育投入产出效益的定量刻画提供了可行方案，具有主观测评方法无法比拟的特性（Amrein-Beardsley et al., 2016）。然而，教师增值评价理念并未从根本上摆脱结果取向的桎梏。一方面，学生成绩增幅是以不同时段同一标准化考试成绩为基础数据的测算结果，尽管避免了静态考试成绩绝对值的偏误，但依然难以克服甚至强化了师生对考试结果的追求，这为美国基础教育领域不期望看到的“为考试而教”的现象埋下了伏笔。另一方面，基于学生成绩“增值”结果评价教师效能的价值取向隐含了将学生成绩增幅视同为教师教学结果的逻辑，对增值评价结果的倚重容易重蹈教师质量与学生成绩简单捆绑的“唯分数”覆辙。

其二，以学生成绩增长的因果效应表征狭义的“教师效能”。教师效能（teacher effectiveness）是教师评价的客体。对教师效能的界定影响着教师评价所采用的标准和方法，不同教师评价方法也反映了对教师效能不同内涵维度的侧重。美国国家教师质量综合中心（National Comprehensive Center for Teacher Quality）发布的一份关于教师效能的报告较为综合地指出了教师效能内涵的五个维度，包括：教师对学生有高期望并帮助学生提高学习成绩的能力；培养学生积极情感态度价值观、个人效能感及合作精神的能力；使用不同教学资源按照学生需求设计和提供学习机会、实时监测评价学生发展的能力；促进课堂和学校多元化发展及培养学生公民意识的能力；与其他利益相关者合作促进学生成长发展的能力（Goe et al., 2008）。教师增值评价采用了上述教师效能第一维度的狭义界定，仅指向了以学生成绩提高为标识的教师教学成果的评价范畴（陈玉琨，2007，第130页），是统计学意义上教师对学生成绩增幅产生的因果效应。换言之，在增值评价体系中，教师效能被狭义地表征为学生在特定时间段内接受某教师的教育后其学习成绩的变化差异（McCaffrey et al., 2003, pp. 9−15）。这一立场在“力争上游”（Race to the Top）项目行动纲要对“有效教师”（effective teacher）的操作性界定中得到了印证。该文件将“有效教师”界定为“所教学生成绩至少在一个年级水平、一个学年测评中达到了预期增长指标的教师”（USDOE, 2009, p. 12）。在这样的评价标尺下，学生成绩增长幅度均值高的教师被归类为“高效能教师”，反之为“低效能教师”，甚至“不合格教师”（Kupermintz, 2003, pp. 292−293）。

由此产生的问题是，教师效能可以依据学生成绩来被认知和判定吗？长期以来，众多学者研究教师和学生成绩之间的关系，认为教师效能是最重大的影响学生学习和学业成就增长的关键因素（Sanders & Horn, 1998；Johnson, 2015），其水平差异化是导致学生学习差异化的重要原因（Darling-Hammond, 2000），因此以学生成绩为标准来评价教师具有高度的合理性和可操作性（Millman, 1997; Tucker & Stronge, 2005, p. 15）。然而，也有大量采用大规模学生标准化测试数据分析学生成绩影响因素的研究发现，教师对学生学习成就的解释力仅占所有影响因素的1%—14%，而更具有解释力的影响因素来自于学校和教育体制机制等层面（ASA, 2014）。众多学者主张，教师对学生学习的影响并不是唯一或者最强的影响因素，即便统计模型能够在一定程度上筛除其他变量的统计噪音，但依旧不可避免地会遗留一些影响（Haertel, 2013, p. 5）。争议之下，将学生成绩作为教师效能高低的主要评判依据，尤其将基于学生成绩的增值评价结果与高利害的教师问责挂钩，其合理性和公平性不仅值得怀疑，甚至会导致负向的抑制作用（Everson, 2017）。上述争议可以反映出，增值评价对教师效能的量化表征在本质上具有双重限度：一是增值评价所测度的教师效能仅聚焦教师促进学生成绩增长的“净效应”，而不能等同于广义、多元的“效能”；二是增值评价对教师效应的测度是以对其他影响因素变量的人为控制为假设条件的，而其能够在多大程度上满足前提假设、精准辨别教师及其他影响因素对学生学习成绩的影响效应差异是长期以来有关增值评价方法论的争议和未解难题所在。

其三，以增值模型为核心技术实现“增值”的测度。增值评价理念得以实现的核心技术在于增值模型的科学构建。增值模型（value-added modeling, VAM）是借助计算机软件和学生学业成就数据库中相关数据来统计分析学生成绩增长情况以及教师等教育要素效能高低的数学统计模型（Amrein-Beardsley, 2008）。构建教师增值模型的目的是在排除或控制外部影响变量的情况下，测算学生特定时期的成绩预期增长净值与同期实际增长值的差值，并用这个差值无偏倚地反映教师对学生学业成绩增长的因果效应，或称贡献度（Koedel et al., 2015）。从理论上讲，在统计模型建构合理、前提假设条件满足、各项学生成绩测评工具信效度高的情况下，这一目标是能够实现的。但现实中，这些条件往往难以实现。

随着统计技术和教育大数据的发展，增值模型处于持续的动态变化与修订完善进程中。首先，增值模型并非唯一的基于学生成绩的教师评价模型。在增值模型诞生之前，甚至到今天，教育统计学专家们一直在持续探索和构建多样化的模型来测评学生成绩与教师效能之间的影响关系。美国各州教育决策者也根据各州实际需求采纳了不同类型的基于学生成绩的统计模型，如状态模型、交股模型、成长模型等（NRC, 2010, pp. 3−4）。其次，在各类增值模型及其变式中，从简单的线性模型，到成就累计函数模型、固定效应回归模型、双步骤平均残差增值模型等，更多更复杂的遗漏变量不断被纳入模型，以便更加科学地衡量教师效能对学生成绩的贡献度。然而，如何精准地遴选协同变量、如何有力地解释测量误差等依然是当前增值评价技术领域面临的重大难题（Koedel et al., 2015）。实际上，不同类型的增值模型抑或其他基于学生成绩的测评模型都有其特色与局限，没有任何一个模型是万能的或绝对精准的。但值得肯定的是，多元化模型的探索为全美各州自主建构和完善本土化的教师评价体系提供了丰富的工具选项和组合空间。随着人们对学生学习、教师效能及二者关系的认知能力提升、统计分析技术的日益完善、教育大数据挖掘技术的发展，以及各级各类学生成长发展与学业成就监测追踪数据库的建立与健全，增值模型必将不断完善。

其四，以特定年级学科教师为增值评价的主要适评对象。学生的连续性标准化测试成绩是增值评价测算所倚赖的基础数据，因此增值评价的适切性在很大程度上受限于学生特定周期内标准化测试成绩数据的可获取性和质量，并不普适于所有科目、所有年级、所有教师。在美国，以国家教育进步考试（National Assessment of Educational Progress, NAEP）、适当年度进步测试（Adequate Yearly Progress, AYP）、各级各类州级学业成就测试（State Achievement Tests）等为代表的标准化学业水平测试较多适用于公立学校的数学、阅读等主要科目，部分测试覆盖科学、历史、经济、地理等学科。从时间维度来看，有的测试是年度测评，有的以三年级、五年级、八年级为主要测试对象。为避免大量缺失数据造成的统计偏误，适合参与增值评价的教师须满足特定的基本条件，即：确保其学生既参加了特定年级特定学科的基线测评（如三年级数学测试）、在测评阶段持续在该教师班级接受教育，且参加了后续学年的同类测评（如四年级数学测试）（Opper, 2019）。为满足上述条件，增值评价无形中为其适宜对象设置了门槛，不能广泛应用于所有教师和学生。这一适用性限度导致增值评价的可推广性和公平公正性受到削弱。一方面，它难以推广到学生成绩数据获取性低的区域、学科和教师对象群体，难以在采用不同测评标准和测评工具的地域范围、年度区间进行被评教师效能的跨群体、跨时空比较。另一方面，被评教师对象的公平公正性被削弱。尽管学生学习往往是多学科教师共同作用的结果，数学、阅读等主要科目的教师却要背负起学生学习成就增长结果的主要责任，接受基于增值评价结果的问责。

（二）锚定增值评价在中国特色教育评价体系中的价值定位

从以上对增值评价内涵和本质特性的剖析中可见其具有显著的优势和特色，但其暴露的局限更提醒我们要理性认识和谨慎明确增值评价在我国建设新时代中国特色教育评价体系中可能发挥的价值，避免过分夸大和泛化应用。

其一，应充分肯定和最大化发挥增值评价的循证导向和技术优势，满足《方案》中“扭转不科学的教育评价导向”，“提高教育评价的科学性、专业性、客观性”的战略需求。一方面，增值评价秉持技术理性的立场，用统计测算模型和客观数据达成对学生学业进步和教师效应的数字化循证与解释预测，为教师教学实绩的产出提供科学检测手段和客观证据，弥补主观评价和终结性评价中可能存在的模糊评判和刻板偏见，实现突破超越和更新迭代。另一方面，增值评价既考核学生的学业结果，也考核努力程度、进步发展，并在技术手段下排除其他变量干扰，基于事实判断推导出对教师的价值评判，进一步提升学生学习和教师贡献度测评的客观性、精准性和公正性。在我国新时代教育评价改革过程中，应肯定增值评价的循证导向和技术优势，最大化挖掘和发挥其在教育评价体系多领域的价值，提升教育评价体系的整体科学性。

其二，应明确增值评价“有所为、有所不为”，确保其价值与评价需求的匹配。《方案》在改革教师评价专题中提到要“突出教育教学实绩”，而增值评价的属性、功能和生成背景恰恰指向了对教师教学实绩的评估，可以为未来开展聚焦教学实绩的中国特色教师增值评价体系提供重要思路，是当前探索增值评价应用领域的重点所在。在“探索增值评价”的政策热潮下，研究者们热烈探讨增值评价在学前教育、高等教育、职业教育、特殊教育等不同教育阶段和领域的应用，这种泛化的倾向值得反思。增值评价当前具有的局限性启示我们，教师增值评价尚不能应用于教师教学实绩以外的效能维度评估，不能用于不具备技术成熟度和数据基础的客体测评，不适用于刻意开展非量化教育指标的评估等。在探索增值评价的过程中，需着重衡量增值评价方法的特有属性和功能与评价主体需求间的效用关系和匹配程度，杜绝对增值评价效用的夸大和应用的泛化。

三、技术路向：正视增值模型争议，探索增值评价的技术边界

作为一种以统计模型构建、大规模数据采集与分析为核心技术的测评方法，增值评价的方法论根基和科学化水平是其立足之本。在统计学意义上，增值评价要实现其测评目的，必须至少满足几个理想条件：一是学生学业成就能够被科学测评，且测评工具能够真实反映个体学生在同样间隔单位时期内纵向的学习成绩增长情况；二是教师是学生接受测评的纵向时期中唯一的贡献者，或经过对非教师变量的统计学控制，能够精准测度出教师变量对学生成绩增长的贡献度；三是学生被随机分配到不同学校和班级中，每个教师所教班级中的学生学习环境、学生生源群体特征无显著差异（Darling-Hammond, 2015）。其中，前两个条件关涉信效度问题，第三个条件关涉统计偏误问题。然而现实中，上述假设条件均难以绝对满足，甚至不可能满足，因此增值评价在方法技术层面饱受批判。梳理增值评价方法与技术层面的争议有助于摸清增值评价的技术边界，继而在探索中寻求突破。

（一）正视增值模型的争议

1. 信效度之争

高水平的信效度是良好测验的基本特征，前者是指测验的可靠性、一致性、稳定性，后者指测验能测量出目标特性的程度，即实现测验目的的有效性和精准度（朱德全，宋乃庆，2013，第88页）。对于增值评价而言，对学生成绩增幅、教师效能测评结果的一致性和稳定性、有效性和精准度，是检验增值模型信效度的根本问题，也是国际学术界持续关注的争议焦点。

其一，对有关增值评价模型一致性和稳定性的批判。增值模型的统计假设是不论在何种情境下，增值评价都能够持续、稳定、一致地测评出教师对学生成绩的影响效应与贡献度。然而，多项研究表明，从不同时间、测评数据、模型类型、工具、地域等维度对比中，增值评价结果都表现出不稳定性和不一致性，有的差异甚至是悬殊的、颠覆性的（Goldhaber, 2015）。一是同一教师群体在不同年度的测评结果波动幅度较大。多项研究发现，教师增值评价结果排名的连年数据中，仅有四分之一到三分之一教师前后两年的排名状况相对稳定，大约有10%—15%比重的教师从第一年排名垫底的状况翻转为第二年的名列前茅，也有大约相似比重的教师前一年排名靠前而到第二年排名垫底，这种“过山车式”的排名波动使得学校、同行、教师自身对教学能力的认同充满不确定性，尤其将排名和教师奖金、补贴等挂钩后，人事决策存在严重的风险和不可信度（Sass, 2008; SDP, 2012）。二是基于不同类型学生测评数据的增值评价结果差异较大。一项研究显示，将同年度、同学科的州级标准化测试数据和另一项更高难度测试数据代入同一增值模型进行测算，两类增值评价结果排名对比发现，约20%—30%在前者排名靠前的教师，在后者排名垫底（Bill & Melinda Gates Foundation, 2010）。三是不同增值模型可能测算出不一致的增值结果。有研究采用不同的增值模型对同一批次语文和数学学科教师效能进行测算，发现语文学科中占比约46.4%的教师在两种统计模型下的测评结果是基本一致的，但约8.1%的教师在一个模型中被测定为有效教师，在另一模型中等级更高；约12.6%的教师在一个模型中测得最低分值，但在另一模型中却被评定为有效教师。数学学科中占比约60.8%的教师在两种统计模型下的测评结果基本一致，但约1.4%在模型一中被评定为无效的教师在模型二中被评定为有效，2.7%在模型一中所得测评结果为有效的教师在模型二中被评定为无效（Briggs & Domingue, 2011）。尽管比重不高，但对测评结果不一致的少数教师而言影响是重大的。四是增值评价结果与课堂观察等质性评估结果存在不一致性。2016年，美国《教育周刊》报道的案例显示，一位有着18年教龄的通过课堂观察等测评方法被评定为优秀的老教师在增值评价中被定级为低效能教师，引发了该教师对教育行政部门的起诉，引起全美关注，而当年类似的诉讼案在全美发生了14起（Harris, 2016）。五是增值评价结果在区域内和区域间不具有一致性和可比性。一项基于四个学区增值评价数据的跨区域比较研究发现，在区域间、区域内不同的参照系下，对“高效能”和“低效能”教师的划分和评定标准存在显著差异，不具备一致性和可比性（Blazar et al., 2016）。

其二，对有关增值评价有效性和精准度的批判。首先是标准化测试对学生学业成就的检测效度存疑。增值模型运算的基础数据来源于学生的标准化测试成绩，因此增值评价能否有效反映学生成绩的增长幅度在很大程度上取决于标准化测试工具的效度。然而，自从《不让一个孩子掉队法》（No Child Left Behind, NCLB）推动大规模标准化考试以来，美国学界有关标准化考试的批判和质疑就从未间断过：一是大规模标准化测试旨在依据特定年级的平均学业标准检测全体学生的达标水平和正态分布情况，难以精准测评出低于或高于年级平均水平学生的真实学业成就及其增长幅度边界（Darling-Hammond, 2015）。在这样的局限下，采用标准化测试数据来对那些教授薄弱班级或精英班级的教师进行增值评价，其测评结果必然存在统计学意义上的偏差（Haertel, 2013, p. 8）。二是以标准化测试成绩增幅为导向的增值评价诱致教师教学行为发生偏移，部分教师将大量时间用于备考应试，甚至部分教师为获取更高增值分值，刻意在学生标准化测试中协助学生作弊、篡改学生成绩，严重影响了学生标准化测试结果的真实性（Amrein-Beardsley et al., 2016），间接削弱了标准化测试对学生学业成就和进步程度的检测效度。其次是增值评价对教师效能检测的精准度受质疑。增值评价的效度还体现在能否在控制其他变量的前提下精准分辨教师对学生成绩增幅的影响效应，从而精准反映教师效能的高低。大量研究表明，学生学业成就的影响因素除了教师以外，还有学校环境、办学条件、教学资源、同伴关系等教育系统内部要素，学生自身种族、性别、智力水平、前期学业基础、学习品质、课外学习活动等个体因素，以及学生所处的社会文化背景、家庭社会经济地位、父母教育背景、重要他者、社区环境等外部因素，教师只是所有错综复杂的影响因素中占比不高的一个因素（Good, 2014；Haertel, 2013, p. 5）。增值评价的前提假设是一旦将其他变量进行控制，便可合理地将特定时段内学生成绩的增长归因于教师效能，然而，没有任何一个统计模型能够毫无保留地筛除教师以外其他变量的影响。此外，美国各州建立的数据库中，学生个体变量和其他外部变量的长期纵向追踪数据普遍存在缺失现象，客观制约了统计模型对其他影响变量的人为控制。即便具备最完整的变量数据，这些非教师变量和其他难以解释的遗漏变量对学生学业成就主因子造成的混杂效应也难以被识别和分辨，从而影响对教师效能的精准测度（Amrein-Beardsley & Holloway, 2019）。大量研究证据引发了学界对增值评价效度的质疑，认为增值评价的估算“极为不准确”，并建议使用者谨慎应用（Ballou & Springer, 2015）。

2. 统计偏误之争

增值评价的另一重要理想假设是教师和学生的分配具有一定随机性，基于随机抽取的学生样本成绩数据，能够分析推断出学生整体的成绩与教师效能之间的因果关系，从而客观研判教师效能对成绩增长的贡献度。然而现实中，受自然地理条件、历史文化、经济社会发展水平、教育政策等因素影响，大多数学区、学校都不是按随机性原则来组织安排教师资源配置和教育教学活动的，绝大多数学生家长也不是按照随机性原则来择校的。在经济水平两极分化、种族和社会阶层分级现象严重的美国社会，优质教师资源往往被相对固化地吸引或自主流动到优质学区、优质学校、优等生班级，而相对薄弱教师则流入处境不利学校和班级，教育两极分化现象普遍，班级内学生群体的同质性程度较高（Amrein-Beardsley et al., 2016）。大批在低收入社区学校工作的教师们，需要同时面临教育资源相对匮乏而教学、心理、健康、社会支持需求更加迫切的挑战，学生学业成绩在更大程度上受到种族、文化资本、经济社会地位等外部因素的影响，教师对这些处境不利学生学业成就增长的艰辛付出与效能贡献，更加难以用简单的标准化测试成绩增幅来体现（Darling-Hammond, 2015）。在上述现实情境下，违背随机性原则的班级和学生抽样策略必然会导致增值模型产生统计偏误，影响对处境不利教师评判的公平性和公正性（Amrein-Beardsley et al., 2016）。而截至目前，尚没有任何统计模型和统计分析技术能够补救因随机性缺失而导致的结论偏倚问题（Braun, 2005）。

（二）突破增值评价在中国特色教育评价体系中的技术边界

增值评价以技术见长，探索增值评价需要着力加强增值评价模型的技术研发，摸清增值评价的技术边界，全面认识增值评价技术中现存的争议和短板，既不要走向对技术的神化，也不要为技术障碍所惧，保持破立并举的决心，在技术层面的探索中实现突破与创新。

一是应加强方法和技术研究，有针对性地探索增值模型信效度缺陷和统计偏误等的破解思路和优化路径。吸取美国增值评价技术争议的深刻教训，着力研究多种增值模型、测算方法及标准化测评工具的优缺点。将增值评价方法技术层面的探索与我国国家和地方基础教育阶段学生标准化考试测评系统、国家基础教育质量监测系统、教师评价系统等的研究与建设相关联。探索学生成就增幅和进步程度的本土化测评标准、测评技术、测评工具，提升各级各类追踪性测评工具对学生学习表现的测评效度和数据储备，不断探索增值评价方法和技术的优化路径，避免技术偏误对学生、教师、学校等评价客体造成误判和利益损害。

二是应充分利用信息技术，着眼国际前沿，梳理增值评价技术发展的现实样态、重大挑战和发展趋势，不断寻求技术突破，以增值评价技术攻关为抓手向国际社会贡献中国智慧和中国力量。《方案》强调要“坚持中国特色，扎根中国、融通中外”，增值评价的本土化探索要建基于中国已有教育评价体系和新时代教育评价改革的现实土壤和政策土壤，既要学习借鉴国际经验，又要有所突破和超越，符合中国特色教育事业发展特征和需求。积极开展教育评价国际合作，在大力度学习借鉴国际前沿技术、研发中国特色的本土化增值模型的同时，积极迈入国际研究团队的探索行列，为增值评价现存难题的技术攻关需求贡献中国理念和中国方案。此外，没有任何一种测评模型、统计算法是万能的，因此要避免过度依赖单一的增值模型和测算方法，要发展和建构多元模型和算法，通过多样化算法的叠加、互补和相互比较、印证，来丰富增值评价旨在解释和预测的教育问题的推理逻辑和破解思路（杨欣，2022）。要继续加强教育信息技术、教育统计技术、教育心理测量领域的理论创新发展和实践应用发展，着力助推增值评价以其独特的优势在教育评价领域发挥日益重要的作用（辛涛等，2009）。

四、应用路向：强化诊断功能，探索增值评价结果的应用限度

教师增值评价的根本目的在于提升教师质量，最终促进学生学习和教育发展。为了实现这一目的，增值评价结果在实践应用中发挥着两大核心功能：一是诊断功能，或称发展性、形成性评价的功能，即依据测评结果及时判别和发现教师教学过程中的优势与问题，继而为其提供有针对性的专业发展指导方案，促进教育教学效能的提升；二是行政管理功能，或称人事评价的功能，即依据测评结果判定和核算教学实绩，并做出关涉教师奖惩、晋升、薪资待遇和绩效分配等切身利益的人事决策。作为教师效能的客观检测手段，增值评价的诊断功能可以服务低利害决策，为教师提供优化教学策略和提升专业能力的重要信息和参考依据；而作为行政管理者监督和问责的手段，增值评价的行政管理功能指向高利害决策，直接影响教师切身利益，甚至可能引起被评人员的焦虑和负向反馈，尽管“适度的焦虑可以起到提高工作质量的动机作用”（陈玉琨，2007，第21—23页）。两大功能的发挥伴随增值评价结果的应用，而如何应用结果、如何确定两大功能占据的权重取决于应用者和决策者的选择。与此同时，利害的高低程度与决策依据的科学性程度成正比，做出高利害决策所提供的测评证据必须更加确凿和精准，否则有可能会与促进教师成长的初衷背道而驰（NRC, 2010, p. 60）。

（一）以诊断功能的强化遏制高利害决策风险

纵观美国教师评价和问责体系的演进历程，增值评价经历了由发挥行政管理功能为主导向发挥诊断性功能为主导、由以监督激励教师为目的向促进教师专业发展为目的、由服务高利害决策向服务低利害决策的历史转向和发展趋向，其曲折的发展道路与经验教训值得借鉴。同时，增值评价结果能否以及可以在何种程度上作为教师问责和人事决策的依据是学术研究领域的又一个争议焦点。对美国增值评价政策演进及实证研究发现的梳理有助于中国在探索增值评价的过程中少走弯路。

其一，以政策演进为据，低利害融合性发展是历史所趋。20世纪中后期，全美教育质量下滑危机推动大规模教育改革以提升学生学业成就，这一战略需求为增值评价的产生和发展提供了宏观驱动力。1983年，《国家处在危机之中：教育改革势在必行》（A Nation at Risk: The Imperative for Educational Reform）将当时美国教育中存在的学生学业成就低、国际竞争力低、功能性文盲比例高、难以满足高质量人力资本需求等问题拉入全美民众的视野，呼吁各州发动深刻的教育改革以全面提高教育质量，并提出五大改革任务和系列举措，其中即包括推动大规模标准化考试、提高考试标准和期望，并持续监测评估学生成绩进步情况；推行绩效工资（performance-based salary），将教师评价系统与教师待遇、晋升、终身教职、留任等高利害问责决策挂钩（USNCEE，1983）。与此同时，传统的以课堂观察为主导的主观性教师评价体系在实践中暴露了诸多问题，教育政策制定者急需一种科学的测评方法来客观诊断和识别教师等关键影响因素对学生学习的促进效能和贡献度，为高利害的教育问责体系提供客观依据（Sanders & Horn, 1998），这进一步促进了增值评价的发展。自此，全美各州开始探索教师评价改革及其与学生成绩的关联。其中，田纳西州采纳了统计学专家威廉•桑德斯（William Sanders）建立的“增值评价模型”（后称为“桑德斯模型”， Sanders Model），即基于特定学生变量的控制测算学生特定时期数学和阅读成绩的增长，并以此增长数据来评价学校效能和教师效能的数学统计模型（Sanders & Horn, 1994）。田纳西州于1992年将这一模型纳入该州《教育改进法》（Education Improvement Act），构建了美国教育评价历史上颇具影响力的“田纳西增值评价系统”（ Tennessee Value-added Assessment System，TVAAS）。这一系统首次在政策和立法层面确立了教育增值评价的合法地位，及以此评价结果作为教师问责依据的合法话语（Sanders & Horn, 1998），掀起了全美范围内增值评价的研究热潮和行动热潮。

21世纪以来，《不让一个孩子掉队法》的颁布和“力争上游”基金项目（Race to the Top Fund Program）的推动为增值评价的大规模制度化发展起到了里程碑式的助推作用。前者主导了全美标准化教育改革，激励各州推动年度学生学业成就标准化考试、年度学业进步测评与报告、基于标准的教师质量评价、基于学业成就的学校效能和教师效能评价、教育问责体系构建等改革，为增值评价的制度化发展提供了政策空间，奠定了全美标准化测评及学业进步测评的数据基础，为大规模推行增值评价提供了保障条件（USDOE, 2002）。后者发起了K-12阶段共同核心标准（Common set of K-12 standards）的建构，大力度强化了学生标准化考试及州级追踪数据库建设，进一步推动基于学生标准化成绩增长的教师评价体系改革，鼓励以评价结果为依据制定高利害教师问责和用人决策，提升教师效能（USDOE, 2009）。近十年间，在联邦政府教育基金的驱动下，美国各州掀起了一股将学生成绩增长纳入教师评价体系并作为教师问责依据的立法潮（National Conference of State Legislatures, 2010）。据统计，截至2016年1月，全美44个州及华盛顿哥伦比亚特区（约占全美行政区划88%）采纳了增值评价来推动当地学校教师效能评估，并将评估结果用于当地学校教师的高利害人事决策中；超过30个州及华盛顿哥伦比亚特区（约占61%）颁布了相关法律法规强制学校将增值评价纳入教师评价体系中（Collins & Amrein-Beardsley, 2014）。增值评价作为一种主导性政策工具在全美教育评价系统中迅速推广开来。

然而，随着大规模推广，增值评价在实践应用中暴露的问题和在学术研究证据下暴露的弊端受到越来越多批判。美国联邦政府调整评价方向，逐渐弱化增值评价的主导性地位和高利害问责关联，逐渐进入了限定性、融合性发展阶段。2015年12月，奥巴马政府签署颁布了《每个学生都成功法》（Every Student Succeeds Act, ESSA），修正了有关标准化考试的条款，并将问责权转移到各个州教育部，赋予各州自主研制州级学生学业标准、采取多样化学生学业成就和教师效能测评方式、根据各州特色提升教育质量的权利和责任。此外，该法还专门强调，教师评价不能以学生学业成就表现为唯一依据，鼓励采用多样化方法对教师教学表现和效能进行综合评价（USDOE, 2016）。该法案的颁布迎来了美国教师增值评价应用性发展的分水岭。各州教育部对增值评价在教师评价体系中的定位做了调整与修正，一些州（如纽约州、俄亥俄州、田纳西州等）继续沿用教师增值评价方法，但也有越来越多的州（如阿拉巴马州、亚利桑那州、乔治亚州等）废止或改革了基于增值评价结果的教师问责体系；大多数州不再将增值评价结果与高利害教师用人决策挂钩，而仅作为辅助性的问题诊断依据为教师专业发展提供指导；即便依然使用原有的或修正后的增值评价法，但大多数州也不再将增值评价结果作为教师评价体系的唯一甚至核心方法，而是将其与课堂观察、学生调查、教学档案评估等方法进行融合，降低增值评价分值在综合评价分值中所占的权重。过去以增值评价为主导、强化增值评价行政管理功能的教师评价体系，最终转向强化诊断功能、以增值评价结果作为辅佐性诊断依据、融合多种测评方法及多样化高质量证据的综合评价体系（Amrein-Beardsley & Holloway, 2019）。

其二，以实证研究为据，避免高利害决策是证据所指。在美国学者有关增值评价服务决策功能的争议中，站在拥护方立场的学者们一方面积极采集实证证据，肯定增值评价主导的人事决策在优化师资队伍结构、提升人事管理效率、完善教师退出机制、激发教师内生动力等方面的作用和价值；另一方面，他们持续开展长期追踪研究，验证增值评价导向下教师对学生发展起到了长远的积极影响。有研究发现，增值评价的实施推动了“低效能”教师的自主离任，激发了留任教师尤其是得到高绩效奖励的“高效能”教师的内生动力，进一步有效提升了其所任教班级学生的成绩增长幅度（Dee & Wyckoff, 2015）。一项对3—8年级学生纵向追踪20年的研究发现，那些在3—8年级阶段就读于增值评价分值高的“高效能教师”班级的学生，在成人阶段高等教育入学率更高、收入更高、社会经济地位更高，间接印证了增值评价结果和基于增值评价的教师问责政策的有效性和深远影响（Chetty et al., 2014）。

更多站在批判立场的研究者鉴于证据的缺乏对增值评价方法的科学性与精准度表示怀疑，进而鲜明反对将增值评价应用于实践，尤其是应用于高利害的人事决策中。美国教育部联合多个研究机构发布的一份有关“力争上游”项目效果评估的报告中称，自实施以来，尚未有证据能够证明该项目对学生学业成就的提升起到了实质性作用（Dragoset et al., 2015）。这意味着，“力争上游”项目的重要举措之一，与高利害决策挂钩的教师增值评价，对学生学业成就的促进作用也未得到积极的循证支持。相反地，基于增值评价结果的教师效能排名、等级分类等高利害问责已然引发多种不良的反向作用（Goldhaber, 2015），包括教师与学校和行政部门之间的法律冲突（Education Week, 2015; Harris, 2016），教师职业认同感、价值感和工作积极性的削弱（Harris & Herrington, 2015），应试导向的教学模式转变和考试违规等失范行为的增多（Ballou & Springer, 2015），对低于或高于平均水平学生个性化教学需求的忽视，以及同事间的恶性竞争生态（Darling-Hammond, 2015）等。诸多证据显示，问责驱动的教师增值评价对教师内部动机有抑制作用（NRC, 2011, p. 4）。

随着实践中的问题逐渐暴露，诸多权威机构站到反方队列，遏制增值评价在高利害决策中的应用。兰德公司（RAND Corporation）早在2003年即发表报告称：“有关增值评价的研究基础尚不充足，增值评价模型产生的统计偏误尚未可知，没有可行的方法来科学检测潜在偏误的程度及其可能造成的影响与后果，增值评价测算结果缺乏稳定性，不建议将增值评价用于高利害教师评价决策中，尤其要避免基于增值评价分值对教师进行排名”（McCaffrey et al., 2003, pp. 119−120）。美国统计协会（American Statistical Association, ASA）发布声明称，在使用增值评价时，对量化信息的过度倚重会引发反作用，甚至会与提高教师质量的目标背道而驰（ASA, 2014）。美国教育研究协会（American Educational Research Association, AERA）发布声明，建议“所有已经应用或准备应用增值模型的教师教育项目和学校机构应理性认识这种测评方法的科学限度和技术限度，谨慎使用增值评价作为高利害教师人事决策的方法和依据”（AERA, 2015）。2014年，美国教育研究协会、美国心理协会（American Psychological Association, APA）、国家教育测评协会（National Council on Measurement in Education, NCME）联合发布的最新版《教育与心理测评标准》（Standards for Educational and Psychological Testing）明确表明，学生测评成绩可应用于教育项目评估、政策研究、问责体系中，但条件是必须提供成绩测评工具的信效度检测报告和可信的、能够证实该成绩检测结果与教师效能之间因果关系的证据（Braun, 2015）。

（二）探寻增值评价结果在中国特色教育评价体系中的应用路向

首先，应谨慎规划增值评价应用于政策和实践的方向和进程，全面把握增值评价向实践转化的适宜时机。从美国经验来看，增值评价由理论向政策实践的应用转化是特定社会历史条件、教育系统内外部要素发展需求、测评技术发展与多元利益相关主体价值驱动的耦合结果。而增值评价在美国教师评价体系二十余年的应用中由服务高利害决策向限定性、融合式服务低利害决策的转向，客观反映了新型教育评价理念历经实践检验、批判、再认知、再修订的历史变迁规律，也反映了任何评价手段都要以促进人的发展为终极关怀的普世价值。新时代教育增值评价的本土化理论和技术探索尚不成熟，亟需集结教育测量与评价领域专家学者和教育考试、教育评价专业机构联合开展深入的研究，充分储备好高质量的数据基础，在特定试点地区和教师群体开展多个周期的试测、检验、修正，并在取得积极循证结果的前提下，方可运用到政策话语中指导实践的开展与推广。

其次，应突出增值评价结果的诊断功能，使多维功能间相互制衡与融合。《方案》指出，要“完善评价结果运用，综合发挥导向、鉴定、诊断、调控和改进作用”。增值评价能够在我国教育评价体系中发挥多大效益，一方面取决于增值评价自身的算法优劣，另一方面则取决于决策者和实践者对增值算法结果的认知方法、认知目的、认知对象和认知模式（杨欣，2022），即关涉增值算法结果的推理逻辑、应用目的、关注对象和理解阐释。美国教育增值评价的实践印证了以学生成绩增值推理教师效能、应用于教师高利害问责、重点关注决策者的行政管理和人事监控需求等经验的失败。这启示我们在实践中要以教师发展为中心，兼顾教育行政管理者、政策制定者的利益诉求，权衡教师主体与利益相关者的利益博弈均衡，既要突出增值评价结果之于教师专业能力的导向、鉴定、诊断功能，又要发挥其基于证据进行师资调控、改进方案研制的功能，服务于《方案》提出的“重实绩、重贡献的激励机制”建设，避免公开、恶意使用增值结果进行排名、等级划分、利益绑定，也要防止增值评价结果的形式主义和失效，实现增值评价多维功能的相互制衡、相互融合、相互补充，为激发教师内生动力和提高教师质量肃清评价生态、扫清机制障碍和压力源，引导教师注重教育教学实绩，潜心教书育人。

五、发展路向：构建多元化测评体系，探索增值评价的融合发展之路

教育评价是对教育目标达成程度的基本判断，而教育目标具有多重性。当前没有一个教育系统对所有教育目标的评价是完整的，许多教育评价只是关注了教育目标中的知识技能这一很小的部分，而基于此得出的评判必然导向教育评价的狭隘化（赵勇，2021）。增值评价也天然携带狭隘性，因此，将增值评价与其他多元化测评方法相融合，嵌入综合性的评价体系，成为国内外学者有关增值评价未来发展路向达成的一致共识（Darling-Hammond, 2015；王斌华，2005；郑智勇，宋乃庆，2021）。这既是美国众多州政府现行教师评价体系所采纳的策略，也是我国新时代教育评价体系和增值评价本土化发展的内在要求与必然选择。

（一）增值评价与多元评价方法的融合经验

为证实多元测评方法综合评价结果相较单一测评结果的科学性和优越性，比尔及梅琳达•盖茨基金会资助了一项颇具影响力的有效教学测评项目（Measures of Effective Teaching, MET Project），并通过实验研究证实，融合了课堂观察、增值评价、学生反馈等多种测评方法的教师评价结果，相较于以上任何单一方法的评价结果而言，都具有更高的统计效力和信度，更有助于促进教师有效教学（Bill & Melinda Gates Foundation, 2010; 2012）。众多类似实证研究的证据为美国教育政策决策部门建立健全综合性教师评价体系提供了循证依据，增值评价与其他评价方法的融合也越来越多地体现在美国各州宏观教师评价体系的总体设计、中观方法的组合使用、微观证据的综合采集等方方面面。

一是评价体系的综合性与融合性。美国多个州教育部在搭建的教师评价体系宏观框架中将增值评价与其他评价理念相融合，增值评价在特定权重范围内发挥限定性作用。例如，田纳西州教育部建构的“田纳西教育者提升模型”（Tennessee Educator Acceleration Model, TEAM）以提升教育者专业水平为目的开展综合评价，融合了田纳西增值评价系统（TVAAS），过程评价取向的课堂教学观察、教师主观反馈、学生档案袋评价，以及结果评价取向的学生学业成就表现测评，三者综合集成来反映教师的总体效能水平分值，其中增值评价分值在综合分值测算中占35%的权重（Tennessee Department of Education, 2022）。佛罗里达州教师评价系统鼓励将增值评价结果与其他过程性、结果性教师评价结果相融合，要求基于学生学业表现的增值评价比重须至少占三分之一，基于课堂观察等主观评价方法的教师教学实践评价比重须占至少三分之一，其他评价指标最多占三分之一（Florida Department of Education, 2022）。二是评价方法的多元组合。美国各州教师评价体系鼓励探索增值评价以外的检测学生学习成就增长的方法，鼓励采用多元化的评价方法、工具和手段来获取多元化的信息与数据，从而对教师效能做出趋近真实的全面刻画。据美国教师质量协会（National Council on Teacher Quality）统计，截至2019年，全美有44个州要求在教师评价体系中纳入教师课堂观察法，33个州要求使用增值评价，7个州要求将学生调查纳入教师评价和反馈系统中，24个州允许使用学生调查法来评价教师效能（Schweig, 2019）。制度化支持进一步巩固了美国教师评价方法在政策层面呈多样化发展的样态。三是评价证据的多样性。自2016年增值评价式微以来，美国各州教师评价体系更加强调教师评价所建基的证据的多样性和质量水平，鼓励探索学生成就增值证据的多样化获取手段；提升多样化学生标准化测试工具效度以采集高质量增值证据；采取更适宜的测评方法对正态分布之外的少数优等生和差生采集增值证据；鼓励教师在评估周期自行采集和积累合理的、适切的证据，组成有效的证据链，来证明其所教学生发展的“增值”表现及其自身教学实绩；当多重证据指向矛盾性结论时，需要补充证据和调查，鼓励教师发出自己的声音对多样性证据进行呈现、补充和阐释，或对已形成的评估结果进行申辩协商，力求将教师评价的最终结果建立在多重证据指向性一致以及利益相关主体协商一致的基础上。

（二）系统构建增值评价的中国特色融合发展策略

在增值评价的本土化探索进程中，“要不要与其他评价方法融合”已不再是研讨焦点，而“融合什么”“如何融合”成为亟待破解的关键问题。

其一，应以价值多元化为导向，构建增值评价与多元化测评方法的系统性融合机制。增值评价站在价值中立的立场，试图通过学生成绩增值的“事实”来客观反映教师效能的“真相”。而实际上，评价作为一项价值判断的行为，其本身并非价值无涉。从决策者对评价体系框架的构建，到评价客体的聚焦，再到评价标准的构建、评估工具的筛选、评估结果的应用与阐释，都刻上了评价主体以及评价体系设计者的主观价值烙印。不同的评价方法和标准也反映了其背后所建基的多元价值体系。因此，要实现增值评价与多元评价方法的融合，首先应认同和抱持价值多元主义的评价导向，并在综合考量多元利益相关者的多元化价值立场的前提下设计综合性的评价体系，以确保评价结果更加多面向地考量和呈现评价客体满足主体需求的属性和程度。其次，增值评价的探索不是孤立的，应嵌入到教育评价体系总体战略框架中，放置于多样化评价理念的参照体系中。以系统观和决策理论的视野，从政治经济文化环境、各利益相关主体的价值诉求、数据的可获取性、经费投入成本及测评目的目标等维度，综合衡量和比较“结果评价”“过程评价”“综合评价”“增值评价”各自的特色与优势，预估每一种测评理念所得出的评估结果对促进教师质量、改进教育质量的潜在贡献与价值，考量每一种评价理念可能存在的风险与隐患（McCaffrey et al., 2003, p. 118），避免增值评价成为主导性的评价准则。在具体的测评项目中，研判增值评价与三个评价理念的互通性、互补性和融合性，找准增值评价在综合评价体系中所适宜扮演的角色和占据的权重，研制出适宜具体测评目的和对象的嵌套式融合评估机制，力求采用更加多元的评价理念实现对评价对象样态和关键要素的全面完整刻画，力求实现不同评价理念独特优势的最大化发挥和不同评价理念间的最优匹配。此外，应站在新时代教育评价和教育高质量发展的战略高度，以促进教师发展和教育质量为终极诉求，构建一套动态循环、螺旋向上的“评价+提升”一体化综合评价体系框架。将教师发展目标和年度教学计划的参与式制定作为评价体系的起点环节，将计划的执行、形成性评价、增值评价和年度终结性评价纳入到一个完整的、综合的、循环往复的教师评价程序中，将教师的自我反思与自我评价作为一轮评价周期的终点和启动新一轮评价周期的起点，最终将教师评价引入不断促进教师专业发展进而促进学生学习和教育质量的向上驱动的良性循环轨道中。在实施计划的过程中，教师自身与评价者采用增值评价和多元方法共同收集关于教师表现与学生学习增值的多样化数据资料证据，并持续进行追踪、反馈、反思、改进，循环往复，共同构建“评价+提升”一体化的综合体系，共同促进教师评价的公平公正性、全面性和科学性。

其二，应以利益相关主体的多元协商为原则，结合具体情境构建增值评价与多样化证据的融合机制。首先应重视利益相关者的多元协商与共同建构。增值评价的落地实施需立足具体而真实的应用情境，这不仅关涉政治、经济、社会、文化、心理等复杂的现实要素，也关涉评估者和被评估者等多元利益相关者的合法权益及相互间的互动关联。评价聚焦哪些维度、采用何种评价方法与手段、采集和披露哪些数据信息、对结果做出何种解释等都反映了特定情境下评价主体的关切和需求，并与多元利益相关者的切身利益密切相关。当不同方法采用不同价值标准和评价尺度，或当不同评价手段得到不一致的数据信息而引发冲突性的裁决时，必须建构一套以平等协商为原则的融合机制，为不同评价方法和结论提供阐释的机会和空间，为不同方法赋予合理的权重，为不同利益相关者赋予能力和权力，应许其充分地参与、响应和平等地对话、协商，最终达成对评估结果具有共识性的建构。其次，应在协商原则下促成多样化方法的有机融合。在设计和搭建评估体系时，需识别所关涉的关键利益相关者及其代表的多重教育目标，并站在他们的立场和视角，筛选和搭建多样化的能够反映多元利益相关群体关切焦点的评价方法组合，继而采用尽可能全面的手段从尽可能多的视角和渠道获取多面向的数据和信息，为多元协商和达成共识提供互补或互相印证的物料与素材，通过资源整合，做出无限趋近于教师效能“真相”的努力（Schweig, 2019）。早在增值评价诞生以前，基于教师教学实践观察的评估方法（ratings based on observations of teacher practice, OTP）在评价标准和工具的可信度、稳定性、主观偏见等方面饱受诟病，而后随着不断完善，现已发展成为普适性最高的测评方法（Braun, 2015）。学生作为教师评价的间接受益者，通过学生调查法、学生档案袋等手段可以为教师效能提供重要证据。教师教学档案袋、自评报告、所教学生学业述评、教学述评等评价手段和方法可以帮助教师主体站在自身立场发出声音。此外，家长评价也可以为理解教师效能补充重要且独特的视角。

六、实践路向：做足条件准备，探索增值评价的实施策略

要推动增值评价从理论探索向具体实施的转换，必须在评价体系顶层设计、测评工具研发、基础数据储备、统计模型建构、团队建设、机制建设等方面做好充足准备，以避免产生不必要的政策成本消耗，进而逐步实现社会效益的最大化。

（一）增值评价从理论迈向实践的成熟条件

美国国家研究协会（National Research Council, NRC）结合联邦政府和各州教育部门实践探索的经验，较为全面地总结了实施增值评价所需满足的六个条件和步骤（NRC, 2010, pp. 58−59）：一是具有内部一致性的学业成就监测标准、课程标准和教学标准，及依据系列标准研制的科学的、年度的、全国或区域范围内统一的学业成就测评工具和学业成就进步测评工具；二是具备高质量、多元化、充足完备、大规模、纵向的学生学业成就数据的可获取性，建立健全国家和地方基础教育阶段学生学业成就动态监测数据库、充足连贯的学生人口学变量调查数据库，建立完善规范的数据采集与分析机制；三是组建专家团队或聘请第三方专业团队来构建和调试适宜本地需求的增值模型，运行、操作和监测增值模型的数据分析；四是建立一套有效的增值评价结果报告反馈系统，便于为教育一线实践者有效呈现和解读测评结果及其推论，提高增值评价过程与结果的透明度；五是为教育管理者、一线教师提供必要的培训，确保他们能够深刻理解和有效使用评估结果；六是建立有效的事后监测与反馈机制，在增值评价结果发布后开展短期和中长期的调查，了解增值评价对教师后续发展和学生成就提升产生的促进作用和长远影响，为进一步改进增值评价方法、提升增值评价法的使用效益积累证据。这一指南可以为我国推动增值评价的本土化落地和实施提供重要启示和参考。

（二）分步健全增值评价在新时代教育评价改革战略下的本土化落地策略

其一，应健全国家和地方基础教育阶段学生学业成就及其进步程度的标准化测评体系。增值评价建基于学生标准化测试成绩及其进步程度测评体系。要推动增值评价的实践落地，首先要将我国国家和地方层面基础教育阶段学生学业成就标准化测评体系与增值评价体系并轨。重点规范健全国家级、省域等不同层级和地域具有内部一致性的基础教育阶段学生学业成就监测标准、不同学科学段课程标准、教师专业标准体系，继而依据系列标准研制或完善适用性广泛的、多样化的、高信效度的学业成就测评工具体系，开发研制学生学业成就进步测评工具体系和测算方法，用以采集高质量的能够客观反映学生特定时期学业静态表现和特定周期纵向动态变化的数据信息。积极探索适宜不同学科、年级、等级的多样化分类分阶测评工具体系。进一步统筹整合国家基础教育质量监测协同创新中心、地方教育评估院、教育考试院等部门开展教育质量监测工作的优势资源和先进经验，将增值评价的实践探索纳入基础教育质量监测顶层设计框架中，为增值评价的落地实施奠定制度基础、平台基础和工具基础。鉴于增值评价的适用范围限度和技术限度，我国增值评价的实践探索应建立清晰的工作台账、任务清单和实施方案细则，以特定年级、特定学科、特定区域开展的特色试点项目为切入口先行先试，并在积极循证的基础上逐步向更多学科、年级和地域范围分层分步推进。

其二，应建立健全国家和地方基础教育阶段学生学业发展和教师教学实绩动态监测追踪数据库。高质量数据是开展增值评价的前提条件。数据质量的高低表现在学业测试工具的信效度水平、学生个体/家庭/学校/教师变量的丰富程度以及数据的客观真实性、精准性、完备程度、纵向连贯性和时长跨度等。高质量数据的持续追踪和获取取决于国家和地方基础教育动态监测数据库的建设情况。应建立完善规范的数据采集机制，组建专业团队搭建数据库平台，结合系列学生学业成就及进步程度监测标准体系和测评工具体系，定期在特定区域施测，精准采集测评数据和背景调查数据，确保学生个体成绩轨迹的持续动态追踪，及其与个体特征变量、家庭背景变量、任课教师特征变量、所在学校变量等相关影响要素变量数据的有效链接与匹配，确保缺失数据掌控在合理范围内。应建立国家级、地方级、校级数据库间的联网和跨库检索、跨库应用机制，开设针对性的培训课程，围绕数据库的功能价值、开发利用、操作使用等对教育管理者和教师进行培训。为便于开展研究和实施增值评价，数据库应向研究者、政策制定者、学校、第三方评估人员公开数据的获取权限。此外，还应注重数据信息的隐私保护机制建设，避免数据泄露；提升基层教育部门管理者及一线学校校长基于高水平信息数据和循证逻辑的教育治理能力，为增值评价的实践落地建立好数据储备、运行机制和制度保障。

其三，应组建专业团队，构建“研究者—决策者—实践者”三方良性协作机制。增值评价的高度复杂性和专业性要求组建高水平的专业团队，在理论研究、实地调查、顶层设计、增值模型构建、工具研发与检测、评估施测、数据采集与分析、证据挖掘、结果报告与解读、专项培训、事后反馈等环节提供全程、全方位的服务、指导与支持。增值评价专家团队应具备四个特征：一是跨学科，由教育学、统计学、测量学、心理学等跨学科的专家组成；二是跨部门，由专家学者、专业教育评价机构和评估人员、教育行政部门管理者、一线教师和校长等构成；三是复合型，熟练掌握增值评价技术、通用教育测评技术、学生学业成就测评技术，熟悉一线教师教育教学实践及教师主体需求，深度掌握教育教学规律和学生学习规律，熟悉相关教育政策与标准；四是具备国际比较视野，全面了解和熟悉国际社会增值评价前沿发展趋势和宏观教育评价理论、技术、政策与实践经验，深谙我国本土化实情。在增值评价的实践探索过程中，研究者、政策制定者、一线教育实践者三方须通力协作，各自发挥重要的职责，以确保增值评价各环节之间的有效衔接。研究者应立足增值评价的理论问题和方法论争议，结合中国教育评价体系改革的现实需求和现实基础开展深入研究，为增值评价从理念向政策和实践的转化提供前瞻性、突破性、可操作的理论指导和参考建议；积极以第三方评估者的身份参与到增值评价的模型构建、设计实施、结果测算、汇报与解读等环节。政策制定者应辩证梳理增值评价有关的争议与挑战，系统剖析已有教育评价工作体系的成效、经验、问题和突破口，在战略决策层面健全和完善教育评价体系的顶层设计，考量和明确增值评价、过程评价、结果评价等不同类型教育评价的差异化价值定位与权重，制定探索增值评价的工作台账、时间表和实施方案，领衔组建专项工作组，做好与研究者、实践者的沟通与协商，在条件成熟时启动增值评价的特色试点工程项目。要高度重视一线教师在增值评价中的主体性和参与度，鼓励教师全程参与增值评价体系的探索与实践，向政策制定者和研究者反馈增值评价的实际需求、认知感受、实践智慧和迁移效果。政策制定者和实践者有义务向研究者开放客观、真实、全面的数据以支持其开展理论研究、技术研发与改进，以及实证检验（McCaffrey et al., 2003, p. 121）。三方之间的对话与协作将大大有助于增值评价方法的有效应用，减少政策成本的浪费。

其四，应建立全过程的增值评价结果和影响评估反馈机制。作为增值评价体系的重要组成部分，应探索建立事前、事中、事后的增值评价结果和影响评估反馈机制。一是在增值评价实施前，为教育管理者、一线教师提供必要的培训，确保他们能够认同并深刻理解增值评价的目的、工作原理、实施程序和测评结果的生成机制，引导其在绩效分配、问责和用人评价决策以及后续教师专业发展方案制定中，合理应用增值评价结果。二是在实施增值评价过程中，指导和协助学校与教师规范做好标准化测评、高质量数据采集和证据挖掘工作，了解实施过程中存在的困难、障碍和现实问题，用以改进和优化增值评价体系。三是在增值评价结果公布后，为学校和教师第一时间呈现和解读增值评价结果及其推论，及时答疑解惑，提高增值评价过程与结果的透明度，确保被评教师对结果的理解力和接纳度，配合对结果持有异议的教师开展申辩和补充证据的工作，协助学校基于评价结果为“低效能”教师研制改进指导方案，提升教师的获得感和公平感。四是在增值评价结果发布后的一段时期，开展短期和中长期的追踪调查，持续追踪和实证评估增值评价对教师教学改进和学生成就提升产生的深远影响，为进一步优化增值评价模型和方法策略、提升增值评价法的使用效益、健全教育评价体系等积累证据。

七、结语

没有一种评价方法是万全之计，增值评价亦是如此。尽管长期伴随着强烈的争议和批判，但不可否认的是，增值评价法以其彰显专业性和客观性的特色优势为健全教师评价体系提供了一种重要的可能路径、为全面诊断教师教学实绩提供了重要的量化手段、为教育问责体系和人事决策提供了新视角和新依据、为传统主观评价法和终结性评价法提供了重要补充，因此具有在价值多元取向的新时代教育评价方法体系中存在的合理性和必要性（Glazerman et al., 2010）。更为重要的是，要在充分、全面、辩证地认识增值评价的本质特性、技术边界、功能限度的前提下，有的放矢地持续探索增值评价发展道路中尚未破解的技术难题和尚待优化的缺陷，结合中国特色教育情境和教育评价发展实情，摸索增值评价的本土化路向，探索增值评价法与其他评价理念和方法的融合机制，合理研判增值评价在我国新时代教育评价系统中所扮演的角色，充分发挥增值评价的优势潜能，为新时代教育高质量发展中关键要素水平的衡量诊断、进步进程的监测督导、产出效益的测算评估等极尽所能。

需要重申的是，对增值评价的探索不能囿于方法技术的圈层，而要不断回望增值评价的原点，即思考“为什么评”的本原问题。增值评价的终极目的是透过学生成绩增长显现出教师教学实绩，激发教师教书育人的潜能，最终将其运用在提升学生学习和教育质量上。若无法服务促进教师发展的目的，增值评价的方法再高阶、再前沿也将徒劳。评价的最高境界是评量和刻画客体的“真实”状态，然而没有一种评价方法可以提供一种绝对“真实”的认识。评估结果往往并非终极意义上的“事实”，而是由包括评估者以及由于评估而处于风险之中的利益相关者通过互动而共同创造和构建的一种结果（古巴，林肯，2008，第2—3页）。据此，增值评价方法实质上是具有科学范式倾向的群体为“理解”教师效能而做出的一种建构主义的努力。在探索中国特色增值评价的道路上，我们需要审慎、全面地了解增值评价对教育公平的促进功能，及其在教育复杂性、教育主体性、育人本位性等方面的认识限度与不足，最大程度地借鉴他山之石，充分立足我国教育特色与实情，运用中国智慧与中国方案，实现增值评价可能为教师评价体系乃至整个教育评价体系的所“增”之“值”。

（韩玉梅工作邮箱：hanyumei2016@swu.edu.cn；本文通信作者为严文蕃：wenfan.yan@umb.edu ）

为适应微信排版已删除注释和参考文献，请见谅，如需阅读全文，请点击左下角“阅读原文”获取。

上期回顾

特稿

温忠麟谢晋艳王惠惠 | 潜在类别模型的原理、步骤及程序

专题：潜在类别模型在教育研究中的应用

赵雪艳游旭群秦伟｜中学教师情绪劳动策略与职业幸福感的关系：基于潜在剖面分析

何妍袁柯曼张明明边玉芳｜父母控制亚型及其对青少年适应的影响：基于潜在转变分析

吴旻宋文琦梁丽婵｜农村小学生同伴攻击受侵害类型及其学校适应：基于潜在剖面分析

黄声华尹弘飚靳玉乐｜家长教育卷入类型与中学生学科素养：基于PISA 2018中国香港及澳门数据的潜在类别分析

高等教育

林小英林心颖｜高校个体竞争与学术合作困境：“首席研究员制”下的科研助理聘用考察