“来”读书 | 第十八期：《评价素养速成：献给匆忙的教师》

Original 林敦来外研测评 2022-04-24

本期主笔

林敦来，北京师范大学外国语言文学学院副教授、博士生导师，现任外文学院公外部主任。研究方向为语言测试与评价，特别关注语言教师的评价素养。现主持国家社会科学基金项目1项，参与多项省部级科研项目。已出版《中小学英语教师语言评价素养参考框架》、《中国中学英语教师评价素养研究》等5部专著。多年来参与国家基础教育质量监测英语学科工作，参与中国英语语言能力等级量表研制，在国内外学术期刊上发表论文十余篇。曾获北京师范大学“最受本科生欢迎的十佳教师”称号及北京师范大学研究生教学成果二等奖等奖项。

Popham, W. J. (2018). Assessment literacy for educators in a hurry. Virginia, USA: ASCD.

本书由UCLA荣休教授W. James Popham所著。正如作者在前言中所述，本书的内容是教师最应该了解的教育评价知识。了解了这些知识，教师就能够避免在教学中可能犯的源于测量的错误。全书共八章，核心内容是评价素养的六方面内容（第二章到七章）。这六章均包含论述评价素养内容的Understanding the Understanding及其运用The Understanding’s Application，最后以快捷总结For the Truly Time-Pressed结尾。

第一章

评价素养：内涵、理据与方法

作者开篇指出，回顾他的职业生涯可以看出，要给每个孩子最优的教育，最经济有效的方式就是提高一线教师的评价素养。本章围绕四个问题展开：1）什么是评价素养？2）为什么教师的评价素养不足？3）为什么教师需要评价素养？4）教师如何提升评价素养？关于第一个问题，作者将评价素养定义为“评价素养就是个体对评价基本概念和程序的理解。这些基本概念和程序很可能会影响教育决策”（p.2）。作者强调，评价素养只关注会影响教育决策的基本概念和程序，因而对教师来说，是可望且可及的。关于第二个问题，作者指出虽然美国各州开展了多种形式的活动来推进教师的评价素养，但是“a little knowledge is a dangerous thing”，教师和教育管理者们往往认为自己对评价的了解已经足够，这是很危险的。教师评价素养不足可以追溯到教师职前教育中关于评价的教学采用过于测量学的视角，而没有聚焦影响教育决策的内容。关于第三个问题，作者指出，拥有评价素养的教师会避免三个方面的问题而成为成功的教育者。这三个方面的问题是：运用错误的测试、误用正确测试的结果、不能运用对教学有益的测试。关于第四个问题，作者基于他65年的经验采用最简方案，参阅2014版的《教育与心理测试标准》，将评价素养归结为六条核心内容。这些内容非常实用，能直接影响课堂评价实践。本章最后，作者列出两个问题供读者自我检验是否把握了评价素养的这六条内容：其一，你是否知道什么时候用这些评价原则？其二，你是否能够解释这些原则？

第二章

效度

在2014版的《教育与心理测试标准》中，效度被定义为“收集到的证据以及理论在多大程度上能够支持用于预期测试目的的分数解释”。教师不仅要理解这个定义，还应该知道为什么这个定义对于测试开发和解释如此重要。教师教学生知识、技能和情感，想要检验教学成果只好通过显性的测试手段来尽可能准确地推断隐性的学生所学。如果这个过程是无效的，那么就是浪费学生的时间。因此，评价素养的第一条内容就是“理解效度”，包含三个要素：（1）效度取决于基于证据的论据的质量；（2）这个论据用于支撑一项测试分数解释的准确性；（3）这个论据解决的是这些分数解释在多大程度上支持测试的预期用途。作者重申了“There is no such thing as a valid test.” 世界上不存在一份高质量、全功能的试题。在测试效度的中心位置是基于证据的论据。测试的效度代表的是基于证据的论据的质量，这个质量证明“基于分数对被试者的推断的准确性”和“测试在支持预期用途时的有用性”。效度论据不取决于测量学数据，而取决于专业判断。

第三章

信度

评价素养的第二条内容是“理解信度”。首先，Assessment Reliability=Measurement Consistency。其次，Appropriate Reliability Evidence=Evidence Matching a Test’s Use。寻求与测试用途匹配的信度证据往往被忽略。长期以来，人们往往热衷于汇报测试的内部信度（试题是否测试相似的内容），并且没有明确的指南规定信度要求是多高。作者将信度定义为“信度是一项测试在测量欲测内容时表现出的一致性。它表现为三种概念上不同的证据，必须在测试对象集体和个体层面得以汇报。”这个定义包含了三个要素：（1）信度是一项测试测量欲测内容的一致性；（2）有三种根本上不同的证据来体现测试信度；（3）需要汇报测试对象集体和个体层面的信度证据。

三种不同的信度证据包括再测信度证据、平行题信度证据和内部信度证据。此外，教师容易忽略的还有分类一致指数（classification consistency indices）和测量标准误。

第四章

公平

评价素养的第三条内容是“理解公平”。公平“在测试开发和评估中与效度和信度一样重要”。在可实施的情况下，必须完整地记录测试的全过程和全方位的信息，提供判断证据和实证证据。判断证据包括审验试题是否带有测试偏颇的题目。这个过程包含挨个审验试题然后询问“Might this item offend or unfairly penalize any group of students because of personal characteristics such as gender, ethnicity, religion, or race?”。作者还专门强调了用might这个词提问。实证证据可以采用组别难易度检验和DIF（differential item functioning）分析。另外一些与公平相关的指标有可达性（accessibility）、通用设计（universal design）、折衷办法（accommodation）。

第五章

成绩汇报

一项标准化测试的好坏往往体现在其成绩汇报中。因此，评价素养的第四条内容是“理解成绩汇报”。成绩汇报需要带来可行动性（actionability），这就意味着：（1）如果测试的目的是对被试进行比较，我们希望能够通过成绩汇报清晰地呈现学生表现的比较情况，而且这种比较要具体到可以转换成行动，如生生比较、校间比较和区域比较。（2）如果测试的目的是提高正在进行的教学和学习效果，那么成绩汇报就应该以细化的方式呈现学生对特定内容掌握程度的具体信息。这种详细度能帮助教师规划下一步的教学，帮助学生规划下一步的学习。（3）如果测试的目的是评估教学质量，我们需要成绩汇报提供容易理解的对不同层面的学生表现的描述，如学生个体层面、班级层面、学校层面、学区层面。作者认为要理解成绩汇报，需要理解一个原由和两个要求：一个原由就是要产生可以行动的推断；两个要求包括要有可解释性和要符合测试目的两个方面。

第六章

形成性评价

作者首先介绍了“目的—手段思维”，将这种思维用于教学就成了形成性评价。形成性评价被作者定义为“形成性评价是计划性的过程，在这个过程中测试所获得的学生水平的证据被教师用于调整持续性的教学程序或被学生用于调整他们目前的学习策略”。要理解形成性评价，首先要理解其基本内容。那就是形成性评价是有规划的教学过程，在这个过程中，测试收集的证据被教师或学生用于调整教学和学习。由于形成性评价需要大量的精力来规划和实施，因此要将它留给教学中最难的部分。作者认为目前形成性评价运用得还不够，还应该大力提倡。

第七章

测量情感

作者首先简要回顾了布鲁姆的教育目标分类。布鲁姆将教育目标分为认知、情感和精神运动。学校主要关注的还是认知以及学生的知识和技能。但是大家都能意识到，提升学生的情感，让他们在学习中找到兴趣、培养正确态度、树立正确的价值观往往能让学生走得更远。因此作者认为应该评价学生的情感，教师评价素养的第六条内容就是“理解情感”。具体来说，因为在学校（课内课外）所获得的情感对学生的将来会产生深远的影响，因此要规律性评价学生的情感。具体方法可以采用匿名的自评。情感包含态度（对人或事的固定的想法和感觉）、兴趣和价值观（对生活中重要事情的认定）。为了便于读者了解如何使用情感测量量表，作者设计了如下图的试题。

作者建议，在设置题项的时候要避免过于绝对的论述，如“I would rather eat gravel than miss a day of school”这样的条目只会让学生回答“不同意”，收回的数据也没有意义。在解读数据的时候，作者建议，不仅可以看整卷，而且应该分维度去看。例如上述这个题目，第3题和第8题都是关于在学校获得成功的重要程度方面的情感，可以作为一个指标来综合看学生的情感状况。当然，情感测量的目的还是要落实成教师可以行动的帮助学生改变情感态度的方案，否则情感测量毫无意义。作者认为最有效的方法就是树立良好的榜样（modelling）。

第八章

收尾、延伸

作者在本章中回顾了评价素养的六方面内容。在延伸部分，作者专门为本书撰写了四篇文章来分析当前教育测试中的重大缺陷，供读者思考。作者最后对本书标题中的“in a hurry”做了补充说明，体现了他一贯的幽默风趣。笔者结合他的说明，将本书的标题翻译成“评价素养速成：献给匆忙的教师”。

附：后台回复关键词“评价素养”即可阅读四篇文章

距离第四届英语教学与测评学术研讨会征稿

截止时间12月29日还有最后3天！！！

快来投稿吧~

往期精华

专家视点

专家视点 | Chris Davison: 教师测评素养：我们如何了解需要提高什么？

专家视点 | 陈新忠等：利用诊断性评价改进高中英语教学

专家视点 | 吴岩：新使命大格局新文科大外语