查看原文
其他

敬畏大规模评估的力量:什么是不能测量的

袁振国 赵勇 FT有教无类 2020-09-01
在刚刚公布的2018年最新PISA成绩中,中国(北京、上海、江苏、浙江)在阅读素养、数学素养、科学素养三项测试中均位列世界第一。热议之余,我们也应关注PISA等大规模评估的影响与局限。华东师范大学袁振国教授 、堪萨斯大学赵勇教授认为,大规模评估只能非常有限地测量部分对个人、社会成功至关重要的能力,无法衡量广泛的有价值的教育成果以及知识、技能和个人品质的独特组合。




作者丨华东师范大学教授 袁振国 ,堪萨斯大学教授 赵勇
全文共4151个字


【编者按】2019年12月,经合组织(OECD)公布了2018年最新PISA成绩。中国(北京、上海、江苏、浙江)在阅读素养、数学素养、科学素养三项测试中均位列世界第一,相对于3年前的第十名有了令人瞩目的进步,也在国内外引起热议。看到中国基础教育成就的同时,我们也应关注大规模评估(Large Scale Assessment,简称LSA)的种种作用与影响。本期论文主要是2018年10月在华东师范大学举办的首届教育先锋论坛的成果。论坛的主题是大规模评估:问题与前景。与会者包括哈佛大学的Richard Elmore教授、康涅狄格大学的Ronald Beghetto教授、普渡大学的张华华教授、华东师范大学的袁振国教授以及堪萨斯大学的赵勇教授等。论坛的目的不是讨论LSA的技术问题或对其做出评价,而是讨论LSA的使用(或滥用),LSA在教育中的作用,以及从哲学层面讨论在教育领域中用LSA进行评估的可能性与局限性。换言之,我们更感兴趣的是讨论LSA不能做什么,而非它能做什么。我们更关注LSA对教育的负面影响,而非积极影响。


世界各地的教育系统都面临着技术变革带来的挑战。越来越多的人认为,教育需要改变,以培养适合未来的人才。LSA已被列为推动变革的有力工具。例如,在美国,“不让一个孩子掉队”的法案将LSA作为一项主要的政策工具,试图让学校和教育工作者对缩小学业成就的差距负责。中国在过去几十年中一直努力开展高考改革以促进教育变革,包括减轻学业压力,培养多元化和创新型人才。韩国利用LSA对大学招生做出了重大改变,目的是减轻教育压力,进一步支持21世纪所需的人才。影响力巨大的SAT考试对测试进行了修改。PISA也计划扩大其业务范围,将包含对五岁儿童的评估,即幼儿PISA,以及对创造力、合作力和全球竞争力的评估。各国也越来越有兴趣开展21世纪技能或软技能评估,如创业思维、创造力、合作能力、成长思维等。因此,研究LSA的潜在负面影响是非常重要的。

No.1

大规模评估的力量


大规模评估(LSA)在教育方面具有巨大的力量。用于国际比较的LSA(如PISA)会影响教育政策和实践,引发媒体的狂热,给政治家和教育领导者施加压力,并激起全球公众的情绪。用于问责的LSA,如美国各州的问责评价制度,广受公众和媒体的关注,决定着课程和教学,改变着教育者的生活(包括将一些人送进监狱),并影响着学校的命运。用于筛选学生的大规模评估,如中国的大学入学考试,每年决定着数百万青年的命运,决定着校内外的教学内容,并形成了一种教育文化。


LSA的力量源自许多方面。首先,正如已故的哈佛大学生物学家和科学历史学家斯蒂芬•杰伊•古尔德所指出的,人类倾向于“将抽象概念转化为实体”。评估本质上是一种将诸如心智能力、创造力等抽象概念转化为有形东西的方法。一旦转化完成,这种“有形的东西”也变成了抽象概念。因此,智商被认为是一个人心智能力的水平。

其次,正如古尔德所指出的那样,人类“倾向将复杂的问题简化为一种逐级递增的排序”。简单来说,我们喜欢排名。我们总是想要根据排名对人们进行分类,了解谁更好以及谁更糟糕,并以此为依据给予人们不同的命运。为了排名,我们需要一个工具来将复杂的变化简化为一个简单的数字。同样,这个数字一旦产生,无论它代表了什么,它都会被认定为一个有效评价指标。然后人们被告知必须接受排名。

第三,除了以上两点之外,LSA在物质方面也产生了重大的影响。它被用于定义和判断未来取得成功的能力。判断还会被用于分配资源和机会。例如被顶尖的学校录取,这被认为可以带来更好的工作和生活,因此,学生努力在大学入学考试中取得好成绩。


LSA还用于判断教师和学校,评判他们帮助学生获得未来成功的能力。这种判断构成了对教师的声誉、金钱或工作条件加以奖惩的基础。因此,教师尽其所能地帮助学生在LSA中取得好成绩。这种判断也传递给负责整个教育系统质量的政治家和政府官员,因此,政治家和政府官员也受到LSA的影响。

No.2

LSA对社会的影响


人们从心理上将LSA视为衡量能力的有效标准,同时,LSA对社会产生的物质和政治影响,使LSA成为塑造人类社会的极其有力的工具。这种塑造主要通过两种方式来实现:首先,LSA对儿童的教育经历产生重大影响,因为它引导着社会中教育资源的消耗,引导学生、教师、家长和政治家将精力、时间和金钱集中在测试的内容上。因此,课程被窄化为测试的内容。教学和学习都只注重测试的内容,而未经测试的内容被排除在外。今天学校的学生是明天社会的公民和领导者。因此,他们今天在学校的经历最终会影响人类社会,决定着社会将来会有什么样的公民。


其次,LSA决定培养什么样的人才,以及哪些人才将被压抑或者任其自生自灭。每个人具有各种不同的能力,在不同的领域有各自的优势和劣势。尽管各种类型的人才都是有价值的,社会繁荣依赖于多元化的人才,但LSA只能测量有限的几种能力。因此,恰好在LSA领域具有优势的个人可以获得更多的资源和机会,并在社会中变得更有价值,而拥有的才能不在测量之列的人则会被视为失败者,从而被压制或忽视。用LSA评估儿童,其结果通常直接或间接地影响他们将获得的教育机会。例如,有些孩子可能会被安排到课外补习班来提高阅读技能,因为LSA表明他们不像其他孩子那样精通阅读。结果,这些孩子失去体验其他可能性的时间和机会,如数学、艺术、音乐或体育,这意味着他们可能无法挖掘并发展这些方面的天赋和热情。此外,一些儿童在资源充足的学校就读,其他儿童由于考试成绩不理想而无法获得优质资源,这意味着一些儿童的命运从很小的时候就注定是失败者了。

因此,LSA在人才方面决定了社会公民的构成性质。例如,中国古代的科举考试,是最古老的LSA之一,导致了一个由学者型官员主导的社会,他们是植根于儒家传统的文学专家,而技术、科学等其他领域有才能的人在很大程度上被忽视了。这产生了严重的后果,中国古代缺乏启动工业革命的人才储备,尽管在经济条件上我们先于英国近200年就已经具备了开启工业革命的条件。

总之,LSA具有显著影响个人的能力。它影响着个人在教育中获得的机会和经历。因此,根据各种LSA的表现为不同的个人分配不同的机会,LSA在决定个人命运方面发挥了相当大的作用。此外,LSA通过影响特定社会中的人才构成显著地影响着人类社会。

No.3

敬畏LSA的力量


伴随力量的是巨大的责任。力量可以同时具有建设性和破坏性。LSA可以带来理想的结果,也会造成巨大的伤害。因此,应该谨慎和负责任地对待LSA在教育中的应用问题。


要负责任地使用LSA,我们需要把LSA无法测量的内容放在心上。LSA的强大力量使其对教育产生了巨大的影响,因此它们所测量的内容对政策制定者、教育工作者、学生、家长和公众都很重要。但是LSA有很多无法测量的东西。即使没有彻底压制或拒绝,LSA不能衡量的东西也往往被忽视。但是,对于社会和个人而言,未测量的东西可能更为重要。

首先,LSA无法测量它们无意测量的内容。这个看似显而易见的事实在教育中经常被忽略。尽管LSA(即使是最有效的LSA)只测量它们被设计用来测量的东西,但得出的结果往往被过度泛化。例如,PISA的结果已被扩大化以反映教育系统的质量,尽管它们只是反映了不同系统中15岁儿童在数学、阅读和科学的PISA评估中的表现。大学入学考试(如中国的高考和美国的SAT)的结果被解释为一个人是否为进入大学做好了准备,尽管大学的入学准备内容不仅仅包括考试成绩。结果,研究发现LSA的评估并不能有效预测大学阶段的学业表现。

其次,LSA无法测量未知的内容。LSA只能衡量已知的内容。因此,不可能为未知结构设计测试。例如,在发明IQ的构成之前无法测量IQ。在创造力这个概念还未提出之前,无法测量创造力。在全球竞争力概念出现之前我们无法衡量全球竞争力。教育中当然还存在一些尚未发现或开发出的概念可能比已知概念更重要。研究表明,我们所测量的内容无法准确预测个人和社会的成功与否,还有一些其它因素在起作用。


第三,LSA无法测量例外情况。丹麦诺贝尔奖得主物理学家Niels Bohr指出了测量的本质:测量的实体不能脱离测量的工具。换句话说,“数学能力,实际上任何能力,都不是个人的内在属性;相反,它是个人和测量工具的共同特性”。因此,即使在它们想要测量的领域内,LSA也只能在设计的限度内测量能力,无法测量超出这一范围的能力。例如,一名参加三年级数学考试的数学家可以得到满分,但他的数学能力肯定超过那个同样得到满分的三年级学生。如果爱因斯坦参加高中物理考试,他的最好成绩也就只能是满分,但我们不能说他在物理学方面的能力与同样获得满分的高中生一样。

第四,LSA无法测量动态的、流动的、不明确的和依赖于情境的内容。LSA也许能够评估相对稳定且被明确定义的能力,但许多能力是不明确的、流动的、动态的和依赖于情境的。例如,创造力、批判性思维、沟通能力、全球竞争力、企业家精神以及许多其他的21世纪技能都是不明确的,因为它们都有不同的定义。它们也非常动态化,因为它们会根据个人和情境而发生很大变化。例如,在某个领域可能具有创造性,但在其他领域则不具备创造性。它们通常也受背景和文化的约束。例如,在一个背景下被认为富有创造力的表现可能在其他背景下并非如此,在某些文化中被认为有效的沟通技巧可能在其他文化中被认为是无效的,甚至具有相反效果。

第五,LSA无法衡量个体的独特性。LSA是常常用来度量一群个体的某些能力。只能判断个人能力的某些方面,但无论我们开发了多少个LSA,都无法评估能力的所有方面。此外,个人的能力是能力、个性和兴趣的独特组合。换句话说,能力并非是不同要素的简单叠加。例如,一个人获得大学成功的能力并不是他在数学、语言、科学、创造力和个性方面的简单相加,每个人都有综合性的能力特征。


总之,LSA只能非常有限地测量部分对个人、社会成功至关重要的能力,无法衡量广泛的有价值的教育成果以及知识、技能和个人品质的独特组合。但由于LSA的强大力量,它们所衡量的内容往往成为教育中的重要因素,从而误导教育中的政策和做法,导致本期文章中讨论的一系列破坏性副作用。

LSA并不会消失。我们需要记住:可以计算的也许并不重要,重要的可能并未被计算。

注:本文仅代表作者观点,已获ECNU Review of Education(《华东师范大学教育评论(英文)》)授权。这是中国高校创办的第一个开放获取的教育研究英文期刊,于2018年创刊。整组论坛文章可以从https://journals.sagepub.com/toc/roea/current全文免费下载获取。

全文图片来源:Getty Images


推荐阅读

周轶君:我为什么拍《他乡的童年》?

11-05

孩真的不如男孩擅长学习数学吗?

10-15

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存