高考,一碗端不平的水|大象公会
为什么山东、河南的考生挤破头才能上好大学?为什么高考题难度经常「漂移」?为什么高考改革总是走回头路?
文|张蔓生
「高考是相对最公平的考试,是千军万马过独木桥,也是穷孩子唯一的出路。」在坊间,这样的观点十分盛行。
的确,如果不考虑舞弊等少数情况,比起前三十年拼「群众推荐」、拼「家庭出身」、「工农兵上大学」等等,当代高考确实是程序正义方面的长足进步。但每到高考前,人们总会有些疑问,如:
上海、北京、天津的 211 高校录取率超过 10%,而人口大省安徽、河南、山东、广东等不到 4%;
各省份内部的教育资源愈加内卷化,富裕地区靠家长「氪金」,一般地区靠超级中学的抽水机效应;
高考题的难度本就飘忽不定,遇上疫情年则更难令人放心。
高考的辩护者们通常将这些问题归罪于优质教育资源的稀缺。他们会说,北大清华的名额毕竟有限,中国各省经济发展水平差异巨大,高考又是选拔性考试,不能把锅丢给高考。
很少有人意识到,高考这根指挥棒本身也是不公平的真正根源 —— 从考试和考题设计,到录取计划,再到其背后的央地行政和财政关系。
分数的玄机
从恢复高考以来,中国的高考制度设计一直有两股力量在拉扯:一边是地方政府和省部共建高校在招录中的作用,一边是中央的财政支持及其在高考中的话语权。
相应,这两股力量在外观表现上分成两方:前者的诉求是各省自主命题、高校自主招生和伴生的「素质教育」口号,后者则是全国统一命题、题目标准化和分数标准化。
至于考生群体的利益,双方都以此作为改革的旗号,国内却并没有完善的研究,来指出到底怎样考才对考生们最公平。大多数考试政策直到民怨载道才作出改变,却总是从一个极端改到另一个极端。
在各年度、各省之间,高考分数不能拿来横向比较。这是因为高考大体上是非标准化考试。
• 高考不但是一场考试,还是一套算法。按照经济学的「稳定配置理论」,它和拍卖规则类似,是一种保证分数 - 录取水平匹配的算法。相关理论曾获得 2012 年诺贝尔经济学奖,但至今成果仍未应用到中国的制度设计中
大多数我们所知的出国考试,比如托福、雅思、GRE、SAT 等等,都是标准化考试。这些考试的每次分数会根据统计学原理,进行一套复杂的数学调整,以保证分数不受考试地点、题目、场次的限制。
比如,托福英语机考满分 120 分,听说读写四门各 30 分。它的出题不是按「套」来的,而是按「道」来的。考试机构会邀请一些出题专家,按照一定的要求一道道出题,按「道」给钱,形成一个题库,每道题有自己的难度权重。
每次托福考试,系统会按照固定的权重要求,一个类目的题筛选若干道,「攒」成一套难度标准化的试卷。
当你考完之后,系统按照所有考生排名的百分等级,算出一套统计学标准分。比如说,托福阅读满分 30 分,28 分的百分等级为 84,也就是说当你得了 28 分,就超过了 84% 的考生。
因此你在任何场次考的托福分数意义都一样,可以横向比较。国外高校录取,也只需给出诸如「托福 100 分以上」的直接要求即可。
中国高考长期以来是非标准化考试,这也是央地拉锯战的结果。
80 年代初刚恢复高考时,由于教育部命题水平一般、各地的批卷标准参差不齐,当时的高考题非常简陋,很难说有任何科学性。学者们按照教育科学标准,统计了全国高考的情况,发现很多试题效度极低、信度为负。
当时参与的专家之一张厚粲说:
有些文科卷子,只四大道论述题平分天下……拿语文来说,同一张答卷,五个地区打分能差出 32 分来,数学也差 15 分。
中国高校的录取名额必须由国家公平分配,这关系到社会稳定。眼看高考报名人数逐年增加,长此以往是不行的。经过研究,国家决定推行高考标准化。
1985 年,最早的标准分改革开始在广东试点,后来推行至多个省区,到 1997 年一度覆盖全国三分之一的考生。这些省份在降低难度、3+X 自选科目(数语外三门必考加若干门选考科目)的同时,把所有原始分(满分多为 750 )按统计曲线标准化为满分 900 的标准分。
按理说,标准分能够让学生非常明确地知道自己在全省的名次,有利于志愿投递,也有利于高校录取,更有利于试题标准化和复习备考,是一举多得的好事,但这个制度很快就遭遇了滑铁卢。
3+X 标准分从人人欢迎到怨声载道,只用不到二十年。到 2010 年,沿用标准分制度的省份只剩海南一个,其他省份都改回了原始分。
为什么会这样?
标准分的确更科学,但这不等于在任何情况下,标准化都比原始分更公平。
在考生眼里,3+X 标准分比原始分糟糕很多。除了黑箱操作的隐患,它还带来一个巨大的问题:标准化带来的「局部利益调整」。
考试各科的分数是分别标准化的,但比较的时候大家是放在一起比的,这就造成了名次的移动。
大部分标准化考试的出题对于考生成绩的分布都有一定的把控。即便不经过调整,单靠题目难度分布的作用,大家的原始分也近似满足一定的规律,统计学调整只不过是最后一步。
中国高考的出题水平则远远达不到这么精准。
高考没有题库,每年的高考命题由教育部考试中心或省里现组班子,题目标准化程度低下,原始分的统计分布飘忽不定。因此,高考分数经过标准化之后往往漂移得更厉害。
比如,语文的成绩分布经常比较集中,所以原始分差一分,经过统计学调整,标准分会差好几分乃至十几分。如果来一个偏科的考生,语文特别好,就会很占优势。
另外,3+X 除了必考的数语英三门,还有三门可以自选。当某一科考生总体水平都不太好,考得好的学生就会比选其他科目的学生得更多的标准分,考取更好的学校(高校录取分数线是按处理后的标准分总分划定的)。
对排名靠中间、恰好卡在上线和落榜之间的学生而言,这样的调整会造成极大的不确定性。全部考生中,大约 7% 会在这个调整中命运被悄然改变,由上线变为落榜。十多年间,这个群体的人数可能多达几十万。
这一现象被学界称为「局部利益调整」,比任何顶替都影响深远。而且,由于原始分排名不公开,他们根本没办法知道自己是否因此落榜。
3+X 还存在专业壁垒问题。各大学专业有自己对应的选考科目要求,如一个学生没有选「物理」,就不能报考需要「物理」这个单项的专业。这种专业壁垒加大了选专业的难度,还可能造成某些专业由于高考选科偏差而人数过少。
随着试点省份一个个回到原始分,中央对考生进行「统一分配」的第一轮尝试就这样宣告失败了。
在潮流中,更多省份则选择观望,并逐渐走向故事的另一面:自主命题、自主招生,以及「素质教育」。
谁来决定录取计划
如果中央不能有效、合理地将学生分配给高校,那么各个地方就只有自己来了。
在中国,由于「省部共建」,公办高校和地方经常是绑定在一起的。跟随财政体制改革的步伐,从 1998 年起,全国 200 多所部属高校下划到地方共建,剩余的 76 所教育部直属高校和 38 所部属高校也高度依赖地方财政。
制定高校招生计划的利益关系主要有三方面:中央、高校所属地方、高校。
中央的立场是,一方面考虑宏观就业问题与人力资源分配,有权决定总体上扩招还是缩招,以及是否在需要人才的发达地区扩大招生规模,另一方面,又要保证地区之间的公平。
地方政府和高校则经常是利益共同体。它们都想让更多优质生源来到自己麾下,来促进经济发展、多拿拨款。同时,地方政府还希望扩大本地的教育福利,因此有着多招自己人的意愿。
财政改革之后,高校既然拿地方的钱,录取名额就必然会向地方倾斜,而且因地域经济差异而差距悬殊。
这场三方博弈没有永远的赢家,但有永远的局外人:考生。
高考刚恢复的时候,国家严格配给招生指标,高校却利用双轨制,大量在计划之外招收计划生、委培生。不得已,1993 年国家首次允许省属高校自行编制招生计划。
1998 年,为了填补 985、211 工程的财政空缺,「省部共建」政策出台,中央与地方按原则上 1:1 的比例为高校拨款。为了争取地方支持,各大高校不约而同地多招本地人来。
与自定招生计划同时起步的,是高考的分省自主命题。
2003 年非典当年,泄密事件和整体跑偏的超难全国卷给了各省教育部门以口实。第二年,全国共有 11 个省份进行了高考自主命题,公开的名义是有利素质教育、适应当地情况,让高考更公平。
实际上,这不过是高等教育地方保护主义的延续:既然招生计划已经分省、已经倾向当地,不如就干脆让省份之间无法互相比较更好。
十多年来,我们并未看到高考分省命题对素质教育有何促进。素质教育的核心 —— 减负、反应试、多元化培养 —— 全都无法落实,教育界收获的只是十多份大同小异的考试题。
在省权扩大的背景下,高考进一步远离标准化。
外行很可能认为今天的中国高考已经很正规。在手批时代,即便全国统一命题,由于批卷标准不同,高考分数也有极大省际差异和个人运气成分。
如今,大部分省的高考卷都采用光电批阅,先由计算机扫描答题纸,再用技术按题切分,每道题分给两位老师批阅,如果分数差异超过限度,则发给第三个老师仲裁。
这看上去非常公平公正,但实际上,高考的很多主观题是没有标准化评分体系的。
就以作文为例。标准化考试凡有作文的,都会在虚标准之外给出一系列分档例文,和考纲一起,展示给考生看:写成这样 5 分,写成这样 4 分,诸如此类,并且通常都会给出样题库。但高考没有。
高考作文的出题决策过程成谜,不同省的批阅过程和给分标准更是成谜,每个省都有作文的「考经」,不同省的套路难以互相参考。为了不被仲裁影响考核,阅卷老师多打中等分,也造成了语文成绩分布聚集的现象。
试题越飘忽,对广大考生就越不利。试题太难,他们会集体失分,聚集到低分段,拉不开档次;题目太简单,他们又会集中到较高分段,一样拉不开档次。
国家和教育行业也意识到了这些问题。从 2014 年开始,随着考试相关权力重新收归中央,高考改革风向也开始掉头,重新转向国家统一命题、统一标准化考试,回归二十年前的 3+3 考试模式。
截至 2019 年,新高考改革已经进行了三批,推进到 14 个省份,并逐渐走向全国统一命题。这 14 个省份的自选科目分别采用六种不同的统计学赋分规则。
但二十年前就广受批评的「局部利益调整」、自选科目造成的给分玄学和专业壁垒等问题,现在也跟着回来了。
比如,由于物理的学习难度较大,很多「学渣」早早避开了物理,导致中等水平的学生相对排名靠后。在标准化处理后,这些考生会比选择其他科目的人吃亏得多。
越来越多的中等水平考生便放弃物理,而这样又加速恶化了给分问题,让更多人不愿选物理。官方只能采用在招生时设置专业壁垒等方式,逼学生选物理,但仍不能阻止选物理的人数年年缩减的现象。
随之而来的,则是自选科目人数突然变化引起的教师资源浪费、自选课对固定班级制的冲击等一系列问题。
高考是一场博弈,不但是学生与学生之间的博弈,还是中央、地方、高校与考生群体之间,各个行政和财政主体之间的博弈。
在这场更大的博弈中,当属考生群体最没有话语权。对于考生,真正的公平还很遥远。