胡悦晗 | 控制权理论视角下的教育考试评分标准变异:以甲省新高考历史学科评卷过程为例

社會學會社 Today
胡悦晗(1980 - ),杭州师范大学人文学院历史系副教授,华东师范大学历史学博士,主要研究领域为企业史与劳工政治研究、城市史与知识分子生活史研究。[图源:hznu.edu.cn]

摘要

已有国家治理模式的研究侧重对稳定公共组织过程中委托方和管理方的分析。本文在控制权理论视角下,以甲省新高考历史学科评卷过程中的评分标准变异现象为个案,分析不稳定公共组织过程中的治理模式以及委托方、管理方与代理方的三方博弈。研究发现,尽管该类型的治理模式接近高度关联型模式,但三方不属于同一官僚组织体系,缺乏行政约束,增加了谈判与博弈的不确定性。其影响有二:第一,委托方与管理方存在目标设定分歧,导致委托方在掌握激励分配权的前提下,分割检查验收权,保持对政策执行过程的任意干预能力;第二,代理方的行为偏好得到委托方与管理方的反馈,形成相应的调节机制,对委托方和管理方产生逆向影响,使三方对政策执行的理解渐趋一致,从而导致评分标准发生变异。

一、问题的提出
 
2000年以来,国家对高考制度不断进行改革,试图弱化高考对高中教育指挥棒的作用。2014年9月4日,国务院出台了《关于深化考试招生制度改革的实施意见》。文件要求对现行高考制度进行改革,并指定了高考综合改革计划的试点省市。“考生总成绩由统一高考的语文、数学、外语3个科目成绩和高中学业水平考试3个科目成绩组成”(国务院办公厅,2014)。2014年9月,作为试点省市之一的甲省人民政府(2014)颁布了《甲省深化高校考试招生制度综合改革试点方案的通知》。通知规定:高考必考科目为语文、数学、外语3门;考生从思想政治、历史、地理、物理、化学、生物、技术(含通用技术和信息技术)等7门设有加试题的高中学考科目中选择3门作为高考选考科目,实行统一高考和高中学业水平考试相结合的方式。2014年11月7日,甲省教育厅颁布了《甲省普通高中学业水平考试实施办法》及《甲省普通高校招生选考科目考试实施办法》,标志着国家政策在甲省的落地实施。
 
根据甲省新高考招生制度,考生可以结合自身兴趣特长和报考院校及专业要求自主确定选考科目,每一选考科目有两次考试机会。从2015年至今,甲省形成了以选考、学考为核心的新高考格局。甲省学业水平考试与高考选考的合并举行,使得甲省历史学科的评卷工作由每年一次增至每年两次,每次约1周左右,分别在春、秋两个季度展开。
 
乙校是甲省内一所以师范教育为特色的综合性本科院校。2015年以来,甲省高中历史学科的学考与选考评卷工作由乙校历史系实施。笔者多次以评卷学科组小组长的身份全程参与评卷工作。在历次评卷中,笔者注意到,本应始终如一的评分标准会随着评卷工作的展开而发生变异。评卷伊始,评分标准在紧扣参考答案字句的“踩点给分”与相对宽泛模糊的“相近给分”之间两极震荡。评卷中后期,评分标准则向“相近给分”一边倒。
 
对个体而言,高考是决定生命历程轨迹拐点中的一次重要事件。对社会而言,高考以其权威性和公平性成为教育者与受教育者共同默认遵守的制度体系。那么,为什么在甲省新高考改革以来的历史学科历次评卷过程中,评分标准总会发生相似的变异?为什么“踩点给分”标准难以贯彻评卷始终,最终总会让位于“相近给分”标准?回答这些问题,需要厘清甲省新高考评卷工作的治理模式与行动策略。
 
甲省教育考试院是甲省教育厅直属的副厅级行政职能类事业单位,其职责包括“组织实施本省普通高等学校招生考试(含统考科目和选考科目考试)”。考试院的文件规定,新高考的评卷工作“由省教育考试院总负责,评卷点组织实施”(甲省教育考试院,2015)。在考试院与评卷点之间,形成了委托关系。基于此,本文引入近年来在国家治理研究中颇受关注的控制权理论,深入分析该问题。
 
二、文献回顾
 
伴随政府与社会关系的微妙调整,公共组织过程中的非正式运作及策略运用和变通实践得到研究者的广泛关注(欧阳静,2011;周雪光,2013)。周黎安(2014A:8-9)借鉴企业理论中的发包制与雇佣制两种模式(Coarse,1937;Hart and Moore,1990),提出行政发包制的概念以及行政权分配、经济激励和内部控制三个分析维度。
 
通过构造一个纵向发包与横向竞争双重维度的分析框架(周黎安,2014a:6),行政发包制的概念具有统摄当下政府治理环节中的非正式运作及变通策略的潜力。然而这一概念在内涵、外延与分析维度方面还有颇多商讨余地。首先,解释行政发包制形成的基本逻辑是成本与收益衡量的经济学假设,这一“过于一般性的解释层级”“几乎可以解释任何治理模式的形成”(张静,2014:87)。相较于发包方与承包方之间的明确授权、责任切分等显性特征,张静(2014:85-96)注意到行政发包制运行过程中存在的政府角色多元化、多中心控制权的组织关系以及对执行工具的依赖等隐性特征,提出“行政包干制”的概念,认为当下治理体系是利用社会中的既存组织与社会关系,在模糊的控制权范围内,通过默许、交换和隐形授权,形成了将目标与利益不同的组织容纳于一体的混合共生形态。其次,行政发包制的侧重点在于上级政府的“发包”,强调的是行政组织内部上下级的权力分配(周黎安,2014b:109),对基层政府的“承包”机制与运作策略关注不够。因此,行政发包制旨在考察政府层级间的关系,而行政包干制则旨在考察市县级层面基层政府内部的运行过程(杨华、袁松,2017:183-186;郭亮,2015)。前者侧重制度规范层面的“清晰”边界,后者侧重实际运作层面的“模糊”地带。
 
尽管发包制与包干制在问题聚焦方面相互补充,但二者均是在静态框架下分析治理模式,对这一机制在运行过程中的类型偏差和演变过程关注不够。周黎安(2016:34、45-46)提出行政内发包与行政外发包的区别。区分行政内包与外包的关键是承包人与委托人是否同处于一个官僚组织的权威体系和晋升序列之中。黄晓春、周黎安(2017:122-123)注意到行政发包制自身的多层级性对其运行模式具有的影响。“行政”与“发包”两种治理机制在行政权分配、内部控制以及激励设置上有着相反的配置要求,难以达成恰当的均衡点,这使得行政发包制在“行政”与“发包”两极间周期性摆动,形成“行政”或“发包”分别主导的治理模式。周雪光(2017:94)认为,行政发包制着眼于行政权、经济激励与内部控制三种要素间的匹配兼容,没有涉及委托方、管理者和代理方三者之间权威关系和控制权分配等问题。控制权的不同分配形式决定了组织内部的权威关系和治理模式。周雪光(2017:95-104)将控制权分为目标设定权、检查验收权与激励分配权三个类别,根据其在发包方、承包方与代理方之间的不同分配方式,提出相对应的高度关联型、行政发包制、松散关联型以及联邦制四种不同的治理模式。
 
控制权理论拓宽了发包制理论的适用半径,对理解当下国家治理模式的多样性和复杂性颇有裨益。然而,运用该理论展开的实证研究尚不丰富,意味着该理论在理解当下不同类型治理模式的问题上具有极大的发掘空间。首先,无论是发包制理论还是控制权理论,均侧重对不同层级的政府与社会组织之间长期、稳定的公共组织过程的分析。在当代中国,相当一部分涉及公共服务类事务的组织实施过程是依赖属地内分属不同系统的事业单位之间的联动配合。教育、医疗卫生、环境治理、扶贫救济等均是属地层层发包管理的事务(周黎安,2017:61),这类过程往往具有短期性和不稳定性的特点。中国的事业单位非公共行政权力机关,不属于同一个官僚组织体系,对行政区划内的其他部门单位不具有行政管理的职能,相互间既不存在领导与被领导的层级关系与人事晋升的可能性,也无法借助市场机制产生契约式合作关系。委托方尽管具有正式权威,但这种权威不能以官僚组织内部上下级之间的命令方式实现。因此,委托方缺少对管理方的行政约束。这使得委托方与管理方均有可能采取基于自身利益的行动策略,双方谈判和博弈的不确定性增大。

《转型中的地方政府:官员激励与治理》,周黎安著,格致出版社,2017年。[图源:douban.com]

事业单位的业务内容以政府职能衍生出的特定公共服务类事务为主。这意味着事业单位兼具专业技术权威与公共职能。由不同事业单位协同参与的公共服务类事务的组织过程通常由中央与地方的主管单位负责牵头,一线业务单位负责具体实施。主管单位凭借对专业技术与行业标准的制定和解释权对该类事务工作的结果总负责,对业务单位进行过程监督与业务指导,构成发包或委托关系。如果说组织制度与市场机制是决定发包制模式的关键要素的话,专业技术权威是决定事业单位治理模式的关键要素。根据周雪光对治理模式的分类可以假设,在由事业单位之间协同参与的不稳定公共组织过程中,委托方会放弃集权式运作的高度关联型,采取向管理方让渡部分控制权的方式来调动后者的积极性。这种治理模式的理想类型应介于发包制与更接近分权式运作的松散关联型之间。
 
其次,在周雪光(2017:103)对控制权分配与相应治理模式的概括分析中,管理方获得的控制权维度是形塑治理模式的关键因素,激励分配权是形成控制关系的必要条件,检查验收权和目标设定权则是导向不同治理模式的充分条件。问题在于,是否存在管理方不具有激励分配权,但具有检查验收权的可能性。本文认为,检查验收权可分为检查权与验收权。前者在治理过程中多次行使,后者在治理工作结束时单次行使。不同类型的治理工作对过程和结果的权重分配不一。在侧重治理结果的任务类型中,决定能否“交货”的验收权具有实质意义,而在诸如教育考试、医疗卫生等侧重治理过程的任务类型中,具有动态监控和干预能力的检查权更具实质意义,任务结束时的验收环节则相对次要,仅具象征意义。对检查验收权的分割,意味着存在管理方掌握检查权或验收权,却不掌握激励分配权的可能性。
 
再次,发包制理论与控制权理论的关注重点均集中在发包方(委托方)与承包方(管理方)。周雪光(2017:105)注意到管理方与代理方“共谋”的现象,但认为这一现象更可能出现在发包制模式下。在高度关联型治理模式下,共谋行为代价高昂,不易发生。在松散关联型或联邦制的治理模式下,管理方没有激励与代理方共谋。这一侧重激励机制与理性选择的分析视角对代理方自身的主体性与行为偏好关注不够。尽管代理方处于发包层级的底端,受到管理方与委托方的双重约束,但这并不意味着代理方自身的行为偏好不会对管理方与委托方产生逆向影响。在任务实施过程中,委托方、管理方与代理方经常需要围绕工作任务与目标设定等问题不断进行协调和博弈,这使得代理方对委托方与管理方产生逆向影响成为可能。后者会对代理方的行为偏好不断纠偏,形成兼具正、负反馈调节机制的治理回路。
 
可见,尽管控制权理论是理解公共组织过程的重要视角,但控制权自身的维度划分还有待进一步明晰。将不稳定公共组织过程纳入考察视野,既有助于拓展控制权理论的适用半径,亦有助于增进对当代中国国家治理问题的理解。
 
三、案例介绍与研究框架
 
2015年以来,甲省新高考历史学科评卷工作的基本流程如下:考试院首先根据待评试卷总量,确定参加评卷的中学教师人头总数,按指标摊派给省内相关中学,向下属机构单位下发评卷工作的动员文件(甲省教育考试院,2017a);其次,评卷点成立评卷工作领导小组,下设学科评卷组,院系行政领导与学科负责人担任学科评卷组组长(简称大组长——笔者注)。大组长根据本学科情况,将评卷教师编成若干评卷小组,指定评卷小组长,确定评卷定额(甲省教育考试院,2015)。通常在评卷工作正式开始前一周,乙校历史系召开评卷工作动员会,完成筹组学科评卷组与任务分工等工作。系主任和学科负责人担任评卷组正、副组长。前者宣读评卷规则,交代注意事项,并负责评卷工作的整体协调。后者当众拆封考试院下发的密封样卷与参考答案等资料,展开集体讨论,切分试卷,划分每个评卷小组待评题目,根据待评样卷的题型和数量确定评卷小组数量。每个小组通常评一道题目,分值在4—6分不等。学科负责人根据待评试卷总量确定每个小组的评卷工作量,将考试院敲定的评卷教师平均分至各小组。小组长的人选由历史系下属各教研室均摊。根据小组长本人的专业侧重,在征得其同意后,分派相关的评卷题目,明确权责,完成评卷工作启动前的任务发包。
 
当评卷教师全部到位后,评卷工作正式启动。全体评卷教师首先进行半天的业务培训,然后进入乙校信息化中心机房,在工作人员指引下,进入各自工作机位。大组长向全体评卷教师宣布评卷规则与注意事项,小组长核对组内成员,落实本组评卷题目,指导组内成员熟悉评卷操作系统。评卷分2个小时的“试评”与“正评”两个阶段。在试评阶段,评卷教师所评的试卷均为考生的真实答卷,然而所评分数并不正式生效,其目的是使评卷教师熟悉考生的各种作答内容,明晰评分标准和评判尺度。试评结束后,所有评卷小组统一进入正评阶段。由于评分标准已经在试评阶段明确,故进入正评阶段后,评分标准不能更改,评卷教师不应再对评分标准提出质疑。在此期间,评卷教师既要接受各评卷小组长的指令,也要接受来自评卷点大组长和考试院巡视员的外部干预。正评阶段结束后,考试院巡视员、评卷教师及评卷点三方人员集中,召开本次评卷的总结会。会后,评卷教师统一领取评卷薪酬,回原单位。评卷工作结束。
 
可见,在甲省新高考历史学科的评卷过程中,考试院是委托方,对评卷工作总负责。评卷点是管理方,接受委托方的任务,具体执行评卷工作。评卷教师是代理方,接受评卷点的监管。考试院、评卷点及评卷教师所属的公办中学均是承担教育类公共服务职能的事业单位,相互之间不属于同一个官僚组织体系,评卷属于不同事业单位协同参与的不稳定公共组织过程。然而在评卷过程中,考试院、评卷点与评卷教师三方人员均从原先各自的工作单位抽调出来,集中一处,对外隔绝,以紧密关联、高度互动的方式共同完成评卷工作。这一特点有助于形成高度关联型治理模式,而非发包制与松散关联制。
 
笔者自2015年以来,多次以评卷学科组小组长的身份全程参与甲省历史学科学考与高考选考的评卷工作。职务之便,使得笔者在评卷过程中既能够及时掌握评卷教师工作中的各种问题,又能够随时得到来自考试院、评卷点等监管者的信息和建议,从而深度介入评卷全过程。在此基础上,本文运用参与式观察法,对历次评卷过程进行了民族志式的文字记录,访谈了涵括评卷教师、教育考试院与评卷点三方的多位相关人员,并搜集了新高考改革的相关政策文本。基于此,本文拟运用控制权理论,对甲省历史学科学考与高考选考的评卷组织实施过程加以分析,从而理解评分标准变异的内在逻辑。在框架设计方面,首先分析评卷过程中的控制权维度及其分配方式。其次,通过考察代理方的行为偏好如何对委托方与管理方产生逆向影响,分析评分标准变异的发生机制。最后,在结论部分概括该类公共组织过程的模式特点及其影响。
 
四、评卷过程中的控制权分配
 
(一)考试院与评卷点的目标设定分歧
 
在行政发包制下,承包方具体执行发包方交办的事务,拥有自由裁量权,也控制着相关信息的向上披露,导致上级发包方依赖最终结果进行考核和控制(周黎安,2014a:9)。承包方的工作目标只有与发包方的结果目标完全一致,才能考核过关。然而在评卷过程中,委托方与管理方在目标设定方面存在分歧。考试院需要在评卷工作结束后,以评卷结果向作为政府职能部门的教育厅述职,并在规定时间内向考生、家长乃至其他社会组织答疑,其中平均分与“三评率”是考试院最关心的两个指标。
 
在统一考试的制度约束下,当前我国绝大多数省份未能将高中学业水平考试和高考区分开来(董凌波、冯增俊,2013:63)。甲省教育考试院对学考与高考选考采取统一试题、统一评卷的组织方式。这种方式使旨在强调通过率的学业水平考试与旨在强调选拔性的高考选考暗含的评判标准产生冲突,对教育考试院与评卷教师构成掣肘。在甲省教育考试院巡视员看来,平均分适中且正态分布,说明命题质量成功,考试本身兼具通过率和选拔性两种功能,对学生、家长与社会都好交代。平均分过低,会影响到学业水平考试的通过率;而平均分过高,则不利于考试的选拔功能(访谈对象S5,甲省教育考试院巡视员,访谈时间:2016年4月22日)。
 
甲省现行评卷制度实行同一题目多人评判的办法,以缩减评分偏差。《甲省学考选考评卷工作细则》中规定,“给分原则由学科评卷组确定,实行‘二评制度’。阈值控制在总分的1/6到1/10之间,在阈值范围内取两个得分的平均值。第一评和第二评的得分超出阈值范围,由具备仲裁权限的题组组员进行第三评,取两个阈值范围内得分接近的两个分数的平均值”(甲省教育考试院,2015)。计算机评卷系统将分值设定在整数范围内,杜绝了小数的出现。一道题目分值在6分以上,才允许有1分的阈值偏差。倘或一道总分为5分的题目,A教师给了5分,B教师必须也给5分才能通过。由于不可能给出4分到5分之间的分数,使得B教师但凡给出低于5分的分数,就会超过这道题目的阈值范围,必须由另一位评卷教师进行第三评。什么时候出现“三评”呢?显然是评卷教师对评分标准尺度掌握不一的时候。因此,一道题目“三评率”的高低是反映评卷小组组员对该题目的评分标准是否统一的重要依据。“三评率”低,说明评分标准在评卷过程中前后统一,是教育考试公平性的重要体现。
 
与考试院不同,作为评卷工作的管理方,乙校不对评卷结果负责,不需要向上级教育主管部门、考生和家长乃至其他社会组织“交代”。在工作总量固定的前提下,乙校历史系倾向缩短工作周期,减少人力物力资源的持续消耗。考试院为评卷工作设定的时间定额是两周,然而在历次评卷动员会上,乙校历史系主任与学科负责人均将评卷的总时间限定为5天至一周的弹性周期,并强调要尽可能争取早日完工。这也就意味着,实际评卷时间通常比制度规定的周期缩短了一倍以上。
 
作为评卷工作的代理方,评卷教师同样不需要对评卷结果负责。评卷工作结束即是本次发包关系的中止。尽管评卷期间的薪酬由考试院支付,但“评卷教师工作期间的食宿费、交通费、差旅费等回原单位报销”(甲省教育考试院,2017A)。评卷教师所在单位既要承担上述费用,又要应对教师脱岗对常规教学秩序造成的影响;中学教师的绩效薪资与其任教班级的学业成绩直接挂钩,使得教师本人也希望尽快结束评卷,回归正常教学工作。因此,“赶时间”成为评卷过程中管理方与代理方一致的目标导向。大家都希望能早点结束这一桩被点卯抓差的“苦差事”。

中学教学每一个阶段、每一堂课都有严格的进度规定。你如果因为事情耽误了,意味着你后面的整个教学节奏要全部打乱。我们的教学又是和成绩挂钩的,所以,不光学校不乐意看到,你自己也不希望这样。找其他老师代课吧,中学老师通常教学工作量巨大,所以一般情况下都不好意思开口找别人代课。而且每个老师的教学风格都有差异,对知识点的把握也不完全一致,也不利于学生接受。就算别的老师给你代了,你回来之后往往还要再补充。(访谈对象S15,评卷教师,访谈时间:2016年11月10日)
 
在“赶时间”的目标导向下,评卷点与评卷教师最重视的两个指标是“平均速度”与“三评率”。“平均速度”意味着评卷教师的工作效率,直接影响到评卷总体进度。“三评率”通过影响评卷工作总量,间接影响到评卷总体进度。评卷期间,整体工作节奏也有差别。评卷开始第一天,评卷教师还处于熟悉流程和待评试题的过程中,平均速度不会太快,通常判一道题目需要的时间在10秒以上。次日,评卷教师基本进入正常的工作节奏,平均速度会有所提升,有些老师甚至能把平均速度提高至一道题目4到5秒。耐人寻味的是,尽管“三评率”成为三方共同关注的指标,但对考试院而言,这一指标意味着教育考试公平性的体现;对评卷点和评卷教师而言,这一指标意味着无效工作量的多少。
 
“三评率”高的话,意味着有相当一部分工作都是白干的。一道题目评分标准把握好的话,“三评率”一般可以保持在5%以下,最多也就在10%左右。每次历史学科的评卷总量都是十几万份的规模。一道题目,如果你的“三评率”在40%左右,意味着你的小组组员要多评阅十几万份试卷的40%。这是一个很大的工作量,而且是白费的,吃力不讨好的。(访谈对象S12,乙校历史系学科负责人,访谈时间:2016年4月22日)

图中标语为:“宁可多用10分钟,不可误判考生1分。”[图源:meishubao.com]

(二)检查验收权的分割
 
尽管目标设定环节存在吸纳管理方意愿的可能,但无论是高度关联型、发包制还是松散关联型治理模式,均以委托方的意志为主。因此,当与管理方存在目标设定分歧时,委托方需要因应这一分歧,使政策执行过程符合预期的目标设定。在发包制模式下,检查验收权是不可分割的整体,由发包方掌握。对考试院而言,尽管评卷工作可以委托给评卷点具体实施,然而只有当评卷工作结束,评卷结果正式出炉时,才意味着来自政府与公众两个层面对本次教育考试的信度和效度进行验收和问责的正式开始。问题在于,评卷结果是在评卷工作结束后自动定格的,不可更改。为了使评卷结果不“跑偏”,达到预期目标,考试院通过将检查验收权分割为检查权与验收权,保持对评卷过程的即时监控与纠错,将平均分和“三评率”两个指标控制在理想阈值内。
 
在检查验收过程中,最为突出的问题之一是信息控制和反控制问题(周雪光,2017:221)。相较于发包制模式下从承包方到发包方的信息过滤机制,评卷信息监控系统形成一种倒三角式信息权限层级结构。考试院、评卷点与评卷教师三方同处一个空间维度。按序列编号一字排开的各台计算机将评卷教师相互隔离,每人聚焦于面前的显示屏。小组长在本组分布的区域空间内不定期巡视,考试院巡视员与大组长在廊道中央巡回走动,掌控全局,构成一种福柯(1997,1999)意义上的全景敞视主义的空间结构。在这一空间结构下,委托方与管理方共享信息优势,具有最大的信息权限。学科负责人、教育考试院的巡视员以及来自乙校教务部门的巡考员均具有最大的评卷信息监控权限。在分配的专用监控电脑中,不仅有出成绩率、未完成量、平均分、平均速度、预计时间等用于监控各评卷小组整体工作状态的量化指标,还有有效度、平均速度、无效率、标准差等用于监控每位评卷教师个人工作状态的量化指标,具有覆盖全部评卷小组的信息监管权限。各评卷小组长仅具有本小组的信息监管权限,评卷教师则只能看到自身的各项评卷指标,连组内其他成员的指标数据也无法了解。因此,评卷工作环境的空间与信息层级结构赋予考试院对评卷过程具有与评卷点对等的动态监控能力。两者均能够随时掌握基层评卷小组的信息动态,并借助信息优势,直接向评卷教师发布指令,形成了委托方与管理方共同控制代理方的运作模式。这一模式的关键一环在于将检查验收权分割为检查权与验收权。
 
鉴于评卷工作的耗时耗力,三方都必须避免重评返工的重大失误。对考试院来说,必须实时监控评卷点与评卷教师的动态指标。因此,考试院巡视员与评卷点共享对评卷过程的检查权。当监控信息上显示某道题目平均分过低时,巡视员往往会与小组长沟通,建议放宽评分标准,拉高平均分。然而评分标准放宽又会带来评卷教师对评分标准理解不一致的问题,导致平均速度降低和“三评率”飙升。考试院是委托方,对评卷结果总负责,大组长不便公然与巡视员唱反调,然而行政人员通常忠诚于自己所在的组织,而不是行政整体的规程和原则,他们代表自己的组织,但不代表整体治理体系(张静,2014:91)。在巡视员做出干预后,大组长往往会与小组长私下沟通,商议出既不违背巡视员的意见,又不致降低速度的变通办法,对评卷教师另做指示。
 
(三)专业技术权威主导的激励分配权
 
在周雪光(2017:106)看来,激励分配权在委托方与管理方之间的转移是导致高度关联型治理模式向其他类型模式转变的直接原因。在评卷过程中,评卷总经费、评卷点与评卷教师的薪酬总额由省考试院定额后一次性全额拨付至评卷点。上述预算方案在启动年度评卷工作前就已经由考试院制定并上报核准。这种经费定额及划拨的方式使得评卷点不具备剩余索取权和强激励,考试院也无法通过与评卷点分成或“尾款”支付的方式监控评卷点的工作绩效。评卷点未采用将薪酬与评卷教师评卷量挂钩的“计件”制,而是根据预算定额和评卷教师人头数,在确定评卷教师基本薪酬的同时,使其相互之间根据各自的工作量差异有几百元的绩效薪酬。乙校历史系抽调的教师所获薪酬等同于评卷教师的平均薪酬。这一激励分配方案显然无法调动评卷点与评卷教师的工作积极性。相较于行政内发包与行政外发包的强激励,考试院与评卷点似乎都放弃了激励分配权。
 
然而,这一表象是针对单次评卷过程而言。多次乃至长期的评卷任务委托才是理解评卷工作治理模式的核心。考试院指定评卷点的发包过程蕴涵了竞争机制,但这一竞争并非基于公开招标投标的市场化机制,而是以考试院为主导的内部竞争,竞争者局限在甲省的几所高等院校之间。考试院按照这些院校的办学特色分配相应的评卷学科。资源禀赋、关系网络与领导者偏好均是决定哪所院校成为评卷点的重要因素。在高考改革计划试点工作之前,甲省高中历史学科的学业水平考试及高考选考评卷工作由省内另一所综合性本科院校丙校承担。作为以人文学科见长、位于省会城市的师范院校,乙校有意发展自身在文史基础学科层面对省内中学的话语权,于2015年后获得了中文与历史两个基础学科的评卷资格。在一次评卷工作动员会上,乙校某位校级领导直言,这两个学科的高考评卷权“是我们从丙校抢过来的”。在他看来,“抢”到评卷工作,对乙校相关学科在省内的地位至关重要。“我们的老师每年都能参与这些学科的出题工作。现在我们掌握了评卷工作,我们就全方位掌握了这些学科平常教什么,考试考什么,评卷看什么,对于提升我们对省内中学教学的统摄能力十分重要。我们的老师能够在课程与教学方法论的层面对全省中学具有指导意义,我们的毕业生也会受到省内中学,尤其是重点中学更多的器重,他们以后的职业上升空间也会更大,这对我们的办学质量有重要影响”。
 
对评卷点而言,只有获得评卷资格,才能提升在相关学科领域的话语权和资源。包揽评卷工作次数越多,提升的空间和力度也就越大。尽管单次评卷任务既不具备基于人事晋升的内部激励,也不具备基于市场化的外部激励,但评卷点之所以愿意争取评卷工作,是基于向考试院要求后续评卷资格的剩余索取权的激励。考试院具有组织教育考试资格的专业技术权威。这种权威赋予考试院选择评卷点的能力,是考试院作为委托方所持有的激励分配权。凭借这一权力,考试院对评卷点具有相对稳定的正式权威和业务指导关系,总体掌控评卷工作。乙校既然能从丙校手中“抢”来评卷资格,其他院校也能从乙校手中“抢”走。给谁不给谁,由作为委托方的考试院说了算。
 
在发包制模式下,发包方与承包方受到组织制度与行为规范两个层面的强约束,二者容易形成高稳定性乃至常态化的行为模式与互动关系。尽管教育考试、公共卫生等公共服务类事务具有间歇性、突击性与短期性的特点,但这些事务通常具有特定的周期和频次。考试院虽然掌握更换评卷点的激励分配权,但是考虑到教育考试工作的常规性和稳定性,并不轻易使用该权力。因此,考试院和评卷点之间通常会多次合作。这些合作经历是一把双刃剑,既有可能增进合作稳定性,强化考试院向评卷点的持续委托意愿,也有可能使双方产生分歧和矛盾,导致考试院动用更换评卷点的杀手锏。
 
可见,在评卷工作中,考试院在目标设定方面与评卷点存在分歧,导致该分歧的原因在于双方基于各自利益出发点的考虑。考试院通过与评卷点共享检查权的方式掌控目标设定权,获得预期的评卷结果。激励分配权也掌握在考试院手里。只是这一权力的指向对象并非是作为代理方的评卷教师,而是作为管理方的评卷点。由于考试院可以借助省教育厅的渠道以行政指令的方式向省内中学摊派评卷教师指标,因此不需要考虑被摊派学校的配合问题。然而考试院必须保持对评卷点的激励,使评卷点按照考试院的预期执行评卷工作。因此,在控制权的分配维度上,尽管委托方、管理方与代理方不属于同一官僚组织系统,存在目标设定分歧的问题,但委托方通过掌握对管理方的隐性激励以及与管理方共享检查权的方式,使三方之间更接近高度关联型治理模式,而非发包制与松散关联型模式。
 
五、评分标准变异的发生机制
 
(一)谁掌握评分标准?
 
在高度关联型治理模式下,委托方掌握目标设定权、检查验收权与激励分配权。据此,考试院制定的评卷答案显然应是评卷点和评卷教师紧扣的唯一标准。然而在评卷前的动员会上,考试院和大组长均强调,评分标准必须掌握在小组长手里,而不是评卷教师。考试院的巡视员强调,考试院印发的答案并非“标准答案”,而是“参考答案”,负责评判具体题目的小组长拥有实际决策权和斟酌空间。可见,尽管考试院具有组织教育考试的专业技术权威,但在评卷过程中,并未采取绝对集权的方式,而是赋予评卷点政策执行的自主权。这可以视作委托方将自身的专业技术权威向管理方让渡。
 
我们从一开始就强调,试题的评判标准必须掌握在各个小组长手里,不能被评卷教师所左右。因为这些评卷老师来自不同的中学,他们各自的教学方式以及对题目的理解不可能完全一样。每一个老师都希望能够影响评判标准,使这个标准尽可能地接近自己的理解。因为他自己平时就是这样教学的,如果跟评分标准相吻合,毫无疑问有利于提高他们自己学校学生的分数。这样的话,对其他中学老师是不公平的。(访谈对象S5,甲省考试院巡视员,访谈时间:2016年4月22日)
 
考试院赋予的政策执行自主权使评卷点具有对“参考答案”的解释与斟酌空间,显然有助于调动评卷点的工作积极性。然而,考试院赋予的参考答案解释权在执行过程中存在两难局面。参考答案是考试院在评卷前就已经确定的,在评卷过程中难免出现小组长与评卷教师对参考答案有异议的情况。评卷教师是中学教师,评卷小组长是大学教师。尽管大学教师受到的专业学术训练普遍高于中学教师,但涉及以应试教育为主的高中阶段,大学教师对中学教材的理解和把握能力显然无法与中学教师相比。不少评卷教师抱怨本组组长不熟悉中学教材知识点和教学模式,生搬硬套,对参考答案的理解和把握不准确,是“外行领导内行”。需要多次召集本组评卷教师商议评分标准的小组长面对组内评卷教师的大量异议和激烈争论,同样头疼不已。
 
商议标准的时候人多嘴杂。我们刚一宣布标准,有时话还没说完,他们(指评卷教师——笔者注)就嚷嚷开了,一说就是老半天。他们说“我们平时是怎么教的,这个题目教材里是如何讲的”之类。最后要么是小组长的声音淹没在大家七嘴八舌的讨论里,要么是小组长扯嗓门压住他们,强制宣布标准,不允许讨论。但即便这样,有些评卷老师根本不听,你说你的,他评卷时还按照自己的理解去评。(访谈对象S9,阅卷小组长,访谈时间:2016年11月9日)
 
因此,评卷工作启动伊始,手握评分标准权限的小组长与组内成员就有存在分歧的潜在矛盾。尽管考试院赋予评卷点政策执行的自主权,但评卷点属于高等教育系统,评卷教师属于基础教育系统,双方不属于同一个官僚组织体系,存在明显的行业隔膜,因而削弱了小组长对评分标准的解释权和斟酌空间。
 
(二)“相近给分”与“踩点给分”:评卷教师的两种行为偏好
 
在评卷启动前的动员会上,学科负责人与小组长逐字逐句分析考试院制定的每一道题目标准答案的行文表述,从中提炼出每一个分值所对应的核心知识点,明晰评卷标准。然而在评卷过程中,考生五花八门的作答导致“相近给分”与“踩点给分”两种评分标准的产生。

图为湖南省2016年高考四大名校联考历史试题中的简答题部分。[图源:233.com]

“相近给分”指凡是答卷与标准答案中的基本要点相近,即可给分。这一标准需要根据考试院下发的参考答案,析出与该答案含义相近的关键词和近似表述。然而,考生的作答五花八门,区区2个小时的试评环节根本无法穷尽每道题目的所有可能作答内容。因此,在正式评卷开始后,时常会遇到考生作答内容超出标准答案商议范围之外的现象,引起评卷教师之间展开是否应当给分的讨论。尽管这一评卷标准更人性化,有利于提高平均分,但也增加了评判尺度的模糊性和不确定性,导致评卷教师对“相近”程度的把握不一,引起一评、二评的偏差超过阈值范围,拉高了“三评率”。
 
有的题目,参考答案是“反对殖民主义”。学生回答“反对帝国主义”行不行呢?如果行,那么回答“反对霸权主义”、“反对强权主义”、“反对殖民侵略”行不行呢?各种答案是五花八门的。你很难确定到底哪个对、哪个不对,到底相近到什么程度。这个尺度,每一个评卷教师都有不同理解。这还仅仅是标准答案中的其中一个小要点。其他每一个要点,学生答卷中都会出现无数个相近的、模糊的表述。有些甚至是你根本想不到的。如果任由评卷教师根据自己的揣摩去理解,很难保证大家都评判的一样。(访谈对象S15,评卷教师,访谈时间:2016年11月10日)

有的题目答案是人名与地名。学生很容易写错别字。比如说某题目的答案是朱元璋,我见过的,就有好几份答卷把“璋”字写错。有的写成“章”,有的写成“彰”,各种错误。你给不给分呢?学生显然知道应该写什么,但就是不够准确。还有的学生写明太祖,你给不给分呢?你能说明太祖跟朱元璋不是一个人吗?你给了,组内别的老师二评的时候没给,那就两次评分不一致,需要三评了。(访谈对象S26,评卷教师,访谈时间:2016年11月15日)
 
据部分评卷教师反映,“相近给分”的评卷标准会导致平均速度的降低,理由是这一标准迫使评卷教师必须从头至尾把该题目的答卷内容都看完,并不断推敲斟酌“相近”的模糊性与不确定性边界,再评判分数。在十几万份待评试卷的重压之下,这种评卷方式无疑会极大延缓评卷教师整体的工作速度,不少教师均感不堪重负,事倍功半。
 
然而,这一标准是否真如评卷教师所说,是降低平均速度、拉高三评率的根本原因?其实不然。在历次评卷中,评卷教师的整体平均速度通常稳定在每题7至9秒之间,超过10秒以上者是需要“敲打”的“落后分子”,低于5秒以下者是值得表扬的“劳动模范”。一个有意思的现象是,不少评卷小组中的“劳动模范”大都采取“相近给分”的评分标准。笔者访问过的一位平均速度在4秒以内的评卷教师道出原因所在:

你凭直觉一眼扫过去,不管它是含糊的还是沾边的,一律给分。这样的话,你也不需要判断和思考,你的速度就不会慢。如果每个评卷教师都这样操作,三评率一定会下降,因为对同一题目而言,所有老师的评分肯定都高,也就不会有太大差异。真正降低评阅速度,增加三评率的原因是老师们步调不一致。有的老师快速给高分,而有的老师在评每一份试卷时都在思考到底这句话是不是相近,应不应该给分。
一道题目,你马虎看过去,没啥问题。你仔细看,就很容易发现问题。所以,思考和推敲很容易导致评分降低。同一道题目,你在第一评的时候用5秒,给了5分,而他在第二评的时候用了10秒思考推敲,最后给了3分,这样,平均速度自然就下去了,三评率也高了。(访谈对象S16,评卷教师,访谈时间:2016年11月10日)
 
由此可见,“相近给分”的评分标准并非降低平均速度、拉高三评率的唯一原因。在“相近给分”的标准下,评卷教师在判卷时间上的分化拉大了评卷教师的评判尺度差异,才是降低评卷速度、增加“三评率”的主要原因。
 
与“相近给分”在操作层面上的模糊性和不确定性相对,“踩点给分”的标准就明晰很多。凡是与参考答案不一样的一律不给分,错一个字都不行。尽管这一清晰直白的评分标准会因紧扣参考答案而导致平均分下降,但在评卷教师看来,该标准能够将评卷教师间的分歧和争议降至最低,从而降低三评率,提升平均速度。
 
你一眼看上去,答卷上的内容是否与参考答案一致,一目了然。那些相近的内容你也就不用花时间了,也不用花时间思考,直接给分,平均速度肯定不会慢。评卷教师对同一个题目的评判尺度统一了,一评和二评给分一致,也就不会产生三评的无用功。(访谈对象S24,评卷教师,访谈时间:2016年11月13日)

在历次评卷过程中,笔者观察到一个值得注意的现象。来自普通中学的评卷教师多倾向于“相近给分”的评分标准,来自重点中学的评卷教师则倾向于“踩点给分”的评分标准。在乙校历史系学科负责人看来,这是一个必然结果,其原因在于普通中学教师与重点中学教师两者的工作单位在行业内部所处的层级差异。
 
重点中学的老师,往往会仔细看答卷内容,挑问题,严格按照参考答案给分。这是他们的职业训练。他们在平时的教学和测验中对教学知识点的把握就扣得很细。这样一来,他的评卷速度自然上不去,平均分也不会高。来自普通中学的老师,平时的教学和测验中对教学知识点的把握度不如重点中学的老师那么过细。他们评卷时也往往对标准把握得比较宽泛,看得也不那么过细。凡是回答稍微沾点边的就直接给分了。这样一来,他的速度就不会慢,平均分也不低。(访谈对象S12,乙校历史系学科负责人,访谈时间:2016年4月22日)

(三)从两极震荡到一边倒
 
在评卷初期,考试院、评卷点与评卷教师很难就待评题目与参考答案的理解完全一致,三方存在协调磨合。在此期间,时常发生小组长、大组长以及考试院巡视员等多重监管者分别向评卷教师下指令的现象。这些指令经常相互矛盾冲突。小组长的信息权限有限,无法有效把握组间进度差异,当接到大组长加快速度的指令后,小组长通常会要求本组组员采取紧扣参考答案的“踩点给分”标准。然而这一标准在提高平均速度、降低“三评率”的同时,又会导致平均分的下降。这时,考试院巡视员多半会出面,向小组长下指令,要求提高平均分,使得小组长转而向组内成员宣布“相近给分”的新标准,从而造成评卷初期两种评分标准交替使用的“折腾”现象。
 
当评卷进入中后期,考试院、评卷点与评卷教师三方已经渡过磨合期,对试题和参考答案的理解渐趋一致。在此期间,评卷教师的行为偏好会对评卷点与考试院两者的目标设定产生影响,后者根据这些量化指标的波动,对评卷教师进行正、负反馈的双向调节。考试院的“平均分”导向与评卷点的“平均速度”导向使得评分标准从评卷初期的两极震荡向“相近给分”一边倒,在评卷教师中产生出“落后分子”与“劳动模范”的两极分化。不少重点中学的评卷教师被带上“落后分子”的帽子,受到评卷点的规训和督促,处于劣势地位。而普通中学的评卷教师则往往被戴上“劳动模范”的帽子,得到评卷点的表扬和奖励,处于优势地位。其原因有二:
 
第一,在评卷小组商议评分标准的环节,普通中学教师凭借人数优势获得相较重点中学教师更强势的话语权。作为实施方的一线评卷教师主要来自重点中学和普通中学,两者抽调的评卷教师在数量分布上并不均衡。甲省教育考试院(2016)对选调的中学教师标准有明确规定:“教龄3年及以上,具有中学一级教师职称及以上的在职在编高中现任教师”。这一门槛既将处于教育质量下游位置的中学教师挡在门外,也有效过滤了在重点中学或普通中学任教但业务能力与职称未达标的教师。因此,参加评卷的中学教师,无论是个人业务水平抑或所供职的单位均是中上水平,“差学校”、“差教师”参加评卷的概率被减至最低。与此同时,教育考试院希望尽量调动下属各中学的积极性,“抽调的评卷教师要兼顾各高中学校之间的平衡”(甲省教育考试院,2016)。普通中学教师的群体基数远远大于重点中学,因此,参与评卷的普通中学教师数量也明显超过重点中学教师数量。不难想象,在这一环节,具有人数优势的普通中学教师的发声能力和影响力明显超过重点中学教师。
 
第二,也是最重要的一个原因,即普通中学评卷教师采取的“相近给分”标准迎合了考试院与评卷点的目标设定,而重点中学评卷教师采取的“踩点给分”标准未能契合考试院和评卷点的目标设定。这是笔者所参加的历次评卷中均出现的“惯例”现象。在评卷点注重平均速度,考试院注重平均分的目标两歧下,普通中学评卷教师因为评卷的“多、快、好、省”,既成为评卷点倚重的对象,也因其给出的平均分较高而得到考试院的默许和鼓励。在评卷过程中,他们不断得到监管者的口头表扬,在小组中脱颖而出,处于话语优势地位。他们的评分标准和评卷方式会被小组长作为旨在提高团队工作效率的典型而在全组范围内不断宣扬。组内其他组员出于降低“三评率”,提高自身评卷速度的需求,也愿意向“劳动模范”们“相近给分”的标准主动靠拢。即便“模范”们偶尔与组内其他组员开个玩笑,做一点与评卷无关的事情,也多半得到管理者睁一只眼闭一只眼的默许。反观来自重点中学的评卷教师,往往因为秉持“踩点给分”的标准,在评卷速度与平均分两个指标上未能契合考试院与评卷点的目标设定而成为管理方和委托方眼中的“落后分子”,不断遭到考试院和大组长的一次次口头提醒甚至批评,在小组中处于话语劣势地位。他们所偏好的评分标准得不到其他评卷教师的借鉴。一旦他们在评卷中稍事休息,或做与评卷工作无关的事情,会立即招致管理者的口头警告。评卷结束时的优秀名额,也多半与他们无缘。
 
六、结论
 
通过运用控制权理论分析甲省新高考历史学科的评卷过程,可以发现,由不属于同一官僚组织系统的事业单位协同参与的不稳定公共组织过程,其治理模式并非介于发包制和松散关联制之间,而是更接近高度关联型模式。委托方、管理方与代理方在治理过程中能够脱离各自的常规工作节奏,紧密关联,高强度互动,有助于委托方实施自上而下的政策执行过程。专业技术权威赋予委托方具有驾驭管理方与代理方的组织合法性,有助于委托方有效行使目标设定权、检查验收权和激励分配权。
 
在政府与社会组织稳定互动的高度关联型模式下,委托方与管理方属于同一官僚组织体系,有利于前者通过行政层级约束后者,使后者按照前者的目标设定贯彻执行。而在不稳定公共组织过程中,委托方、管理方与代理方不属于同一官僚组织体系,既缺乏行政约束,亦不具备市场化激励机制,使得三方均有可能采取基于自身利益的行动策略,增加了谈判与博弈的不确定性。在本案例中,表现在两个方面:第一,考试院与评卷点的目标设定分歧。考试院对检查验收权的分割,保持对评卷过程的“任意干预权”,是因应与评卷点的目标设定分歧,整体管控评卷过程的行动策略。
 
其次,也更为重要的是,正是因为三方均存在谈判空间与博弈能力,使得在已有研究中被忽略的代理方能够从自身的行为偏好出发,对委托方和管理方产生逆向影响。在本案例中,表现为评分标准从两极震荡向“相近给分”一边倒的变异现象。这一事实体现在考试院赋予评卷点对参考答案的解释权和斟酌空间,以让渡自身专业技术权威的方式赋予管理方政策执行的自主权,试图调动评卷点的工作积极性。然而,评卷点与评卷教师二者的行业隔膜削弱了管理方行使政策执行自主权的效果,导致两者对参考答案模糊地带的理解存在争议空间,使评卷过程中处于“承上启下”关键环节的小组长难以充分行使政策执行自主权,而考试院又不便直接越权,代为裁断。这是政策执行链条上的薄弱环节。在此情况下,作为代理方的评卷教师自身的两种行为偏好得到委托方与管理方的正、负反馈,形成了强化与弱化的行为调节机制,使三方对政策执行的理解渐趋一致。能够迎合考试院与评卷点双方目标设定的“劳动模范”脱颖而出,成为委托方与管理方倚重的对象。评分标准在这一持续互动过程中悄然变异。
 
至此可见,在当代中国的治理问题中,由不属于同一官僚组织体系的事业单位乃至社会团体等多种社会力量协同完成的不稳定公共组织过程亟需被纳入研究视野。在这一过程中,不仅控制权理论的分析维度值得进一步拆分,各种社会力量在组织实施过程中围绕控制权展开的博弈和行动策略也应当被深入发掘。

*本文原载于《社会》2019年第9期。为阅读及排版便利,本文删去了部分注释,敬请有需要的读者参考原文。

**封面图为2018年6月14日,合肥,位于安徽大学的高考阅卷现场。图片来源:视觉中国

〇编辑:烟波   排版:林岭
〇审核:孜然 / 灵睢