胡向东　胡凯：国家考试运行质量评估体系的构建——以全国体育单招专业统考运行监督评估实践为例

Original 胡向东　胡凯中国考试 2022-04-25

作者：

胡向东，华中师范大学测量与评价研究中心主任，教授，博士生导师；
胡凯，中国地质大学（武汉）体育部，教授。

原文刊载于《中国考试》2020年第7期第1—8页。

摘要：在考试招生制度改革不断推进、考试管理专业化和职业化迅速发展的背景下，通过第三方对国家考试的运行质量进行评价，有利于加强国家考试的监管，提高人才选拔质量，维护国家考试的公信力。以全国体育单招专业统考运行监督评估实践为例，基于以“回应”作为评估的出发点、以“共同建构”作为评估的本质、以“协商”作为建构评估的途径这一框架构建思路，采用文献研究法、问卷调查法和德尔菲法构建全国体育单招专业统考运行质量监督评估指标体系，该体系由5项一级指标、15项二级指标、34项三级指标、103条具体评估标准构成。基于对评估体系2年的试用探索，提出加强评估指标的科学化设计、加强考试技术改进和信息技术支撑、以持续评估促进考试管理质量持续改进和价值提升、扩大第三方机构对国家考试运行质量评估的探索等建议。

关键词：国家考试；高考；体育单招；质量评估；第三方评估；考试管理

　　普通高等学校运动训练、武术与民族传统体育专业招生全国统一考试（以下简称“全国体育单招统考”），是我国普通高校招生考试体系的一部分，招生对象为具备资格的体育类考生，考试分文化和体育专项技能2部分，均实行全国统考，分别称之为文化统考和专业统考。按照最高人民法院、最高人民检察院《关于办理组织考试作弊等刑事案件适用法律若干问题的解释》^[1]中对“法律规定的国家考试”的解释，体育单招专业统考属于“法律规定的国家考试”中的特殊类型招生考试。2018—2019年，华中师范大学测量与评价研究中心先后2次对全国体育单招专业统考的全过程进行第三方监督与评估。这是我国统一高考自1952年创建以来，首次接受第三方评估。在考试招生制度改革进入深水区和攻坚期的当下，第三方机构对作为国家考试的高考进行质量监督和评估，不仅有利于保障高考运行质量，为考试招生制度改革营造良好社会环境，更是构建国家考试运行质量评估模式的有益探索。
　　作为教育评估的一个特殊类别，考试运行管理质量的评估是依据一定的目的和标准，通过考试活动信息的有效采集与利用，进行事实分析和价值判断，以促进考试管理法制化、规范化、科学化的过程。国家考试建立健全考试运行管理的监督和评估机制，“是发展和完善考试管理体制，逐步提高考试管理水平，不断适应社会发展需求的必然。”^[2]如何推进这一进程，构建国家考试运行质量评估模式，对国家考试质量进行客观公正的评价，是本研究的主题。

体育单招统考概况

　　普通高等学校运动训练、武术与民族传统体育专业招生开始于1986年，由于其招生计划单列、文化考试和体育专项测试均由招生高校自行组织，故称为体育单招。体育单招报考条件的“门槛”较高——必须具有国家二级运动员资格，因此该项考试初期报考人数和招生高校都较少。随着我国体育事业的发展，专业运动员和取得二级运动员资格的中学生越来越多，报考人数从最初的几百人发展到2019年的3.3万人，招生高校由最初的6所发展到2019年的106所。2018—2019年全国体育单招统考的基本情况见表1。

　　在体育单招运行的30余年间，随着报考人数的增加，其运行管理机制也随之发生变化：1990年起，文化考试试题由国家体委组织命制，各招生高校不再命题；2011年起，文化考试试题委托教育部考试中心组织命制，国家体育总局不再组织；2015年起，文化考试的考务组织由招生高校转交所在地的省级教育考试机构负责；2018年起，一直由招生高校负责的体育专项考试改由国家体育总局统一组织。
　　运动训练、武术与民族传统体育2个专业共设63个体育项目，其中：运动训练专业设冬季项目11个，其他项目49个；武术与民族传统体育专业设武术套路、武术散打、中国式摔跤3个项目。在63个项目中，全国统考项目55个，分区统考项目8个。全国统考项目虽然种类多，但单项报考人数较少，因而全国所有报考统考项目的考生均集中于一个考点考试；分区统考项目虽然种类少，但单项报考人数较多，无法在一个考点组织考试，因而采取分区统一考试模式。自实行统考以来，报考人数最多的田径、游泳、篮球、排球、足球、乒乓球、羽毛球、网球8个项目，全国设东北、华北、华东、中南、西北西南5个考区，报考这8个项目的考生在所在片区的考点报名参加考试。
　　目前全国共有17所院校受委托举办全国统考和分区统考的测试，这些组考院校既承担全国统考项目，也承担分区统考项目。在考试时间上，根据气候和场地要求，冬季项目测试一般从1月开始，3月中旬结束，其他项目的测试从3月中旬持续到5月中旬。
　　2018年开始实施的全国体育单招专业统考具有以下3个特点：一是专项多，专业性强。测试项目达63个，基本与奥运会等大型体育运动会的项目对应；由于要求具有国家二级运动员资格方可报考，报考和组考的门槛都较高，必须由专业人员担任考官，考务辅助人员的专业素养要求也较一般纸笔测试的要求高。二是测试项目间的差异大，对测试条件要求高。有些项目（如冬季项目）报考人数非常少（全国仅2~3人），但场地、考官的专业性要求又极高；有些项目报考人数多，需要分区测试，要求场地条件和执裁水平必须相对一致。三是测试工作战线长，组织管理难度高。2019年体育单招考生达3.3万人，比奥运会参赛运动员还要多出2倍；组考院校15所，考官、考务人员累计达2万多人次；测试持续时间长，从冬季项目到其他项目，历时5个多月；体育测试是在运动中进行的，受气候、场地、运动状态等多种因素影响，具有不可回溯性，测试的原始依据难以保留完整^[3]，对考生的考试利益救济难度也较大。

国家考试运行质量评估的目的

　　对国家考试运行质量进行第三方监督评估是一项前所未有的探索，这个首例能够落于全国体育单招专业统考，既是体育单招作为国家考试本身改革和发展面临的时代需要，也是体育单招改革的自主选择。

2.1　考试招生制度改革应有之义
　　2013年发布的《中共中央关于全面深化改革若干重大问题的决定》对考试招生制度改革提出的要求是：“探索招生和考试相对分离、学生考试多次选择、学校依法自主招生、专业机构组织实施、政府宏观管理、社会参与监督的运行机制，从根本上解决一考定终身的弊端。”^[4]其中对运行机制的表述，体现了坚决破除制约教育考试事业发展体制机制障碍的决心，强调考试招生制度改革的系统性、整体性和协同性。对国家考试实行第三方监督与评估，正是建设社会参与监督运行机制的必由之路，体现了国家意志，突出了问题导向，也回应了社会关切。

2.2　落实国家相关政策要求
　　《国家中长期教育改革和发展规划纲要（2010—2020年）》明确提出“建立教育质量监测、评估体系，定期发布测评结果”的要求，《中共中央关于全面深化改革若干重大问题的决定》也明确提出“委托社会组织开展教育评估监测”。为落实国家政策文件要求，教育部在每年的加强特殊类型招生考试管理文件中均提出“加强监督”的要求。国家体育总局在2018年明确提出“建立考试监督评估体系”的要求：“委托专门机构建立体育单招专业考试监督和评估体系，制定‘考试检测评估指标标准’。考试期间将派驻监督评估小组往各个考区开展考务监督评估工作。”^[5]这既是推进考试招生制度改革的具体措施，也是建构社会参与监督运行机制，为考试运行管理提供科学和专业的评估服务的探索。

2.3　维护国家考试公信力的必由之路
　　从2018年起，持续了30多年的高校体育专业招生考试方式发生变革：在考试性质上，由校考转变为全国统考；在管理体制上，由教育部、国家体育总局管理指导、各招生院校自行组织转变为教育部委托国家体育总局管理组织；在运行机制上，由各招生高校单独命题、单独测试、单独录取转变为全国统一命题、统一测试、统一录取；在操作规范上，由学校审查报名资格转变为全国建立网络平台统一审查和报名，考官由各院校自主负责转变为从全国范围内筛选建立的考官库中抽取；在录取模式上，由考生限报一所高校一个志愿转变为可报多所高校多个志愿，高校和考生双向选择的机会更多。这些改革出自顶层设计，直接带来社会对国家考试公信力的新期许。国家考试的公信力体现在考试是否公平公正、考试是否具有信效度、考试管理的公开化程度等方面，对这些内容的评估需要第三方专业评估机构，这是维护考试公信力、提高考试治理能力的必由之路。此外，考试的组织者和实施者能够主动接受社会监督，也是提高国家考试公信力的重要途径，是实现考试机构组织自律的重要方法^[6]。
　　现代社会的考试管理涉及面广、内容复杂、专业性强，且管理成效与国家和人民的利益、与社会运行秩序密切相关。国家考试体现国家意志，在考试招生制度改革持续推进、国家考试法制化管理不断加强的今天，对体育单招专业统考运行质量进行监督评估，旨在强化以法治考的观念和意识，提高考试管理法制化、规范化和科学化水平，保障考试结果的客观、公正，维护考试活动中的两大主体——应考者和考试实施人员的合法权益。这既是国家考试进行第三方监督评估的出发点，也是意义所在。

国家考试运行质量监督评估体系的构建

　　考试运行管理的外部监督和评估，既是健全考试制度、发展和完善考试管理体制之必需，也是逐步提高考试管理水平、维护考试公信力、不断适应社会发展需求之必然。本研究虽然聚焦全国体育单招专业统考的监督评估，但将目标定位为探索构建国家考试运行质量评估模式，目的是通过这个项目的研究，为其他考试项目的质量评估提供参考模板。

3.1　构建国家考试运行质量评估体系的基本思路
　　依据第四代评估理论，评价就是对被评事物赋予价值，它本质上是一种心理建构，评价描述的并不是事物真正的、客观的状态，而是参与评价的人或团体关于评价对象的一种主观性认识，是一种通过协商而形成的共同的心理建构^[7]。本研究将体育单招专业统考监督评估定义为所有参与评估活动的专家和单招统考管理者、参与者共同进行考试价值建构的过程，在这一过程中，各利益相关方基于对体育单招专业统考的认识，通过反复协商、沟通和交流，不断缩小意见分歧，在这一国家考试的价值观及其实现路径上达成尽可能一致的观点，最终促进考试运行质量的不断提升。这一定义的要点有3个方面：一是以“回应”作为评估的出发点，应答或回应评估中各利益相关者的要求或关注焦点，包括利益相关者的主张、焦虑和争议等，增进各方沟通交流，以取得共识；二是以“共同建构”作为评估本质，国家考试的评估要取得公认的结果，就必须协调评估者与评估对象的考试价值观，协调对国家考试评估标准认识的分歧，缩短对评估结果看法的差距，最终形成一致公认的评估结果；三是以“协商”作为建构评估的途径，充分听取各方意见，努力去除以往评估面向过去、自上而下、标准单一、片面追求量化、缺少交流与合作等弊端，克服管理主义倾向。

3.1.1　价值取向：监督与评估并重，以评促改
　　与一般第三方机构对评估对象的评估不同的是，对全国体育单招专业统考项目的监督评估，在“评估”之前冠以“监督”字样，充分体现来自委托方和第三方机构对该项目评估的价值取向，即监督与评估并重。通过收集与考试相关的信息与数据，与测试标准、评估标准相比较，发现项目运行中存在的问题，评估项目的实施成效。在这一过程中，将监督与评估相结合，既通过监督发现存在的问题，通过纠偏改进考试实施；又根据评估结果清晰地描述考试实施的成效，激励组考院校提升考试管理水平，探索考试的科学化、规范化实施路径。
　　国家考试监督评估的结果应该作为一种社会信息，向组考院校及社会发布，使其不仅作为国家考试运行质量的评定结果，而且作为向公众提供的信息服务。通过这种公开的监督机制，督促组考院校及考试管理系统持续改进。

3.1.2　评估主体：由考试主办机构自我评价向多元主体评价转变
　　在国家考试运行过程中，存在着考试主管部门、具体实施机构（组考院校）、考生及其家长、社会各界及舆论监督等多方利益相关者。长期以来，对考试特别是国家考试运行质量的评估，多由考试主办机构或其主管部门组织进行，其目的多用于对考试管理运行情况的实际效果进行衡量和评定，以指导考试管理革新发展。这种评估进行之后往往续之以科研和自我改进，目的在于提升考试组织管理效益；但是，由于它往往站在主办方立场之上，对其他考试主体和参与方利益实现与否的评估效果难以确定，其公信力需要社会确认。国家考试的利益相关者是多方面的，这些多元主体的利益差异是客观存在的，考试主办方应克服“以我为主”的本位意识，争取在考试各利益相关方之间建立信任。因此，考试的评估主体从主办方自我评价走向更具公信力的第三方评价是必然趋势，它不仅有利于考查国家考试运行的质量，更有利于维护和提升国家考试的公信力。

3.1.3　评估客体：强调测试运行质量达标，突出改进效果
　　与其他第三方评估不同的是，体育单招测试的监督评估应该更加强调比照施测质量标准的达标与执行，即监督评估应该贯穿于测试的全流程。在测试标准设计阶段，应同时制定测试质量标准，以督促组考院校按照标准组织考试；在测试过程中，对测试进行监督并及时反馈信息，促进标准的执行；在测试结束后，通过评估结果的发布与讲解，促进组考院校对问题的认识和改进，侧重于改进效果的提升。针对评估客体的监督评估，立足促进测试运行质量达标，并以改进提升作为最终目的。

3.1.4　评估周期：向常态、动态评估转变
　　教育评估的先决条件取决于技术能力，以及“与监测与评价成败有关的一些因素：政治意愿、对监测和评价目标的承诺以及教育评价的制度和组织能力”^[8]。就体育单招测试项目成败的因素而言，主要有2个方面：一是评估对象的社会关注度决定评估的关注度。体育单招统考是国家考试，它的高利害性决定其具有较高的社会关注度，因此评估的政治意愿和对评估目标的承诺具有一定的规定性。二是评估技术的进步决定评估对关注度的回应和评估的频率。体育单招统考评估技术的发展，能够有效提升评估的效率和公信力，同时也会加快评估的频率，从而能够在考试业界建立评估文化和评估传统。随着评估技术的发展和开展第三方评估的政治意愿的增强，以及评估文化氛围的形成，评估结果的关注度会进一步增强，评估将向常态化、动态评估转变。

3.2　构建国家考试运行质量评估体系框架
　　考试在运行发展过程中，形成了自身的专业特性，包括目的性、序次性、控制性、协调性和循环性。考试的主体环节一般由计划、实施、检查和总结构成。评价考试的运行过程，主要是考查各主体环节是否充分体现考试的基本特性和客观规律，因此考试运行质量评估指标的设计需要重点把握科学性、系统性和可行性原则。具体到全国体育单招专业统考，由于其具有高利害、规模大、种类多、历时久、评估实施者是第三方专业研究机构等特点，还需要考虑指标的导向性和简便性。
　　结合评估对象的特点，采用文献研究法、问卷调查法和德尔菲法构建全国体育单招专业统考运行质量监督评估指标体系。首先，收集整理国家和省级教育考试机构关于考试管理和运行的相关要求和标准，开展标准梳理、会议调研，进行归类和分析，归纳出适合体育测试运行质量的评估指标。其次，采用德尔菲法，多轮次征询有关高校、考试招生管理专家和体育教育专家的意见和看法，确定指标体系的基本框架。最后，设计问卷征求专家意见，对3级指标进行权重分配，具体步骤是：1）问卷采用1~5标度法，对二级、三级指标两两比较其重要程度；2）对专家标度值取均值，通过归一法确定一级、二级指标的权重；3）讨论确定三级指标的分布及表述；4）确定现场观察与评估的基本方法。
　　基于以上方法，得到全国体育单招专业统考监督评估体系一级指标5项，二级指标15项，三级指标（即主要观测点）34项，每个观测点下设1~5条具体评估标准，共103条。一级指标基本按考试流程设计，包括考前准备（100分）、报到检录（100分）、过程监控（100分）、成绩处理（50分）、考风考纪与考生救济（50分）5项，二级指标为一级指标所涵盖的主要工作内容，三级指标为二级指标的进一步分解。各级指标均予量化，满分为400分。各观测点设“好”“一般”“差”3个等级，并给出评分参考值。具体内容见表2。

　　在上述框架下，组织专家对2018年全国体育单招专业统考运行质量进行了初次监督评估；在听取反馈意见的基础上，对监督评估指标体系进行了修订，并按照修订后的指标进行了2019年全国体育单招专业统考监督评估。

思考与建议

　　经过2年的试用，全国体育单招专业统考监督评估体系基本达到设计的预期效果，但是还需要深入总结使用过程中发现的问题，予以完善。

4.1　加强评估指标的科学化设计
　　全国体育单招专业统考监督评估指标体系有5个一级指标，各考点在“考前准备”（100分）、“报到检录”（100分）、“成绩处理”（50分）3个一级指标的2年平均得分均超过180分，且差异不大；而在“过程监控”（100分）、“考风考纪与考生救济”（50分）2个一级指标的平均得分差异较大；分析二级指标得分情况，发现各考点在“标准执行”“过程监控与记录”的平均得分差异较大。上述情况说明各考点对考务工作高度重视，设备、场地和人员等方面的准备、组织管理达到标准要求，但是在具体实施环节存在较大差异，这里既有专项测试标准的细化不足问题，也有组考院校项目考试组对测试标准的理解、对考官的培训不足导致标准执行出现差异等多方面的原因，说明仅有组织支撑、管理制度到位和硬件管理保障，并不能带来实际施测过程的高效、科学和精准。针对这一情况，评估体系设计者需要考虑的是：1）各指标的权重分配是否合理，是否对考前准备、管理制度和硬件等方面赋分权重过高；2）有些指标评估结果差异较小，这是由指标的敏感度弱造成的，还是执行中存在取值趋中问题造成的；3）是否需要进一步细化指标，提升指标评估的区分度；等等。对此，需要进一步完善和优化指标设计，提升评估体系的科学化水平。

4.2　加强考试技术改进和信息技术支撑
　　全国体育单招专业统考是运动技能和身体素质的测试，测试方法、测试技术和设备的先进性能够提升测试的精准度，并有效防范违纪作弊。自2018年起，全国体育单招专业统考在每个项目的检录、实测前、实测后均引入了瞳孔识别技术，解决了代考作弊问题；针对篮球项目定向开发了投篮感应计数、计时系统，使测试结果更为精准、公平。由于评估体系指标中有“客观性项目精准化测量”“主观性项目客观化测量”的要求，精准化和客观化测量都需要有设备和技术的支持，因此对考试设备和技术的开发利用是一个有效促进。但是，目前信息化在监督评估中发挥的作用尚未有效体现，需要在以下3个方面加强监督评估信息化平台建设：第一，针对能够自动化计量的项目，要加快计量设备的设计开发，做到客观性项目客观化评价；第二，针对主观性强的项目，要通过公开化的程序，保证评分无争议，如承接全国艺术体操项目统测的考点，可使用PAD评分器，将每位考官的评分即时传至大屏幕，工作人员现场唱分，保证考试全程公开透明；第三，建立监控系统，对考官评分实时监控，通过大数据分析，及时发现考官评分偏差，这样既可以作为筛选考官的依据，引导考官提高测评能力，也能有效培训考官，使主观测评更为科学和公平。

4.3　以持续评估促进考试管理质量持续改进和价值提升
　　由于监测与评价是以价值判断为核心的，对考试或考试改革现实的或潜在的价值作出判断，最终目的是服务于考试与教育质量提高，服务于考试与教育改革决策，因此这是一个以考试价值增值乃至教育价值增值为目的的过程^[9]。全国体育单招专业统考的第三方监督与评估诞生于考试模式发生变化时期，经过2年的“以评促建”，该项考试的规范化、科学化程度有所提升，后续应该持续探索，以巩固成果，推进考试运行质量管理的改进，并建立稳定的评估周期。要通过评估，促使评估客体更好地认识自身优势与不足，激发改革动力，达到考试价值和教育价值的增值。

4.4　扩大第三方机构对国家考试运行质量评估的探索
　　国家考试由教育主管部门授权权威的考试机构组织实施，公信力已然存在，是否还需要第三方评估？以高考为例，作为社会关注度最高的国家教育考试，其考试内容必须符合科学、规范化的要求，其实施过程必须公平公正。一直以来，我们只有系统内的监督和并非制度化的社会舆论监督，仅凭主办方的回应能否消除社会疑虑？在2012年的一项调查中，有专家指出“（体育）术科测试只是招生考试管理部门内部的自我监督，还没有创造条件让考生相互监督，也没有引入社会监督”^[10]。制度规则的内容是否公平合理，仅由制定者认定是缺乏说服力的；相关人员是否都严格按照既定规则行事，有无逾越规则的行为，仅靠相关人员自说自话的自证清白、自我监督，难以获得社会信任。这正是具有规范性、专业性、独立性等特质的第三方评估的价值所在。

　　当前，关于开展第三方教育评估的必要性已达成一定共识。现在需要深入讨论的是，基于国家考试运行质量评估的专业性、特殊性，究竟谁可以担任第三方？评估国家考试的第三方需要什么样的资质与能力？第三方依据什么标准进行评估？评估标准由谁来制定？制定标准的依据是什么？与广泛开展第三方教育评价的高等教育领域和中小学校相比，考试的系统性、独立性较强，如何去除深厚的“国家考试崇拜”，建立富有特色的国家考试评估体系是值得研究和探索的课题。

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

胡向东　胡凯：国家考试运行质量评估体系的构建——以全国体育单招专业统考运行监督评估实践为例

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

胡向东 胡凯：国家考试运行质量评估体系的构建——以全国体育单招专业统考运行监督评估实践为例

您可能也对以下帖子感兴趣

胡向东　胡凯：国家考试运行质量评估体系的构建——以全国体育单招专业统考运行监督评估实践为例