田伟 等丨科技赋能教育监测与评价:现状与前瞻
【刊载信息】田伟,杨丽萍,辛涛,张生.2022. 科技赋能教育监测与评价:现状与前瞻[J].中国远程教育(1):1-11.
【摘要】教育质量监测与评价的目的是引领教育发展。有效使用监测技术,对学习环境与学习质量的动态变化进行充分且及时的评估,不仅对于特定个体,对于国家和社会也会产生重要影响。本文分析了我国教育质量监测与评价的现状,在教育信息化建设的背景下,从教育评价云平台建设、信息化测评特色解决方案与教育监测结果可视化三方面阐述了“互联网+”国家教育质量监测已取得的各项进展,对信息技术为教育监测提供的新思路进行了系统化总结,同时揭示了我国教育质量监测在实施过程中存在的问题。为了突破监测与评价的技术瓶颈,走出监测体系建设的困境,本文提出了未来教育质量监测与先进科学技术在融合时潜在的攻关方向与必须解决的关键问题,旨在协同多方努力共同推进我国教育质量监测与评价全面和可持续发展。
【关键词】教育质量监测;教育评价;基础教育;智慧监测;评价工具;未来教育;素质教育;教育信息化
一、
基础教育质量监测与评价的背景
新中国成立以来,特别是20世纪70年代末实行改革开放政策以来,我国的基础教育建设取得了巨大成就,建成了世界史上规模最大的基础教育体系。截至2020年,教育“十三五”规划各项目标取得了突破性进展。根据中华人民共和国教育部发布的《2020年全国教育事业发展统计公报》,全国义务教育阶段在校生1.56亿人,专任教师1 029.49万人,学校21.08万所,九年义务教育巩固率达到95.2%,基础教育普及水平全面提升;全国95.3%的县通过了县域义务教育基本均衡发展国家督导评估验收,基础教育办学条件显著改善;教育信息化建设成果显著,小学、初中和高中互联网入校的比例均超过98%,在新冠疫情期间信息技术与教学的融合发挥了极其重要的作用;全国劳动年龄人口平均受教育年限10.7年,新增劳动力平均受教育年限13.8年,达到或超过了中高收入国家平均水平。随着基础教育的普及、发展与提升,人民群众对教育的渴望从“有学上”向“上好学”跃进。
基础教育的发展从注重规模进入重视质量的新时代。习近平同志在党的十九大报告中强调推进教育公平,努力让每个孩子都能享有公平而有质量的教育(新华网, 2017)。新时代教育领域的主要矛盾表现为人民群众对优质教育的期望与教育资源不充分、不平衡之间的矛盾。以党的教育方针为主线,教育走向对公平与质量的追求(宋乃庆, 等, 2021)。为了提高教育质量,促进教育公平,需要政府、社会与学校体系的共同努力,久久为功,把社会主义核心价值观融入人才培养全过程(董奇, 2017),最终构建能够保障教育持续发展的长效机制。这个机制建立的前提是要对我国不同地区、不同学校乃至每个学生的发展状态有比较清楚的判断,以此为基础制定教育政策,促进教育决策的科学化,从而有效地监督和管理整个国家的基础教育质量状况,有的放矢地推动教育质量的提升,同时引导社会舆论整体形成科学教育质量观。
因此,从国家管理层面来说,开展基础教育质量监测是教育治理体系与治理能力现代化的重要内容。2013年6月,教育部印发《关于推进中小学教育质量综合评价改革的意见》,要求将中小学教育质量评价纳入有关人文社科重点研究基地的研究范围,依托有条件的高等学校和教育科研、教研部门建立中小学教育质量专业评价与监测机构。2015年4月,国务院教育督导委员会办公室印发《国家义务教育质量监测方案》,标志着我国在国家层面开展的义务教育质量监测正式开始。2021年3月中华人民共和国教育部等六部门联合印发《义务教育质量评价指南》,着力构建以发展素质教育为导向的科学评价体系。在过去的十年里,监测和评价作为提高教育质量、促进教育公平、落实素质教育的“教育体检仪”“指挥棒”,不同于中考与高考“指挥棒”指向的是家长与学生,监测与评价指向的是国家的行政管理体系,监测和评价发挥着政策杠杆的作用,领导各级党委、人民政府和教育管理部门切实履行教育职责,落实党的教育方针(陈慧娟, 等, 2021),促进学生德智体美劳全面发展。
然而,现行教育评价制度与方式不能满足未来教育评价的需求。随着社会快速发展与人工智能时代的到来,监测和评价惯常的做法面对当前教育环境的新形态逐渐呈现出力所不及的困难,例如传统的抽样方法、人工评分、纸笔测验造成监测的延时和低效,难以实现标准化,教育质量监测与评价面临巨大挑战。尤其自疫情以来智慧教育环境的形成(Langenfeld, 2020),未来教育评价将在全样本、多模态、真实化、个性化的情境下呈现即时性和高效性特点,给教学提供精准的改进意见与提升路径。为了确保监测与评价正常发挥“指挥棒”的作用,需要快速更新和调整现有的教育评价方法以适应未来教育评价的需求。无论是底层的基础研究,还是相关的技术,从工具研发、数据采集到监测结果的报告与使用,每个环节都有很多问题值得深入研究与探讨。其中,信息技术对监测评价的支撑是国家力量与整个社会资源共同协同攻关的核心。
教育信息化在教育测量与评价改革中的重要性高度凸显。2014年2月,国务院教育督导委员会办公室印发《深化教育督导改革转变教育管理方式的意见》,提出加强教育评价的专业化建设,创新评价工具,利用人工智能、大数据等现代信息技术,探索开展学生各年级学习情况全过程纵向评价、德智体美劳全要素横向评价。2020年10月中共中央、国务院印发《深化新时代教育评价改革总体方案》,明确指出要“坚持科学有效,改进结果评价,强化过程评价,探索增值评价,健全综合评价,充分利用信息技术,提高教育评价的科学性、专业性与客观性”。2021年7月,中华人民共和国教育部等六部门发布《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》,强调“教育新基建是国家新基建的重要组成部分,是信息化时代教育变革的牵引力量,是加快推进教育现代化、建设教育强国的战略举措”。从这个角度来说,国家整体战略已经高度重视教育信息化对于教育监测的重要支持作用,在数字化社会的发展与治理逻辑下,教育质量监测与评价和信息技术、5G和互联网、大数据之间的融合问题(Li, Y., Li, P., Zhu, & Wang, 2017)亟待思考与解决。
在这个背景下,从2015年第一轮国家基础教育质量监测正式启动开始至今,我国的教育质量监测已取得了一系列重要进展。其中,最大的亮点是国家基础教育质量监测和评价已经实现了涵盖工具研制、监测实施、数据分析、报告与评价等全链条、各环节的信息化管理与信息化流程的实施。
二、
“互联网+”教育监测的进展
“‘互联网+’教育监测”是指依托信息技术,将互联网与传统监测技术进行深度融合,充分发挥互联网在社会资源配置中的优化和集成作用,对监测的管理与实施流程进行完善与升级,使得教育监测与当前社会发展相适应。国家教育质量监测的实践成果体现在以教育评价云平台为监测整体运行的基础依托,针对学生德智体美劳各方面进行海量异构数据的采集与分析,开发了一系列信息化测评特色解决方案,进而实现监测结果的可视化呈现以支持教育决策,形成了教育质量监测管理与实施的新形态(图1)。
注:除*标记的项目外,其他模块均已正式应用于国家教育监测。
图1 教育质量监测中使用的信息化系统
(一)教育评价云平台
国家基础教育质量监测(以下简称“国家监测”)以每年5月份最后一个星期四作为国家基础教育质量监测日。目前,实现了信息化运维的题库、监测实施进展管理、信息上报和抽样、问卷调查、报告自动化、标准划定与专家管理等系统构成了长期稳定运行的国家监测综合云平台。
1. 题库系统
题库系统旨在实现题目线上全链条的研制与组卷。通过整合试题命制、评审、改编、预试、复审和入库等功能,打破时间与空间限制,使不同用户角色能够在云平台上完成题目录入、审题和修订等操作,大大降低了因工作场地、材料印刷、寄送周转等因素导致的时间与经济成本。同时,云平台记录了题目研发过程中从最初样态到经过反复打磨的状态、审题过程和审题意见以及多轮预试后形成成熟题目的完整过程,实现了每道题目开发与修订变化逻辑的全链条追踪与溯源。
2. 实施进展管理系统
实施进展管理系统对监测实施过程中各个工作环节进行规范化、标准化的管理,支持监测工作高效、严谨、便捷地展开。国家监测从每年的12月份启动预抽样开始到第二年实施监测,系统对数据采集、每个学校上报数据、施测等全过程进行分层(国家、省、区县、学校)管理,同时支持不同层级的用户在Web端与移动设备端完成工作操作、监控和审核。
3. 信息上报和抽样系统
信息上报和抽样系统包括抽样管理、区县信息管理、学校信息管理、学生和教师信息管理以及上报等5个模块,支持国家监测样本区县、样本校、样本师生数据采集与抽样以及信息审查,并提供个性化服务。虽然我国各级教育管理部门已有很多数据信息系统,但由于数据标准不统一,无法直接应用于大规模监测。国家监测开发了灵活定制的数据上报系统,支持多阶段复杂抽样,同时对全国31个省(自治区、直辖市)和新疆建设兵团不同地区、不同类型人员的基础数据进行在线采集,实现全面、准确、高效的数据核对、清理、校验和打印的自动化。
4. 问卷调查系统
网络问卷调查系统以实现国家监测电子化问卷填答为目的,在线采集全国不同地区校长、教师的背景信息,解决了以往纸笔调查方式存在的手段单一、实效性差等弊端,实现了系统共享,百万名用户参与电子问卷填答,并对作答过程进行实时监控。全国31个省(自治区、直辖市)和新疆生产建设兵团325个样本县(市、区)近7万名校长与教师参加网络问卷测试,根据自身实际情况作答。同时,监测中心、省级、样本区县通过进度管理模块监管各省、市、区县各类问卷作答情况与进度,了解每位校长、教师的详细作答情况,保证数据完整、及时回收。从技术上来说,调查系统可同时支持多角色、多用户和多项目的数据采集,但考虑到全国中西部等偏远地区的现实条件还不足以支撑对学生进行电子化测试,故从2017年开始至今,仅对校长和教师实行了电子化填答,未来会不断优化数据采集、转化与清理工作,将范围扩大到学生层面。
5. 报告自动化系统
国家监测要求每年完成国家报告与各省份教育监测报告的编制,考虑到监测整体推进的需要以及报告的规范性和严谨性,报告自动化系统被用于生成国家、省、区、校、生等各类学科报告2,000余份。报告生成技术面向不同用户角色同时支持批量化和个性化的定制,对监测数据各项指标进行分析,实现报告批量化、自动化生成,大大降低了报告制作成本。
6. 标准划定系统
在心理学的理论体系下,国家监测中判断学业成就是否达到要求是基于课程标准而言的。从技术上来说这是一个严格的链接程序,是一个用来判断学生的测试成绩与整个教育质量之间关系的标准划定过程(La, Redfield, & Winter, 2000)。国家监测采用Angoff法(Angoff, 1996)和Bookmark法(Cizek & Bunch, 2007)确定分界分数,目前已支持完成国家基础教育学科语文、数学与科学学科的标准划定。
7. 专家管理系统
为规范国家监测实施工作,加强实施专家队伍建设,推进专家队伍管理科学化、规范化、专业化,专家管理系统支持每年国家监测工作周内专家视导工作的开展,工作监控由线下办公转移至线上办公,实现对专家任务的资源共享、动态调整和分类管理,从而形成监测事业发展的质量保障体系。
(二)信息化测评的特色解决方案
教育评价云平台保障了教育质量监测工作的稳定实施与推进,其核心目标是了解国家在整体层面和不同区域层面教育质量的真实情况。党的教育方针要求,经过学校教育和义务教育阶段,学生能够得到德智体美劳各方面全面发展,成为社会主义的建设者和接班人。因此,从监测和评价的角度来说,如何准确、合理地测量涵盖德智体美劳各项能力是一个很大的挑战。其中,在智力与学科成就测量方面国家监测积累了丰富的经验,但仍有很多方面长期以来难以解决,尤其是如何有效测量学生的道德、美育、劳动等方面长期以来很难突破。
为了克服在传统测量技术下难以解决的监测难题,国家监测开发了一系列信息化测评特色解决方案,包括演唱测试系统、体育测试系统、文本自动标定系统、职业编码系统、数据管理系统和平台监控系统等,对表现性测评中产生的非结构化数据进行大规模采集、加工、存储和回收的信息化处理,实现了高精度、低成本、大规模的一体化和智能化评价。
1. 艺术类与体育测评系统
教育监测对学生艺术素养培养能够起到积极的引导作用。与部分省明确提出将艺术科目纳入初中学业水平考试不同,国家监测放弃了采用考查学科常识的做法来测查学生的艺术素养(例如,这首歌的作者是谁?),取而代之的是让学生进行自主绘画或演唱。但是,艺术类评价的传统方式是由专家进行主观评分,很难在大规模监测中实现,而监测工作需要突破的问题正是要在短时间内高效地对学生的演唱和绘画技能进行评分,准确且快速地判断学生的演唱或者绘画水平。经过前期研究,人工智能与大数据的方法被引入教育监测,整合基于语音合成、语音评测技术、图像识别和分析技术等大数据和机器学习的算法与传统监测技术开发了演唱测试系统(图2),实现了对学生演唱水平的大规模计算机评分。学生佩戴耳麦,按照电脑屏幕上呈现的旋律来演唱,然后通过网络上传。计算机评分的具体过程是,首先请专家对一部分作品进行评分,然后让计算机来学习评分模式,建立预测模型,使用预测模型进行自动评分,最后将经过计算机评分的一部分作品再由专家来评分复验,检查人机评分的一致性。演唱自动评分系统能够对学生演唱的表现力、歌词、节奏、音准、流畅性和完整性等方面进行大规模、即时性的自动评分,并且为非编程人员生成可灵活订制反馈结果的自动化报告。考虑到国家监测的评价对象是整个国家、省份或地区以及学校而非个人,重在对群体情况的了解,所以目前美育相关的监测在自动评分能够达到与人评较高的一致率时,采用自动评分为主和人工评分为辅的混合评分方式,能够同时支持几十万条学生演唱音频数据的快速处理,对学生演唱的旋律进行快速评分。
图2 演唱测试系统
此外,为了更好地全面贯彻落实九年义务教育全日制体育教学大纲中的要求,2018年国家监测首次采用电子化方式在“体育测试系统”中对体育数据进行录入采集,线上+线下采集、双向校对,提高了数据的精确性。监测机构能够通过后台监控系统对体育成绩的上报情况进行审查,以保证测试数据完整、及时地回收,为低成本开展体育测试数据处理提供了强大的技术支撑。
2. 基于文本挖掘的自动标定系统
文本数据是大数据环境下最易获得的学生反应信息,开放性题目作答比客观题作答包含更丰富的信息(Shermis & Burstein, 2013)。国家监测的“文本自动标注系统”(图3)基于长期以来积累的海量学生写作语料、知识素材、网络开源信息、词典资源等,经过部分人工标注,开发了适用于教育测量的一系列算法与模型,实现了写作质量分析、学生心理品质和性格特征分析、基于文本特征的预测建模、概念网络构建等功能,并将其应用于写作创造力评价、主观题难度预估、家长职业信息自动编码与双减舆情分析等。具体来说,对于开放性试题,如作文或数学主观题,首先基于OCR技术将学生的作文图片转换为可编辑的文本,然后基于文本标定系统对作文整体质量(Yang, Xin, & Cao, 2020)或主题思想(Yang, Xin, Luo, Zhang, & Tian, 2021)等方面进行自动评分。文本自动标定系统也被应用于学生性格特征探究,例如学生的合作性(骆方, 等, 2021),基于神经网络语言模型,采用机器学习方法对学生产出的文本进行评分或自动标注(张晗, 等, 2021)。此外,家庭和社会经济地位研究是影响教育质量的重要变量,父母职业与其密切相关。在国家监测的学生问卷填答中,学生对父母职业的理解与表达是含糊或片面的,无论是让学生确定父母职业类别还是进行开放式作答,都给父母职业的判断带来很多困扰,增加了人工判断与数据处理的成本。基于自然语言处理技术,特别针对父母的职业基于编码规则构建预测模型,能够快速且高效地对学生填写的父母职业进行编码,使机器编码逐渐代替人工编码,优化了编码流程。
注:图中下两层是内部研发与管理模块,上两层是面向用户的功能模块,上两层中每个模块括号中的内容表示该模块的输出。在服务层中,实线表示模块功能已开发完成,虚线表示正在开发的功能模块。
图3 文本自动标注系统的功能模块
3. 数据管理与平台监控系统
数据管理系统(图4)实现对海量多模态、多类别数据多地上报的信息化控制与管理,包括三个模块:①监测数据管理软件平台对分级分类文件进行存储、管理、备份,及时公布和更新数据目录;②监测数据分析平台支持多人对数据进行快速、科学、规范的管理与分析,并形成数据挖掘结果;③监测数据共享平台保障数据安全,依法依规推动科学数据流转和开放共享。
平台监控系统实时对教育监测全平台流程中服务器性能、采集过程的行为进行监控,包括:①监控系统能够获取所有平台运行服务器信息,对实时运行状态进行监控,提前预警布控,从内存使用率、磁盘、流出带宽带等记录服务器运行状况,并及时调整阈值或指标;②分服务器监控:分服务器进行各类指标监控,提前预警布控;③对实例,网络指标的多样式进行监控。
图4 数据管理系统设计
(三)教育质量监测结果的可视化呈现
教育质量监测应服务于决策和改进教学质量。对于监测结果的使用者来说,可视化的结果呈现比文字与表格更易于理解。尤其是国家监测与信息技术结合后,多年以来集成了全国基础教育质量的海量数据与分析结果,构造了涉及学生表现、学习时间、学习压力等多个指标,涵盖了学校、校长、教师、学生等与教育相关的多方面数据结果,展现全国、各样本区县在特定时间内的教育状况。为了帮助使用者科学理解和解读监测情况,国家监测基于个性化数据挖掘开发了大数据分析模型与方法,对真实数据与分析结果进行及时有效的呈现。采用多维动态、交互并结合地理空间信息的三维结构可视化技术,更直观地反映我国教育质量与教育公平现状,辅助相关部门科学决策。
其中,特别为学校管理者提供了基于大数据调研分析的可视化结果,主要包括学生的学业水平、学业负担、学习素养与教师教学策略等教学过程中的核心环节:①学业负担可视化(见图5),包含客观负担与主观压力。量化课程安排、课业负担等相关客观指标,以学生主观感受为核心,解读个体、群体负担成因。②学业水平可视化。以学业水平提升为目标,对比分析学业和负担的关系,优化教学管理、提升教学效能、促进高效学习。③学习素养可视化。以提升学生学习素养为目标,通过调查学生的学习习惯、学习动力、自信程度,优化学习品质,帮助学生学会学习。报告结合学业水平,分层分类描述了不同年级、各个班级、不同群体、特定个体的学习素养状况,督促教师关注学生学习过程,培养终身学习能力。同时对学习素养出现异常的学生进行预警,对于学习习惯好、学习动力强但学业水平差的学生给予个性化的调整建议。④教学策略可视化。有效结合学科教学特点,从教学策略使用程度、教学活动的具体安排、学生对教学方式的满意度三个方面分析教师的教学过程,找到促进学业水平提升的关键教学策略,开展有助于学业水平提高的教学活动,提升课堂教学质量,为班级管理与学科教学提供指导。
图5 学业负担可视化:客观负担、主观压力和焦虑情绪
以上简要呈现了“‘互联网+’国家监测”的进展,若将教育监测视为一个相互关联的完整系统,从教育质量监测的技术架构和实施的不同方面进行解构,能够进一步揭示目前监测中存在的问题及未来发展的方向。
三、
科技赋能教育质量监测面临的问题
虽然国家监测已实现了与信息技术的融合发展,并依托云平台将新型信息化测评成功应用于监测实践,但目前地区监测还不能充分利用已有的先进监测技术。诚然,这也是囿于社会经济发展不平衡的事实,如学校信息化基础设施建设发展并不均衡,各地尚未形成标准化平台建设、缺乏统一的数据标准与专业监测团队等,部分区域的客观条件仍不足以支持信息技术为主的监测手段。但更重要的是,对标国家深化教育评价改革的目标,我国教育监测必须重点突破传统教育测量与评价的技术瓶颈,整体推进人工智能、信息技术与监测相结合的发展策略,自上而下地统筹完善教育监测的顶层设计,同时协同多方力量自下而上地实践创新,逐一破解在监测理念、监测内容、测量工具以及监测结果使用等方面存在的一系列亟待解决的问题。
(一)监测理念转变的困境
在传统标准化评估和问责评估主导的价值取向下,教育评估以终结性评估为主。长久以来,终结性评估的价值取向往往导致学生通过死记硬背和机械训练来提高考试成绩。类似地,目前我国教育监测大都是结果性评价,即在一个时间点上对一个区域或国家的整体教育质量进行判断与评估。随着世界范围内教育评估价值取向从终结性评估向过程性评估过渡(Ibnu & Marfuah, 2020),虽然过去终结性评价与过程性评价是截然分离的,但现在二者已经不存在严格意义上的划分(Bennett, 2011)。教育监测理念也需要与社会发展和教育变革逻辑相适应,从结果评价向过程评价转化,从学科评价向综合评价转化,充分利用大数据生态环境收集信息评估学生的学习,从面向群体的评价向改进个体学习和教学转化。然而,教育监测理念的转变也需要克服一系列的阻力,这些阻力既源于部分区域对于教育监测理念的理解仍然存在偏差(李勉, 2021),也源于社会客观条件与监测体系建设允许监测理念转化与落实的程度(辛涛, 等, 2020)。在这个困境下,传统测量模式已经不再适应教育信息化发展进程,也不能满足国家教育发展战略需求。教育监测需要及时转变理念,突破传统教育监测技术方法,面向未来教育提供政策性指向并成为解决现实教学问题的抓手。
(二)监测内容转向带来的挑战
监测内容覆盖范围反映了教育质量监测的实用性和有效性。随着教育评价改革不断深化,我国教育质量监测重点从关注学业成就与智力发展逐渐转向注重学生的综合素养(张生, 等, 2021)与学生未来发展关键能力的测量(李健, 等, 2019)。然而,目前教育监测中仍存在将学科(语文、数学、英语、科学)监测等同于学科统考的情况,对学生的品德修养、劳动表现、情感态度、艺术素养以及学生全面发展应具备的关键能力,如创造性、问题解决能力的测量,依然有所欠缺。此外,问卷调查中对学生背景信息和所处环境状况的调查相对较为单薄(檀慧玲, 2018)。监测内容的偏差或缺失不利于发现我国素质教育中存在的真实问题,也影响监测促进学生全面发展的价值导向作用。
(三)信息技术与传统测量方法融合的问题
面对当下快速更迭的应用环境,作为评估教育质量的有效工具,教育监测应增强与新时代先进技术融合的耦合性。在传统测验开发中,标准化测验操作形式可简单概括为明确测验目标与内容、开发与检验测量工具、施测与评分、测验结果应用四个基本阶段。在信息技术与学习加速融合的趋势下,需要对传统教育测量的评估范式、技术方法和标准进行系统的反思和调整,包括:①随着学习过程多场景化,目前以传统测评为主的强干预监测如何向以被动信息获取为主的弱干预监测转变?②基于新的学习与评价形式,有哪些新型测评形式可以采用?③学习形式和方向的多样性导致评估标准和衡量尺度的多样性,如何制定合理的评分标准?④信息技术环境下越来越多的多元化、异构化、高维化的评价信息如何降噪与分析?⑤传统心理测量模型如何与其他学科更好地结合以适应多元数据的处理与分析,从而更准确、有效地估计学生能力?需要注意的是,很多有关信息技术与监测评价融合的研究更多地停留在理念探讨、个别经验总结等层面,诸多问题需要在实践中进行研究和应用,这些都是当前国家监测积极探索并努力解决的问题。
其中,如何充分利用动态发展数据,结合结果评价数据与过程性评价数据是教育测量从终结性评价向过程性评价转化的关键技术环节。例如,对一定时间范围内学生能力发展与教学质量的效果进行查缺补漏(Zhang & Chang, 2020)与追踪评价,或对于学生的心理状态与人格特质进行判断。然而,囿于监测技术手段与专业人才短缺限制,目前部分区域监测中对动态数据的采集与处理能力仍然欠缺,对学习过程的动态监测与学生长期发展状况进行评估的能力亟待提升。
(四)监测结果使用的局限
目前,不论是国家监测还是地方监测,监测结果的使用模式均较为单一,基本是服务于国家或本地区的监测工作,并没有兼顾向下级市、区县、学校与学生提供服务。目前国家监测仅将部分结果性数据开放给各个区和学校,监测结果的数据开放、共享与安全机制的建设仍处于起步阶段。大量数据资源与分析结果散落在各个平台,未能形成互通互联和资源共享,造成了大量数据资源的浪费,也在一定程度上阻碍了基于监测评价大数据推动教育改进的应用机会。事实上,除了针对群体的监测结果服务于教育评估与决策,面向学生个体的精准化分析几乎还未开展。究其原因,一方面在于对现有数据分析与解读的专员人员缺乏,部分区域由于缺少具有专业能力的监测工作人员,不具备进一步分析与解读监测数据结果的能力;另一方面由于监测方法与技术手段有限,用于个体分析的数据来源并不充足,仅提供学科分数难以满足对个体能力与特征进行全面刻画的要求,这使得监测结果使用的效率难以提升。
四、
智慧监测与评价发展前瞻
虽然新冠疫情带来了教学危机,但也因此催生了全新教育秩序和形态的形成(Camara, 2020)。当国家监测的信息化管理与实施不断向前推进,尤其是疫情使“未来教育”成为当前国内外教育舆论的热点,使用信息技术重构学校生态体系将成为当前乃至未来教育的重中之重。在虚实结合的信息生态环境下,人们生活方式的变革、学习方式的变革、认知方式的变革都倒逼监测和评价技术方法的变革。传统的教育测量范式、原则与标准都需要系统性转向(Sireci, 2021),教育监测中一系列问题的解决也因此迎来了新的契机(图6)。
图6 教育质量与评价的未来发展
(一)教育监测理念与教育评价改革相呼应
无论是对于测量评价本身的发展还是对于整个监测体系的建设来说,监测和评价能否与信息技术发展快速融合是世界范围内各国都要回答的问题。欧盟于2013年发布了《教育大数据分析服务规划-地平线2020计划》(European Commission, 2015),美国于2012年发布了《通过教育数据挖掘和学习分析促进教与学》报告(Bienkowski, Feng, & Means, 2012)。为实现建设教育强国的宏伟目标,我国连续四年相继发布《教育信息化“十三五”规划》(中华人民共和国教育部, 2016)、《国家教育事业发展“十三五”规划》(国务院, 2017)、《教育信息化2.0行动计划》(中华人民共和国教育部, 2018)和《中国教育现代化2035》(中共中央、国务院, 2019),明确了教育大数据的战略目标和重点发展方向。随着科技的发展,学习与交流样态的变化,终结性评价与过程性评价的融合共存会很快到来(Gardner, O’Leary, & Yuan, 2021),这种趋势也响应了国家关于深化新时代教育评价改革“改进结果评价、强化过程评价、探索增值评价、健全综合评价”的号召(中共中央、国务院, 2020)。因此,教育监测理念的转变必然要与国家宏观政策和社会发展需求相呼应,结合人工智能与信息技术赋能,从终结性为主导的横向静态评价向过程性主导的动态评价转化,从学科评价向综合素质评价转化,以监测技术为核心基础,围绕监测内容、工具开发与结果使用等方面,从强干预与宏观评价向弱干预与微观评价延伸,最终形成具有中国特色的教育质量监测体系(辛涛, 等, 2019)。
(二)监测内容从学科评价向非学科评价转化
基于第四代教育评估理论,教育评估应超越纯粹科学范畴而涵盖人性、政治、社会、文化以及其他相关因素(Guba & Lincoln, 1989)。当学生被视为一个独立且在社会环境中全面发展的个体时,每个学生都是一片不同的树叶,学生在学习与测验中的表现不但取决于智力与知识储备,也在很大程度上取决于其个性特征(生理和心理特征、动机等)、行为习惯、健康状况以及生活与学习环境等重要因素,任何因素的缺失都有可能导致教育过程的不平衡。因此,超越单一学科而聚焦于学生发展需要具备的核心素养测评、涵盖学生全面发展关键因素是未来教育监测必须探索的方向。
随着万物互联与人工智能技术的发展,以往基于纸笔的强干预监测手段难以实现的测量有望在越来越多元化、异构化和高维化的信息环境中解决。文本、图片、音频、视频、动作表情、体态与生物学等信息的捕捉与获取都变得非常便捷,如何将这些异构信息整合、解构与分析从而对学生的潜在能力或人格特性进行科学有效的判断是监测技术发展的核心任务。例如,伴随学生体育活动的测评,利用学生佩戴的电子手环分析其体能数据;基于学生在社交媒体上留下的网络痕迹,对学生的心理与人格进行评价(Azucar, Marengo, & Settanni, 2018);对口语数据进行自动采集与评价,在人机交互的对话过程中实现对普通话或英语听说水平的智能化测评(Wang, Y., Wang, & W., 2021);基于人工智能对教学质量进行实时评价,对学与教的实时动态互动模式进行精准刻画(Ashwin & Guddeti, 2020),对学生的专注度与课堂氛围分别基于教师和学生的视角进行评价;对在线学习数据实行动态挖掘(Chan, Ochoa, & Clarke, 2020),基于网络痕迹数据测查学习活动(学习过程、日记、写作等)、社交娱乐(话题评论、日常聊天、资讯浏览等),构建个性化的学习者特征动态模型(Ibnu & Marfuah, 2020)。需要注意的是,弱干预的测评需考虑学生或其他教育过程参与者的个性特征和能力发展状况(兰迪·班尼特, 2019),设置适合的监控技术及其应用条件。
(三)新型监测方法与工具的开发
为了满足国家与社会发展对人才培养的需求,亟待开发面向学生未来发展关键能力的新型测评工具。这些关键能力往往具有复杂的构念,传统测评往往难以实现。目前研究者已开始探索开发以证据为中心(Mislevy, Almond, & Lukas, 2003)的游戏测评、多任务情景的交互式测评,诱发学生与动态任务环境互动,完成任务过程中全部或部分解决规则需学生通过不断探索与信息整合来习得,然后根据学生解决任务过程中的认知与非认知产出及作答反应构造能力测量模型(Yan, Rupp, & Foltz, 2020)。除了信息技术与测评整合之外,脑认知与神经科学在教育评价中具有很大潜力。如何利用信息技术和其他学科的前沿成果(Borsboom, et al., 2021),结合学生心智发育与行为层面特征,考查党和国家希望学生具有的高阶核心素养是未来监测和评价中待突破的重点(张生, 等, 2019),所以新型的评价工具将成为未来监测和评价发展的动因。国家监测已研发了基于多任务情景的创造力测评工具、复杂问题解决能力测评、人机交互的科学探究能力测评、审辩思维能力测评等,这些研究有望在不久的将来应用于监测实践。
(四)同时面向群体与个体的评价结果
目前的教育监测基本建立了面向群体发展的反馈体系,未来会建立相应的数据与监测结果管理制度,试点先行,对数据进行脱敏之后按照相应的流程反馈给下级,使监测结果更好地服务于决策和教育实践,提高了决策的科学性、精准性,同时发展面向群体与个体的评价,帮助提升教学质量,促进区域义务教育优质均衡发展。
随着信息来源与获取信息的手段越来越丰富,对于个体的精准评价和改进有望实现。面向个体的监测数据与结果使用需进一步落实,能够根据监测结果做出改进学习过程的决策,如为个体提供个性化诊断报告、精准推荐学习资源或在线辅导。虽然这些方式从理论上来说似乎是合理的,但是距离真正实现开发并应用于教育教学实践还需跨越一个巨大的鸿沟。如何对学生线上和线下的学习与生活数据深入挖掘以提出对学生未来学习与发展更有针对性的帮助和建议,需要多方面力量共同参与,不断探索与研究。此外,兼顾群体与个体反馈的即时性、自动化与批量化是未来监测发展的又一趋势。仅仅将监测的杂乱的数据结果呈现给用户是远远不够的,需要为用户提供结果的可视化与解读,避免监测结果的误用,充分考虑监测作为一种工具和方法对教育质量产生的直接影响与间接影响,以及对国家发展与教育决策可能产生的巨大影响。
五、
小结
当代教育的显著特征是教育形态与技术的不断变化。监测作为评估教育质量的工具与落实素质教育的“指挥棒”,必须对不断变化的学习与评价信息生态环境快速做出反应。大数据时代的教育信息化建设是全球共识的战略任务。虽然智慧教育可以从不同角度解读,但要实现学习的个性化,最核心的纽带是要对教育教学现场和学生学习状况进行实时评价,智慧和个性化教育才能真正发生。教育监测是一个复杂的系统,在外部和内部因素影响下,需要对教育环境或某些要素的变化进行持续观察、评估、预测和检验。随着大数据和教育质量监测与评估的融合,依托“互联网+”云平台,教育监测得以高效、有序地进行,并且为国家的宏观决策提供科学实践和理论依据。在这个过程中,监测技术及其与其他学科领域的结合对监测结果产生了直接影响,信息技术与其他先进科学为教育评估突破传统测量的瓶颈提供了科技动能。智慧教育监测与评价体系建设中面临的困境需要领域内外多方协作、共同破解,才能将教育监测理论上的可行性变为现实。
参考文献
向上滑动阅览
陈慧娟,辛涛. 2021. 我国基础教育质量监测与评价体系的演进与未来走向[J]. 华东师范大学学报:教育科学版,39(4):42-52.
董奇. 2017. 把社会主义核心价值观融入人才培养全过程[J]. 中国高等教育(1):29-30.
兰迪·班尼特. 2019. 教育测量的未来趋势[J]. 教育测量与评价(3):3-14.
国务院教育督导委员会办公室. 2014-02-18. 国务院教育督导委员会办公室印发《深化教育督导改革转变教育管理方式的意见》[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/201402/t20140218_163911.html
国务院教育督导委员会办公室. 2015-04-15. 国务院教育督导委员会办公室印发《国家义务教育质量监测方案》[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/jyb_xwfb/xw_fbh/moe_2069/xwfbh_2015n/xw fb_150415/150415_sfcl/201504/t20150415_187151.html
国务院. 2017-01-19. 国务院印发《国家教育事业发展“十三五”规划》的通知[EB/OL]. [2021-11-02]. http://www.gov.cn/zhengce/content/2017-01/19/content_5161341.htm
李健,于泽元,谢媔媔,等. 2019. 基础教育质量监测本土化与现代化——第四届中国基础教育质量监测与评价学术年会述评[J]. 中国考试(5):73-77.
李勉. 2021. 基础教育评估监测:教育督导体系建设的新领域和新挑战[J]. 中国考试(5):48.
骆方,姜力铭,田雪涛,等. 2021. 小学生羞怯特质预测及语言风格模型构建[J]. 心理学报,53(2):155-169.
宋乃庆,贾璞. 2021. 中国基础教育发展100年:走向公平与质量的教育——以党的教育方针为逻辑主线[J]. 西南大学学报:社会科学版,47(3):127-139.
檀慧玲. 2018. 新时代我国基础教育质量监测的向度转变[J]. 教育研究,39(6):98-104.
新华网. 2017-10-27. 习近平:决胜全面建成小康社会 夺取新时代中国特色社会主义伟大胜利——在中国共产党第十九次全国代表大会上的报告[EB/OL]. [2021-11-01]. http://www.xinhuanet.com//politics/19cpcnc/2017-10/27/c_1121867529.htm
辛涛,贾瑜. 2019. 国际视野与本土探索:“国际学生评估项目”的作用及启示[J]. 教育研究,40(12):9-16.
辛涛,赵茜. 2020. 基础教育质量监测评价体系的取向、结构与保障[J]. 国家教育行政学院学报(9):16-23.
张晗,贾甜远,骆方,等. 2021. 面向网络文本的BERT心理特质预测研究[J]. 计算机科学与探索,15(8):1459-1468.
张生,任岩,骆方. 2019. 学生高阶思维能力的评价:复杂问题解决的测量述评[J]. 中国特殊教育(10):90-96.
张生,王雪,齐媛. 2021. 人工智能赋能教育评价:“学评融合”新理念及核心要素[J]. 中国远程教育(2):1-8.
中共中央、国务院. 2019-02-23. 中共中央 国务院印发《中国教育现代化2035》[EB/OL]. [2021-11-01]. http://www.gov.cn/zhengce/2019- 02/23/content_5367987.htm
中共中央、国务院. 2020-10-13. 中共中央国务院印发《深化新时代教育评价改革总体方案》[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202010/t20201013_494381.html
中华人民共和国教育部. 2021-08-27. 2020年全国教育事业发展统计公报[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/jyb_sjzl/sjzl_fztjgb/202108/t20210827_555004.html
中华人民共和国教育部. 2021-07-01. 教育部等六部门关于印发《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》的通知[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/srcsite/A16/s3342/202107/t20210720_545783.html
中华人民共和国教育部. 2021-03-04. 教育部等六部门关于印发《义务教育质量评价指南》的通知[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/srcsite/A06/s3321/202103/t20210317_520238.html
中华人民共和国教育部. 2018-04-03. 教育部关于印发《教育信息化 2.0 行动计划》的通知[EB/OL]. [2021-11-02]. http://www.moe.gov.cn/srcsite/A16/s3342/201804/t20180425_334188.html
中华人民共和国教育部. 2016-06-07. 教育部关于印发《教育信息化“十三五”规划》的通知[EB/OL]. [2021-11-02]. http://www.moe.gov.cn/srcsite/A16/s3342/201606/t20160622_269367.html
中华人民共和国教育部. 2013-06-03. 教育部印发《教育部关于推进中小学教育质量综合评价改革的意见》[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/srcsite/A06/s3321/201306/t20130608_15318 5.html
Angoff, W. (1996). Scales, norms, and equivalent scores. Educational Measurement: Theories and applications, 121
Ashwin, T. S., & Guddeti, R. M. R. (2020). Automatic detection of students’ affective states in classroom environment using hybrid convolutional neural networks. Education and Information Technologies, 25(2), 1387-1415.
Azucar, D., Marengo, D., & Settanni, M. (2018). Predicting the Big 5 personality traits from digital footprints on social media: A meta-analysis. Personality and Individual Differences, 124, 150-159.
Bennett, R. E. (2011). Formative assessment: A critical review. Assessment in Education: Principles, Policy & Practice, 18(1), 5-25.
Borsboom, D., Deserno, M. K., Rhemtulla, M., Epskamp, S., Fried, E. I., McNally, R. J., et al. (2021). Network analysis of multivariate data in psychological science. Nature Reviews Methods Primers, 1(1), 1-18.
Bienkowski, M., Feng, M., & Means, B. (2012). Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics: An Issue Brief. Office of Educational Technology, US Department of Education. http://www.ed.gov/edblogs/technology/files/2012/03/edm- la-brief.pdf
Camara, W. (2020). Never let a crisis go to waste: Large-scale assessment and the response to COVID-19. Educational Measurement: Issues and Practice, 39(3), 10-18.
Chan, M. C. E., Ochoa, X., & Clarke, D. (2020). Multimodal learning analytics in a laboratory classroom. In Virvou M, Alepis E, Tsihrintzis G A, et al. (Ed.), Machine Learning Paradigms: Advances in Learning Analytics (pp.131-156). New York: Springer.
Cizek, G. J., & Bunch, M. B. (2007). Standard setting: A guide to establishing and evaluating performance standards on tests. Sage Publications, 47(4), 368.
Gardner, J., O’Leary, M., & Yuan, L. (2021). Artificial intelligence in educational assessment:“Breakthrough? Or buncombe and ballyhoo?”. Journal of Computer Assisted Learning, 37(5), 1207-1216.
Guba, E. G., & Lincoln, Y. S. (1989). Fourth generation evaluation. Sage.
Ibnu, S., & Marfuah, S. (2020). Students’ result of learning at chemistry department through assessment of, for, and as learning implementation. International Journal of Instruction, 13(2),165-178.
La Marca, P. M., Redfield, D., Winter, P. C., & Despriet, L. (2000). State standards and state assessment systems: A guide to alignment. Series on standards and assessments. Washington, DC: Council of Chief State School Officers.
Langenfeld, T. (2020). Internet-based proctored assessment: Security and fairness issues. Educational Measurement: Issues and Practice, 39(3), 24-27.
Li, Y., Li, P., Zhu, F., & Wang, R. (2017). Design of higher education quality monitoring and evaluation platform based on big data. Paper presented at the 2017 12th International Conference on Computer Science and Education (ICCSE).
Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A brief introduction to evidence-centered design. ETS Research Report Series, 2003(1), i-29.
Shermis, M. D., & Burstein, J. (Eds.). (2013). Handbook of automated essay evaluation: Current applications and new directions. NewYork: Routledge.
Sireci, S. G. (2021). NCME presidential address 2020: Valuing educational measurement. Educational Measurement: Issues and Practice, 40(1), 7-16.
European Commission. (2015). Horizon 2020 monitoring report 2014. Luxembourg: Publication Office of the EuropeanUnion.
Wang, Y., & Wang, W. (2021). Detecting pronunciation errors in spoken english tests based on multifeature fusion algorithm. Complexity, 6623885. http://doi.org/10.1155/2021/6623885.
Yan, D., Rupp, A. A., & Foltz, P. W. (2020). Handbook of automated scoring: Theory into practice. Boca Raton, FL: CRC Press.
Yang, L., Xin, T., Luo, F., Zhang, S., & Tian, X. (2021). Automated evaluation of the quality of ideas in compositions based on concept maps. Natural Language Engineering, 1-38. doi:10.1017/s13513249 21000103.
Yang, L., Xin, T., Cao, C. (2020). Predicting evaluations of essay by computational graph-based features. Frontiers in Psychology, 11, 2999.
Zhang, S., & Chang, H. (2020). A multilevel logistic hidden Markov model for learning under cognitive diagnosis. Behavior Research Methods, 52(1), 408-421.
作者简介
田伟,博士,讲师,硕士生导师,本文共同第一作者;杨丽萍,博士,博士后,本文共同第一作者。北京师范大学中国基础教育质量监测协同创新中心(100875)。
辛涛,博士,教授,博士生导师,本文通讯作者,北京师范大学中国基础教育质量监测协同创新中心常务副主任(100875)。
张生,博士,副教授,博士生导师,本文通讯作者,北京师范大学中国基础教育质量监测协同创新中心网络平台部主任(100875)。
基金项目:本文系国家社会科学基金重大项目“国家基础教育质量监测与评价体系研究”(课题编号:19ZDA359)的研究成果。
责任编辑:刘莉
2022年第1期目次