林松月 刘进 | 大数据与院校研究
林松月 刘进
香港中文大学 北京理工大学大数据与院校研究摘 要:院校研究具有运用大数据方法开展研究活动的天然数据优势,但当前已有研究尚未充分发掘到适合大数据研究的条件和途径,尚未形成较好的大数据研究示范。用大数据思维替代传统研究思维、用大数据替代传统研究的有限数据、用大数据算法替代传统统计学算法是院校研究与大数据结合的基本技术原理。在深入讨论院校研究大数据方法运用原理的基础上,以高校大数据的最常见载体——校园一卡通为分析对象,对院校研究过程中各类大数据的分布、生成、存储、采集、使用等流程展开案例分析。研究发现:大数据方法对院校研究范式、过程、结果等具有颠覆性的意义,大数据与院校研究具备良好的融合能力;院校研究大数据广泛分布于教育教学活动中,院校研究与大数据融合发展前景广阔。未来的院校研究应更加强调研究的科学化目标和实践导向,更好营造证据导向、数据导向的研究场域,形成新的以大数据方法为准则的院校研究学术共同体。 |
修回日期:2022-05-06 基金项目:国家自然科学基金面上项目“政府奖学金能否提升来华留学生质量—基于机器学习方法的‘一带一路’国家因果推断”(71974012);国家自然科学基金面上项目“‘一带一路’学术人才向中国流动的开放式‘推-拉模型研究—人工智能方法的运用’”(71774015) 作者简介:林松月,女,河北邢台人,香港中文大学教育学院博士生。主要从事高等教育国际化研究; 通信作者:刘进,男,江苏东海人,北京理工大学人文学院副研究员,北京理工大学国际争端预防和解决研究院研究员,兰州大学格鲁吉亚研究中心特聘研究员,主要从事高等教育国际化和教育大数据与人工智能研究。 |
进入第四次工业革命,大数据和人工智能正彻底改变社会科学研究方式。教育学科信息化软硬件基础好、大数据生成存储使用可能性大、教育大数据研究结果直接应用于教育教学改革前景更为广阔。院校研究应抢抓大数据发展机遇,形成各类院校大数据库资源,提升院校研究科学化水平,进一步完善院校研究的理论、方法和公共知识体系。近年来,院校研究领域进入瓶颈期,在其他学科(如管理学、经济学、图书情报学、新闻学)和教育学其他领域迅速引入大数据方法的同时,旨在指导教育改革实践的院校研究却仍处于“方法沉睡”阶段,尚未面向大数据时代实现研究意识、研究方法、研究技术转向,尚未激活各类大数据资源,部分大数据库仍处于“数据封闭”和“数据孤岛”状态,而这些问题背后,是院校研究者尚未清晰了解教育大数据资源的现实分布、可能应用和广阔前景,一些研究文献虽然“鼓吹”在院校研究领域引入大数据资源,但大多纸上谈兵,没有形成良性的研究示范。为进一步阐明院校研究领域的教育大数据生成、存储、采集、使用等流程,分析院校研究领域教育大数据的各类基础特征,展现教育大数据在院校研究领域的广阔应用前景,本研究将在理论分析的基础上引入部分研究实例展开阐述。
一、大数据在院校研究中的应用原理
(一)大数据提升院校研究科学化水平
相比于传统各类研究方法,大数据在院校研究中的应用至少具有3个方面的颠覆性特征。
1.对院校研究范式的颠覆性:基于证据的科学化、动态性研究范式
传统的院校研究,大多基于已有的理论框架、研究假设或案例经验,展开研究设计、证据采集与结果分析。由于理论创新的难度较大,大多数研究沿用已有理论基础,或在已有理论基础上进行迁移、整合、嵌套、延伸等使用,还有一些研究没有理论基础,只依据部分文献资料或实践案例整合形成各类研究假设。这种“理论/文献/案例-假设-验证”的基本研究范式,过度强化了已有理论或研究框架或实践案例的合法性,一定程度上降低了院校研究理论创新的动机和可能性,很多院校发展规律受到理论束缚无法得以明示。还有一些研究为理论而理论、为假设而假设、案例迁移使用牵强附会,以至于存在研究理论的方便性使用、研究证据的选择性使用、研究工具的复杂化使用、研究结果的牵强性使用,以及数学公式滥用、结构模型乱用等问题,进一步降低了院校研究的科学性。大数据研究则突破了这一传统研究范式,更多基于科学证据本身做出研究判断,更多开展因果式研究而非相关性研究,更多进行各类院校规律预测并动态调整预测模型与预测结果(不断提高预测精度逼近真实发生值),这将有望使院校研究逐步进入不必过于依赖理论、过于依赖假设、过于依赖传统案例或者决策经验的新阶段,不仅大大提升院校研究的科学化水平,通过公布数据源、研究代码等方法,推动院校研究过程透明化和结果公开化,重塑基于证据的院校研究共同体,而且可以降低院校研究难度,从各类理论研究、思辨研究、案例研究等逐步转向规范的大数据研究,提高研究的趣味性水平,探讨院校活动中各类有趣现象。
2.对院校研究过程的颠覆性:基于事实的全样本、客观性研究过程
一方面,传统的院校研究,以问卷调查、访谈调查、质性研究、案例研究等方法为核心,研究过程只能实现对有限数据、有限资料的占有和分析,较容易导致研究结论的偏差。虽然一些研究试图通过借鉴统计学等方法降低抽样误差和选择性偏误,但研究者本人的研究方向偏好,个人研究习惯,院校研究经历,方法使用、数据获取、分析解释能力上的差异等,仍可能影响研究过程,降低研究成果质量。尤其是院校管理很多问题本身就非常复杂,研究过程如果只采用少量资料容易导致“盲人摸象”,致使院校研究方案和决策出现偏差。另一方面,已有的院校研究活动更多是以探求各要素间相关关系为主要研究过程,但各类相关分析很容易遮蔽真实的教育问题发生机理。根据简单模型所形成的各类教育推导,也可能存在较大误差。大数据方法的引入,有可能为上述院校研究的过程缺陷带来弥补的转机。第一,大数据将使得院校研究过程数据化,基于事实数据开展研究,降低研究者个人偏好等对研究过程的影响;第二,大数据将尽可能呈现完全样本,有望回避或大幅降低因抽样等带来的研究误差;第三,大数据将可能使得研究过程透明化、动态化、可回溯,降低研究者主观学术不端或客观研究失误的可能性。
3.对院校研究结果的颠覆性:基于大数据的理论体系重构与研究结论重塑
一方面,是大数据研究对于院校研究理论体系的颠覆性。传统院校研究的理论体系,一部分来自于教育哲学等反思性建构,一部分来自于各类传统教育研究的结论,同一教育问题往往存在多种理论解释,甚至存在多种研究结果,往往导致院校决策活动在实践层面无所适从。进入大数据时代,初步具备了对各种教育理论体系进行检验和重构的数据库基础,将可能逐一检验传统院校研究理论的科学性与有效性,将可能发现大量新的院校运行规律并凝练形成全新的理论成果,新的经过大数据检验的理论成果将不仅更能指导教育实践,而且将可能成为教育理论体系更新的主要合法性基础。另一方面,是大数据研究对于具体院校研究结论的颠覆性。院校研究活动内容繁复,涉及大量游离在教育理论体系之外的各类研究领域和具体研究要点,传统研究活动因为方法受限在这些教育领域或要点中往往存在结论模糊、科学化水平不足等问题,导致院校决策无法直接采纳教育研究结论。而进入大数据时代,将有可能通过各类专项院校研究数据库建设,以及跨数据库的数据挖掘、碰撞、运算等,对院校研究中出现的新问题及时做出更加科学化的研判,还有望通过大数据仿真,模拟出不同院校决策路径的可能后果,这将大大提高院校研究结论采信的可能性,提高院校管理水平,降低院校改革成本。
以上分析主要目的在于凸显大数据研究方法与院校研究结合可能产生的各类新趋势,无意于否定传统各类院校研究方法。事实上,除具有上述颠覆性特征之外,大数据方法与传统院校研究方法还具有融合性特征。比如,大数据方法与传统“小数据”院校研究方法如果充分融合,既可以从整体、宏观、全貌视角考察院校治理问题,也可以从细节、微观、案例视角分析问题成因、寻求对策、检验各对策的现实有效性。一些传统的“小数据”方法如统计方法等,也是大数据研究的基础工具。再比如,大数据方法与传统“非数据化”院校研究方法的融合也可以取长补短,平衡量化研究与非量化研究,得到更有解释力的各类结论。
(二)大数据在院校研究中的技术原理
院校研究如能真正用好大数据方法,实现从传统方法向大数据方法的转向,则可迅速改善传统院校研究科学性不足等问题,通过大数据研究真正得到各类科学发现,逐步凝练形成理论体系,完成院校研究学者进行理论体系建设的“历史夙愿”。从技术原理的视角来看,教育大数据相比于传统研究方法,至少具有3个方面的技术特点。
院校研究的大数据思维,通常而言就是直接面向院校教育问题、运用大数据方法、探寻问题内在规律和解决办法的思维方式。与传统院校研究思维不同,大数据思维有望摆脱传统院校研究思维惯性、理论预设、路径依赖,用数据说话思维取代思辨思维,大数据思维取代普通数据思维,全样本思维取代小样本思维,数据因果推断思维取代相关分析思维。
2.用大数据替代传统研究的有限数据
一些观点认为,教育大数据通常掌握在少数大的数据供应商或数据平台手中,但本文认为,对于院校研究而言,其大数据目前绝大多数由院校内部掌握,无法通过公开渠道获得。当前高等学校决策者和部分院校研究者尚未清晰认知大数据对于院校研究的重要价值,尚未打破院校内部的数据孤岛,也尚未激活沉睡中的院校大数据。应该根据院校研究进行大数据的概念界定和数据采集,深化对于教育大数据来源和使用的认知与能力,充分挖掘存在于日常教育活动之中的各类大数据资源。这至少包括:
第一,全样本小样本的连续追踪数据。也即虽然样本数不多,但构成长期、连续、多方位的数据追踪,涉及全体样本信息,完全可以成为院校研究的大数据资源。比如,本课题组对于北京市某双一流高校荣誉学院数百名学生的展开的大数据追踪,该项研究采集了学生的基础类数据,包括人口统计学指标、入校前各类档案信息、家庭信息、高考成绩信息等,在此基础上,从大一入学开始,对学生学习全过程进行追踪,定期进行问卷调查和访谈调查,采集所有学生学习结果类信息、校园卡刷卡信息、图书馆出入和借阅信息、学生专业选择和分流信息、攻读研究生或就业信息等,形成学生大数据闭环,可以对全体学生和个体学生的学习规律进行深入分析,例如可以对学生高考表现、学习习惯、伙伴关系等与学业表现的关系展开深入分析,形成各类有利于改善学生学习的研究规律。
第二,特定教育研究互联网数据的连续抓取。对于一些院校专题研究领域,传统大数据公司或互联网平台无暇进行专门整理,院校研究者也可以根据研究需求进行专题的数据抓取和分析,并进行数据挖掘匹配和大数据运算,最终形成教育研究专题大数据库。举例来说,本课题组长期致力于高校自主招生研究,曾对2014—2019年教育部阳光信息平台自主招生公示学生名单进行数据抓取,并对样本进行“中学层次”(是否省级师范性中学、是否市级示范性中学、普通中学)等各类数据匹配,形成了包含十多万条学生信息的大数据库。对于该数据库的分析,可以客观呈现近年来自主招生的基本情况,甚至可以对各地自主招生名额投放中的“地方保护主义”等问题展开细致分析,为深入开展自主招生研究提供大数据支撑。
第三,根据特定研究需求形成的定制式数据。院校研究者还可以根据特定的研究理论、研究方法或研究问题,创新形成各类数据库框架,通过数据采集和更新形成大数据库。举例来说,本课题组2015年根据研究需要,系统采集了109所211高校、所有中国科学院研究所、所有中国社会科学院研究所大学教师(专业研究人员)的简历,形成14万余条学者简历信息大数据库,以此分析学术人才的学业流动、职业流动、区域偏好等各类规律,并在此基础上根据研究需要,部分匹配了学者的学术产出等新数据指标,以此分析学术流动与学术产出的关系等各类研究问题,取得良好效果。其中,课题组还根据特定院校需求,分析了该校师资力量现状、学科建设人才需求、人才引进方向、人才引进成效、与同型竞争大学的师资力量对比等。
3.用大数据算法替代传统统计学算法
传统统计学算法广泛应用于院校研究领域,其基本原理在于构建统计模型、降低抽样误差、形成相关性研究结论。而进入大数据研究时代,院校研究将有望用大数据算法替代传统统计学算法,进行全样本计算而不是样本估算,进行精确计算而不是模糊推算,进行因果关系计算而不是相关关系演算,甚至进行超级计算。例如,本课题组2019年运用北京市车辆交通信息数据,测算教育是否是造成北京市交通拥堵的关键因素,涉及对几十万台汽车的大数据分析,该数据库每15秒更新一次车辆经纬度、速度等近百项数据,数百天的数据观测便形成数亿条大数据资源库,通过超级计算可以还原北京市交通拥堵全过程,对教育因素的影响进行精准分析。再比如,本课题组基于上述提及的某荣誉学院全样本数据,通过识别学生整个学期内在食堂的刷卡记录,对每名学生整个学期早起行为进行全方位、持续性的监测,共涉及几十万条刷卡记录。对更为客观、持续的事实数据展开大数据算法,取代基于问卷调查等传统方法获取的主观性较强、小样本的横截面数据,可以展开更为科学、有效的研究设计,获取更为客观、精准的研究结论。将大数据思维运用到院校研究中,不仅可以大幅提升院校研究各项结论的有效性与科学性,而且将进一步拓宽院校研究的研究视角与分析思维。
二、大数据在院校研究中的应用举例
为更清晰呈现大数据在院校研究中的使用方法,更好展现大数据在院校研究中的各类优缺点特征,本文以某高校开展的“学生学习行为与学习效果评价”这一院校委托任务为案例,以高等学校最为常见的教育大数据来源——校园一卡通数据为例,对具体研究过程进行实证展示。
大数据与院校研究的结合涉及几个关键问题,一是数据库的生产;二是数据挖掘与匹配;三是大数据运算以及研究结论的形成。具体到本项委托研究任务,在大数据库建设过程中,分别存在学生基本信息数据、学生成绩数据和校园一卡通数据。除前两类传统技术数据外,校园一卡通数据包括学生消费金额、时间、地点(例如食堂、超市)等数据,转账充值数据,图书馆进出与借阅记录数据,寝室进出记录,浴室使用时间与频次数据,体育馆运动项目数据,乘坐校车出行时间与频率数据等。三类数据共同构建形成新的研究大数据库,可以对大学生的学习、消费、饮食、读书、健康、卫生、就寝、运动、出行等进行全方位分析,以此探讨学生学业表现与学习行为等之间的关联。
本研究对象为北京某双一流高校某荣誉学院学生,共收集了该院四个年级共499名学生一学期产生的“一卡通”数据,共计93万余条。主要包括:(1)学生基础信息,包括姓名、性别、学号、班级、宿舍楼、宿舍号、校园卡号等;(2)一卡通消费及相关信息,包括一卡通使用时间、金额、流水类别、卡机编号、站点编号、充值记录等;(3)图书借阅信息,包括学生证件号、书籍信息(题名、出版社、ISBN号、索书号)、借书日期、应还和还书日期、借阅登记、累计借书等。在“一卡通”数据基础上,研究过程中进一步调取了研究对象的其他各类数据资源并进行了数据匹配,主要包括:(4)学生家庭背景信息,包括民族、生源地、政治面貌、家庭住址、父母工作性质等;(5)学生高考相关信息。包括学生高考总成绩、各科目成绩、生源地、毕业中学、入学类型(高考、保送)等;(6)大学学业表现信息,包括各学科成绩、总学分绩点、四六级成绩,出国情况、出国交流项目、出国交流时间、国外学校名称、最终是否出国深造等信息,学生获奖情况、论文发表等;(7)学习困难学生具体信息,包括学生挂科次数、挂科科目及具体分数,导员谈话次数、谈话记录,心理咨询情况,分流后学业发展等;(8)学生毕业信息,主要涉及学生毕业走向,如保研、出国、工作等。
本研究数据采集涉及校内多个部门,主要包括:学生工作处、招生就业处、教务部、学生事务中心、图书馆等。数据采集的遗憾之处在于,缺乏来自校医院的数据(以此考察学生的健康状况)和来自校车管理中心的数据(以此考查学生跨校区流动情况)。虽然如此,各类数据汇总已超过100万条,这些数据的综合使用,可以有效用于分析学生的日常行为,可以对学生学业表现等展开综合研究,甚至可以进行有效的学生行为画像。
图1 教育大数据采集、清洗与匹配过程
(一)研究举例1:早起行为与学业表现的关系研究
高校通常鼓励学生早起进行学习活动,例如以早操、升旗、早读等方式鼓励学生早起。但学术界已有研究尚未发现早起与学业表现之间的直接关联,也即是否早起行为真的能够提升学业表现。为此,本文以上述教育大数据库为依托,对学生早起行为进行了大数据刻画。具体步骤是:(1)基于一卡通数据构建“早起值”概念,根据学生校园卡早餐消费时间和地点,倒推学生的起床时间。首先定义上午 6:00-10:00 为早饭时间范围(10:00之后将可能为学生午饭时间),进一步确定6:00-7:00、7:00-8:00、8:00-9:00、9:00-10:00为四个早起的时间界定范围,并分别赋值为4、3、2、1(即起床时间越早,分值越高)。(2)在此基础上,构建早起值公式Y=X1+X2+…+Xn。其中,X为学生当天在早饭时间范围内在食堂最早一条刷卡信息的赋值(由于早饭时间范围内可能出现多次刷卡信息,例如去不同窗口购买不同类别的食物。因此,提取同一人同一天早饭时间范围第一条刷卡记录作为衡量其早起时间的数据,剔除早饭时间范围内其他刷卡记录),n代表学生本学期在早饭时间范围内进入食堂刷卡的天数,将n个X值的总和定义为该生的早起值。(3)剔除部分早起极低值(可能跟个人生活习惯有关)后,对学生的早起值与其专业学分绩进行相关分析,结果显示,学生早起值越高,其专业学分绩也越高。这在一定程度上表明,早起行为与学业表现具有正相关关系,具有早起习惯的学生倾向于拥有更好的学业表现。
此外,在此基础上,通过分析各年级学生早起情况差异进行学生早起行为划分。结果可以归纳为四类,按照早起值从高到低分别为:大二年级为“早起勤奋年级”,大一年级为“早起良好年级”;大四年级为“早起一般年级”,大三年级为“早起不佳年级”。即大一、大二年级的学生早起表现较为良好,而大三、大四年级的学生早起表现较为不佳,反映出不同年级生活习惯与学习习惯的差异。此案例中“学生年级越高,早起习惯相对越差”的问题应引起重视,其原因可能为,低年级学生在一定程度上仍保持高中勤奋学习习惯的惯性,而随着年级增长该习惯逐渐消磨。据此结果,院校应加强巩固学生有效学习机制,引导学生形成长期的优良学习习惯。
表1 各年级早起行为的教育大数据特质推断
年级 | 学生人数 | 匹配人数 | 平均早起值 | 平均早起次数 | 教育大数据特质推断 |
大四 | 75 | 70 | 76.5 | 41 | 早起一般年级 |
大三 | 53 | 48 | 149.6 | 38 | 早起不佳年级 |
大二 | 79 | 75 | 166 | 76 | 早起勤奋年级 |
大一 | 292 | 286 | 165 | 61 | 早起良好年级 |
图2 教育大数据在学生早起行为中的应用流程图
(二)研究举例2:学生独立行为与同伴关系研究
同伴关系对于大学生个体发展以及高校人才培养与教育管理具有重要意义。然而由于同伴关系较难测量的固有特点,已有研究对于大学生同伴关系的研究或进行理论性评述,或通过各类问卷调查进行测量。而在大学生自主式填答“受欢迎程度”、“肯定与欣赏”、“亲密与交流”等测量同伴关系的相关问题时,会由于个人评判标准不同在一定程度上导致主观性过强等问题,不利于研究结论的客观性呈现。而以校园卡为依托的院校研究大数据恰可为此类研究带来全新的求证机会与分析视角。
以本研究开展的对学生独立行为分析的研究为例,基于学生在食堂刷卡信息模拟学生独立行为,通过分析是否与室友一起进餐进行独立性评价,并据此分析学生独立行为与学业表现等方面的关系。基于研究需要,从校园卡大数据信息中筛选出56,3683条食堂刷卡记录作为研究大学生独立行为与同伴关系的数据样本。首先,运用python语言完成以下预处理过程:第一,抓取同一校区,同一寝室学生在每天三餐时间内的消费记录(该校为四人寝规格,每个寝室共4人;定义早饭时间为6:00-10:00,午饭时间为11:00-14:00,晚饭时间为16:00-19:00);第二,以寝室为单位,分别筛选同一天三餐时间范围内每人的第一条刷卡信息(同上,由于在同一进餐时间范围内同一人可能会在不同窗口产生多次刷卡记录,因此剔除同一进餐时间范围内其他刷卡记录);第三,观测每位学生该条刷卡信息时间前后10分钟内是否有其他3位室友在同一食堂的消费记录,每有一位室友在同一地点进行过消费则计分为1(共3个室友,因此同一进餐时间范围内每人最低得分为0,最高得分为3)。据此,得到每人每餐的独立性评价,按照此流程对每位学生进行整个学期的独立得分计算。分数越低其独立性越强也即与室友亲密关系越弱,分数越高独立性越弱也即与室友亲密关系越强。
研究结论表明,总体来看,独立性较强也即与同伴关系较疏远的学生占比较大。据此,根据每位学生的独立得分可以对寝室进行归类。其中,“单人独立-三人抱团”型的寝室占比最高,占比接近一半,其次为“两人独立-双人抱团”型,占比为36.61%,再次为“三人独立-单人亲密”型(即三人相对独立,另外一人与三人关系相对都较为亲密),占比为12.24%,而“四人分别独立”型寝室占比最小,仅为1.61%。同时,通过分析学生独立得分与学业成绩的关系发现,对于男生而言,独立性评价与学业表现、学业失败显著相关,独立性越弱、亲密关系越强,其成绩均分越高,挂科次数、挂科率越低,而对于女生而言则无显著相关关系。此外,通过分析不同类别学生独立得分还发现,女生独立性较男生更高;社会经济地位越高,独立性越强;汉族学生独立性比少数民族学生强;单亲家庭、非教师家庭学生独立性较强;大四学生独立性最强,大一新生亲密性最强等结论。据此可以深入探究大学生同伴关系与学业表现等之间的内在联系,以一卡通大数据为依托可以大幅提升各类院校研究结论的科学性与客观性。
图3 大学生独立行为与亲密关系研究分析部分举例
(三)研究举例3:生源地与消费水平的关系研究
受既有认知与以往研究结论的束缚,西部生源学生由于家庭收入水平相对较低因而消费水平也较低往往成为固有认知,大数据研究方法或将颠覆以往的惯有结论和认知。在上述教育大数据库的基础之上,本文以某年级生源信息为例,研究不同地域生源的消费水平是否存在差异。具体步骤为:(1)按照国家统计局的相关标准将生源地域划分为东部、中部、西部3个地理区域。(2)通过教育大数据库对每位学生的家庭年收入与一学期校园一卡通消费情况(包括该学期内该生在不同卡机如食堂、超市、浴室、校车等各站点的所有消费记录)进行精准匹配,并统计每位学生该学期的总消费值。在此基础上,剔除部分极低特殊值(可能与个人付款习惯有关),对该学期所有学生校园一卡通消费情况的地域差异进行分析。各数据之间的精准匹配表样例见下表。(3)通过对整学期学生一卡通消费大数据的匹配与分析发现,学生家庭年收入具有明显地域差异,西部生源家庭年收入整体水平较东、中部生源更低,但学生在校整体消费水平并无明显地域差异,且家庭收入较低的学生消费水平高于家庭收入较高的学生等情况也并不罕见。虽然学生消费方面较为广泛,一卡通消费只是其中一类,但作为学生校园生活的最主要消费表现,在一定程度上对学生消费水平具有较高代表性。而此次通过跟踪一学期学生消费情况得到,西部生源并非消费水平较低的结论,颠覆了以往认知里对西部生源的部分刻板印象。
表2 学生地域、收入、消费信息的精准匹配举例
借助大数据库,还可在学习困难学生的研究上发挥特色优势,全方位考察学困生的行为表现,进一步为学困生精准画像。具体步骤是:(1)借助教务处学生历年各科目考试成绩数据分析其学业成绩,整理其优秀课科目、良好科目、不及格科目;(2)匹配该学生一学期的校园一卡通在食堂的刷卡信息,分析其每日用餐特征,并归纳总结其一学期内在食堂就餐的规律;(3)通过学生一卡通数据监测其作息规律,推测该生作息习惯;(4)通过图书借阅数据,监测分析该生的阅读数量、偏好和习惯。通过对多个端口的教育大数据进行整体归纳和总结,并精确到对个人的学习行为和学业表现的个性化分析。
以某学习困难学生为例,以下是依托其校园一卡通数据对其学业表现行为进行分析的结构图。该学困生基础学业成绩信息为:一学期中,3门课程不及格,为表现不佳科目;3门课程介于70-80分之间,为表现一般科目;4门课程为80-85分之间,为表现良好科目;1门课程在90分以上,为表现优秀科目。匹配该学生一个月的校园一卡通数据可知,该学生一日就餐中,具有“早餐频次略少、时间较早;午餐频次较多、时间较早;晚餐很少”的特征;此外,根据其就餐时间也可发现其作息规律,例如根据其早餐时间可推测该生习惯早起,属于“勤奋早鸟型”,该生午餐大多分布在11-12点之间的情况,属于较早的午餐时间,可推测其具有午休习惯,或可判断其倾向于避开用餐高峰期。分析该学困生一周内在食堂就餐情况,可归纳该生为“周初少吃、周中规律、周五加餐、周末回落”的类型(可能原因为,作为每周工作日第一天,周一时学生尚未回归至正常作息,而周末在食堂就餐频次回落可能与周末学生外出或以外卖形式就餐有关)。分析其整个学期每月刷卡就餐情况,可知12月份在食堂就餐频次最高,可归纳该生为“期末多吃食堂型”或“期末饮食规律型”(这可能与期末临近,学生需要认真备考,从而饮食作息趋于规律有一定关系)。未来可进一步对学生进出寝室的一卡通刷卡数据进行研究,分析和推测其是否存在晚睡行为等。此外,通过该学困生校园一卡通在图书馆终端的数据分析可得该生借阅习惯,该生该学期只借阅了两本图书,均与学习相关(第一本为“如何高校学习”,反映该生有意提升学习效率,第二本为专业工具书,反映该生有意提高专业知识水平),借书行为发生在上半学期末与下半学期初,一定程度上反映出该生在学期初与学期末抱有“认真学习”的心态,但学期中并无借阅行为,且借阅时间均较短(或可推测该生在学期初与学期末更易激发学习的斗志,但并未养成长期良好的学习习惯)。由此总结该生借阅的个性特征为“学期初/末借书”、“借书少”、“借阅时间短”、“借书偏好为工具书”,同时在具体时间上还可发现该生偏好下午进出图书馆的特点。
图4 某学困生校园一卡通数据学业表现行为分析图举例
再以某学习困难学生为例,通过数据整合刻画其精准画像。基础信息为:保同学,女,18级,汉族,青海人;家庭年收入10万元;高考成绩577分,其中数学133分,理综212分。基于此可清晰得知其来自西部省份,数学基础尚可,理科基础较差。一学期学业行为表现为:早起得分为231分(18级学生平均早起值为165分),早起次数为85次;借阅图书为2本,借阅类型为工具书;一学期生活习惯表现为:校园卡刷卡消费约3500元,属于中等偏低水平;日常饮食习惯较为规律。据此可推测该生“勤奋早起”“消费偏低”“借阅量少”“饮食规律”等各项学习与生活特征。基于此,通过其入学前基本信息和入学后行为表现,可以部分解释造成该生学习困难的因素大致为:学业基础较为薄弱、家庭环境优势欠缺、努力程度相对不足、不同地域固有差异(例如大数据表明西部地区学生在英语、计算机等科目上与东中部学生存在显著差异,且本课题组前期研究表明西部学生存在学习心理压力较大、自我效能感较低等问题)。
图5 某学困生画像举例
三、大数据在院校研究中的应用展望
当前人类社会已经逐步进入大数据和人工智能时代,院校研究活动应适时更新研究方法,这对于提高院校研究的科学化水平、更深层次推动院校研究与教育实践融合乃至重塑院校研究的合法性地位等都具有关键意义。本文对教育大数据研究方法的基本原理进行了初步探讨,选取了院校办学活动中最为常见的校园一卡通数据、最为常见的院校委托任务学生学习评价,进行了大数据研究案例展示,研究显示出教育大数据分布广泛,教育大数据研究潜力巨大,基于教育大数据方法的院校研究转向前景非常广阔。
通过本项研究,至少可以对大数据与院校研究的结合做如下总结。第一,院校研究的大数据资源来自哪里。本研究显示出,院校研究的大数据资源并非神秘莫测,而是广泛分布在教育教学活动中。校园一卡通是教育机构最为常见的大数据载体,在一卡通数据基础上,本文辅之采集了学生家庭信息数据、入校前与入校后学业表现数据、各类行为习惯数据等,就形成了有效的教育研究大数据库资源。本课题组拥有多份院校研究大数据资源,之所以用“一卡通”数据举例,是为了说明即使校园里最为常见的数据,也可广泛用于院校大数据研究活动。事实上,除“一卡通”数据外,高等学校还包含有大量文字、语音、视频等各类大数据资源,当前大量可用于院校研究的大数据资源更多呈零星、散乱、沉睡状态,需要院校研究者构建大数据框架,进行收集、加工、整理、计算,通过形成各类院校研究大数据库。这些院校研究的大数据资源像“老中医”一样,数据不仅不会过时、陈旧,而且积累时间越久、数据维度越丰富、数据挖掘越充分,越可能更科学地指导院校研究和具体实践。
第二,院校研究融合使用各类大数据资源。本研究显示出,和普通问卷、访谈、质性研究素材不同,院校研究的大数据资源使用,具有多目的性和多功能性特征,但仍然主要遵循院校研究以问题为导向的数据使用基本原则,仍然按照“研究问题/委托任务-数据收集-数据分析与结论提出”的基本流程展开研究活动。所不同的是,一旦数据库生成,则可能形成大量研究目标之外的“副产品”,这将有利于新的理论与实践创新的开展。以本文为例,本文最早的研究任务是分析大学生学业失败的影响因素,但研究活动结束后,还大量呈现了其他各类研究结论。而且大数据库通常具有海量性、多样性、高塑性和异变性等特征,一项研究任务完成后,随着大数据库的持续更新,以及新的数据变量的加入,或者对传统数据变量的再赋权、再加工、再计算,也可能满足更多的研究需求。事实上,除校园一卡通数据之外,本项目团队还帮助某校建立了包含教师教学信息、学生选课信息、学生评教信息、学生运动表现信息(体能测试结果)等在内的更大的院校研究大数据库,这将有利于更全面、更深入、更系统推进院校研究与大数据的融合。比如,传统的学生对教师的评教数据通常并不准确,无法真实判断教师教学质量。通过上述大数据库,则可以进行新的大数据评教。以大学物理为例,对于A教师的大学物理授课水平评价,除传统学生评教分数等观测点外,还可以分析参加A教师课程的学生进入后续与大学物理应用相关的其他课程的大数据表现,反向倒推A教师大学物理的授课质量。
第三,院校研究如何科学呈现大数据研究结果。相比于传统各类研究方法,大数据方法在院校研究中的使用重点在于数据本身,数据库建设与研究目标的一致性决定了研究的有效性,数据质量则决定了研究质量。在此过程中,核心工作是数据资源的探寻、收集、加工和运算,传统SPSS等封闭式数据统计类研究工具面临困境,更多需要引入Python,R,MATLAB等研究工具,甚至在一项研究活动中将需要运用多种工具。也因为各类统计类、绘图类研究工具的加入,基于大数据的院校研究结果呈现出可视化程度更高、直观性更强、美观度更好、更能直接指导教育改革等特点。以本文校园一卡通数据为例,研究首次发现的西部学生因学业基础不佳、入校后学业困难的问题,已经引起项目委托单位的注意,已经采取制度举措加强对该部分学生的学业指导和学习帮扶。这显示出,基于大数据方法的院校研究活动,研究设计科学性更强,数据占有量更大,研究结论可靠性更好,研究发现更多为因果式推断,其研究结论的呈现将更可能推动教育实践改革,并加快从学术成果到实践成果转换的速度。
第四,院校研究如何用好大数据方法的难点。和传统研究方法一样,教育大数据研究方法也存在自身特点的缺陷和不足,教育大数据研究的难点在于数据库构建的过程和最终研究结果的有效性。从本文所举例的校园一卡通大数据研究活动来看,基于大数据方法推进院校研究的思路确定相对简单,难点之一,在于数据收集、数据清洗整理等环节。相比于传统研究,本项研究的数据收集过程复杂度更高,涉及在学校不同部门之间进行沟通协调(这也反映出学校层面的数据库建设滞后),有些教育管理部门缺乏大数据思维和能力,甚至因保管不力导致部分数据丢失,因此需要加强推进院校研究资源的共享与信息采集的规范化。与此同时,大数据库建设过程中的数据加工整理是工作量最大的环节,看起来简单的研究结论,背后却牵涉不同数据库资源的整合,对无效数据的剔除,对数据画像的标准设定,以及海量的数据运算。难点之二,在于与传统理论与研究的对话,大数据研究方法直接切入到研究问题本身,并未遵循“理论(文献)-假设-数据-发现”这一基本逻辑,研究结论往往“就事论事”,容易引发研究活动理论性不强等质疑。本文认为,大数据研究有可能将院校研究带入碎片化阶段,如何通过一个个小的教育问题的发现和解决,重构院校理论体系是大数据时代院校研究需要深刻思考的问题。
第五,关于在院校研究活动推广大数据方法的建议。本文认为,院校研究应尽快面向大数据方法进行转向,应更加强调院校研究的科学化目标和实践导向、问题解决能力,应更好营造证据导向、数据导向的院校研究场域,应加强教育大数据相关立法沟通以降低数据可获得性门槛,应形成新的以大数据方法为准则的院校研究学术共同体,应引导院校决策规划、相关学术论文发表、院校调查报告、教育教学改革等院校研究活动中不断向大数据方法靠拢,增加院校研究的问题针对性、过程透明性、研究趣味性、结论可用性。与此同时,应注意大数据使用规范,用数据说话的同时避免唯数据等问题的出现。
本文撰写的初衷更多是抛砖引玉,通过对某项院校研究大数据研究活动的剖析,深化院校研究者对于大数据研究方法的认知,帮助一些院校研究者克服对于大数据研究神秘化、技术化、困难化的畏惧,推动营造“处处皆有大数据、人人用好大数据”的新的院校研究场域,带动院校研究大数据方法的推广和使用。但本文研究过程中涉及的数据样本仍然有限,相关研究发现仍停留在早期阶段,大数据方法运用仍然存在不规范、不深入、不系统等问题,院校研究大数据方法论的系统构建,仍需要海量的类似于本文的案例支撑,亟待院校研究理论与实践界行动起来共同推动本项研究改革。
文字编排:张海生
审核确认:吴朝平 蔡宗模