杜育红、臧林:学科分类与教育量化研究质量的提升
本期精彩
新刊速递 | 华东师范大学学报(教育科学版)2019年第4期
专题:信息技术时代的教育学理论重建
李栋:信息技术时代教育学理论的想象力——基于知识生产与理论重建的视角
学科分类与教育量化研究质量的提升
杜育红 臧林
北京师范大学教育学部,北京 100875
摘要:量化研究作为教育研究最为重要的范式之一越来越受到重视,发展非常迅速,但在研究质量与可信度方面也越来越受到质疑。为了回答如何提升教育量化研究质量的问题,本文首先讨论了学科分类及教育学科的性质,将教育学科定位为综合实践学科,并在总的学科分类的背景下提出教育量化研究的追求;然后分析了教育量化研究存在的问题及对经济学的借鉴,进而提出了改进教育量化研究的策略。
关键词:学科分类;教育量化研究;信息技术
作者简介:杜育红,北京师范大学教育学部教授、博士生导师,北京师范大学教育经济研究所所长,中国教育学会教育经济学分会理事长,《教育与经济》副主编、《教育经济评论》编委会副主任。
基金项目:教育部哲学社会科学重大攻关课题“教育与经济发展关系及贡献研究”(15JZ0040) 。
本文载于《华东师范大学学报(教育科学版)》2019年第四期
提升教育研究质量是教育学人的共同追求,但同时也是争议最大的问题之一。究其原因,是因为人们对于什么才是高质量的教育研究存在不同认识。本文尝试从量化研究的角度提出一些看法。为了更好地提供分析的基础,笔者先从学科分类出发,在厘清教育学科特点的基础上,重点谈关于教育量化研究质量提升的思考。
一、学科分类、教育学科的性质与教育量化研究
(一)学科分类:基于哈佛大学实践的思考
分类是学术研究的一个基础性方法,一个好的分类必须建立清晰的分类标准,并严格执行这一标准。建立清晰分类标准的基础是对不同类别事物共同特性的抽象与归纳,抽象出共同特性就可以归入同一类别。在实践中,分类的难点除了共同特性的抽象与归纳外,每个事物都存在着多种性质,从不同的角度往往会做出不同的分类。学科分类就存在着这样的问题。以教育学二级学科为例,有从学科性质角度划分的,比如教育哲学、教育心理学、教育经济学等;有从教育层级划分的,比如学前教育、高等教育等;有从教育类别划分的,比如特殊教育、职业教育等;有从教育内容划分的,比如德育原理、课程与教学论等。由于划分标准不统一,学科之间有交叉重合就是必然。
第一,文理基础学科与综合实践学科。为了避免陷入冗长的理论辨析,笔者从哈佛大学对学院的设置中得到启发,认为应该首先把学科分为文理基础学科与综合实践学科两大类。哈佛大学几乎所有的本科生都在文理学院,学术型的硕士生与博士生也主要在文理学院。我们一般熟悉的商学院、法学院、肯尼迪政府学院、教育学院、医学院等都主要以专业学位的研究生教育为主,实际上是专业性的学院。笔者认为,哈佛大学这样的学院设置与人才培养的安排,背后实际上是对学科分类的一种理解。文理学院的学科设置,以文、史、哲、数、理、化等基础学科为主。这些学科以对自然及人类社会规律认识及知识体系的建构为主。专业性学院则是以社会实践中的一个行业或一类职业为基础建立的,其对应的学科具有综合性与实践性的特点。“显然,哈佛大学对学科的划分最主要的分类是基础学科与综合实践学科。基础学科是对自然界、人类社会以及人类自身规律的探究;综合实践学科则是基于社会的实践领域需求而设计,实践的需求决定了学科的内容与体系,学科知识体系比较综合。以管理学为例,既需要从哲学视角研究,也需要从心理学视角分析,更可以从数学角度进行规划,是一个多范式的综合学科,可以说管理过程中需要什么,管理学就研究什么。同时,管理学也是一个与实践密切相关的学科,管理学的案例教学典型地反映了贴近实践的导向。” (杜育红,袁玉芝,2017,第3页) 这种综合性使管理学在知识形态及研究范式上都具有不同的特点。实践性体现在这类学科的知识是与实践密切相关的,或者说这类学科包含着很多实践性的知识。这类知识也许逻辑上并不完美,但有时能很好地指导实践。很多专业性学院都聘请一些实践经验丰富的师傅就反映了这类学科的实践性。
第二,文理基础学科的分类与特点。对于文理基础学科,从研究对象及研究方法角度考察,可以进一步分为人文基础学科、科学基础学科、社会科学基础学科。人文基础学科包括文史哲等学科,科学基础学科包括数理化生等学科,社会科学基础学科包括经济学等学科。综合实践性学科可以进一步分为社会综合实践学科与科学综合实践学科。社会综合实践学科包括管理学、法学、教育学等学科,科学综合实践学科包括工学、医学、农学等学科。
文理基础学科的共同特点之一就是逻辑性强。从这一角度看,最完美的学科就是数学,数学的最重要的特性就是其严密性,庞大的数学体系没有任何矛盾。而保证其严密性的基础就是数学的逻辑性。在数学的知识体系中没有其他学科那么多的争辨,只有对错之分。而同样强调逻辑的哲学等人文基础学科为什么充满争议呢?很重要的原因就是数学总是从最简单的共识出发,在最简单共识的基础上通过复杂而严密的逻辑编织出数学知识体系。而哲学等人文学科往往从一个有争议的复杂的概念开始,尽管过程也尽可能严密,但由于基础上的复杂与争议,往往形成具有争议甚至是相互矛盾的知识体系。
其实,从逻辑角度看,人类还没有真正解决求真的问题。因为归纳推理在从特殊到一般的过程中,永远不能保证下一个出现的不是黑天鹅,而演绎推理在一般到特殊的过程中,则依赖前提条件的正确。科学得到人们认可的原因是科学实现了重复与控制,获得了人们的认可。也许其在逻辑上还有瑕疵,但科学可以制造出新材料,可以把火箭送上天,使人们相信其为真。人文学科不具有科学上能够重复与控制的优势,但其给人们的生活提供了意义与理解,同样获得了人们的认可。正像《人类简史》所描述的,如果没有文化,人类社会不可能形成这么大规模的群体行动。
第三,综合实践学科的分类与特点。与文理基础学科相比,综合实践学科知识形态可能更为多样。综合实践学科的知识体系往往与社会实践活动的需求密切相关,往往是实践需要什么,这类学科就要回应实践的需要。综合实践学科可以进一步分为科学综合实践学科与社会综合实践学科。科学综合实践学科运用科学基础学科的知识,解决人类改造物质世界实践中问题,为人类服务。以工学为例,工学的各个专业往往都要学数理化等科学基础学科,并将这些科学基础学科的知识用于解决实践中的问题,并形成自身的知识体系。也是基于此,人们往往说基础理学是认识世界,而工学是改造世界。从这个角度看,科学与技术是不同的。科学指的是通过观察、实验、仿真和分析去研究大自然中各种事物和现象并探求其规律的学科,目的是认知世界。技术是解决各种问题的手段、形式、方法及过程的集成,它在现有事物基础上产生新事物,或者改变现有事物的性质和功用,目的是为人类服务。从经济角度看,科学与技术也是不同的,科学更像是一个公共品,有了科学发现后,往往要公开发表,与全社会分享;而技术更像是一个私人产品,发明一项技术后,往往要申请专利,要有知识产权保护。
社会综合实践学科的一个特点就是其综合性。综合运用人文基础学科、科学基础学科、社会科学基础学科的知识,解决人类社会实践中的问题。除了其知识基础更为综合更为广泛外,另一个特点就是实践性。实践经验成为这类学科知识的重要组成部分。企业家的经营理念与经验,校长的办学理念与经验,都是这类学科知识的重要组成部分。这些理念与经验也许逻辑不够严密,体系也不一定完整,但往往在实践中有效。
(二)作为综合实践学科的教育学与教育量化研究
关于教育学科的属性与特点学界有大量的研究,这些研究大多在哲学思辨的层次上探讨教育学的学科边界、教育学的独立性、教育学的科学与人文的研究范式等问题,这些探讨推进了对教育学的学科特点、研究范式的理解。不过,笔者不想在哲学层面去探讨这一问题,而是像上面分类一样,在比较具象的层面看待这一问题。因为不论用多么抽象的概念探讨教育学科的属性与特点,从具象层面看,教育学各个学科的知识形态仍然是上述划分的基础学科与综合实践学科知识。教育学也不用更多地为自己的独特性辩论,因为每一个学科都是不同的,除了其知识形态的不同,最重要的是每个学科所回答的问题都是不同的。教育学与其他学科最大的不同之处在于教育问题的独特性。
基于这样的理解,依据上述的学科分类,笔者认为,教育学属于社会综合实践学科,其知识建构的原动力来自于教育实践问题。由于教育问题的复杂性,教育学建构的知识既有人文基础学科形态,社会科学基础学科形态,也有科学基础学科形态。教育学的知识也包括了教育实践的经验与操作方法等实践性的知识。
作为综合性的学科,教育学既具有人文性,又具有科学性,还具有社会科学性。教育学的二级学科既有人文属性的教育哲学、教育史、教学论等学科,也有科学属性的教育技术学、脑科学与学习等学科,还有社会科学属性的教育经济学、教育心理学等学科。
作为实践性的学科,教育学在认识教育规律的基础上,必须对教育实践的问题做出回应,可以说教育实践有哪些问题需要回答,教育学科的知识就必须延伸到哪里。教育实践的复杂性决定了教育学科的多样性。教育学研究的问题既有教育科学规律的认识,也有教育价值与意义的阐释;既有对基础理论的探寻,也有实践方案的构建。
由于教育实践的复杂性,教育量化研究作为科学取向的研究范式必然是教育研究的重要组成部分。许多教育学问题具有自然科学属性,比如大脑的学习机制。许多教育学问题具有社会科学属性,比如学生数学能力的测量、教育资源使用效率的计量。当人们需要对教育问题做更为精确的测量时,就离不开量化研究。
近年来,教育量化研究越来越受到教育学界的重视。华东师范大学教育学部连续多年举办了教育实证研究论坛,很多学者也对教育实证研究的理论基础做了深入的探讨。不过,教育量化研究总体上在教育研究中所占比例还是比较低的,需要进一步加强(范涌峰,宋乃庆, 2016,第94页)。
在教育学的二级学科中,像教育经济学、教育心理学、教育测量学、教育与脑科学等学科受所交叉的基础学科的影响,量化研究一直占主导地位,量化研究方法在这些学科得到非常好的发展,取得了一些具有重大影响的研究成果。像OECD主持的PISA测试,在国际上产生了非常大的影响,为各国的教育决策提供了坚实的证据。受这些科学取向学科的影响,也基于自身研究的需要,越来越多的教育学科开始重视和采用量化研究方法。
(三)教育量化研究的特点
量化研究越来越受到重视是与其自身的特点密切相关的,教育量化研究一般具有以下几个特点:
第一,量化研究能够将抽象问题具象化。进行学术研究必须借助于规范的概念范畴。要想把所研究的问题描述清楚准确,必须通过一套规范的概念范畴。不过在很多研究中使用的概念看似定义明确,但实际上却经不住推敲。比如,关于农村教育的概念,人们似乎都能理解什么是农村教育,但实际上如果将其具象化,却发现它是一个定义不是很清楚的概念。如果以地域的概念理解,只能是城镇以外地区的教育。如果这样的话,农村教育可能只是指城镇以外地区的小学和教学点。如果以户籍为标准,由于县城的初中与高中有很多学生是农村户口,农村教育就需要包括县城的中小学。如果以行政区划为标准,一般认为县域以下都是农村。如果以就业的产业为标准,那些从事非农产业家庭的孩子就不能算作是农村孩子。当我们想通过具象的指标将农村教育操作化准确地定义出来时,发现其实对农村教育的定义并没有厘清。从这一角度看,一个好的概念一定是通过多次的抽象到具象,再从具象到抽象的过程才能获得。
第二,量化研究能够将定性描述精确化。对于问题的准确把握在很多情形下仅仅有定性的描述是满足不了研究的需求的,还需要对所研究的问题给出更定量化更精确的描述。比如教育投入问题。保障教育投入非常重要,对于这一点的认识是有共识的,但由于资源是有限的,到底应该把国民收入的多大比例用于教育却必须有一个量化的答案。我们国家目前实行的财政性经费占GDP的比例不低于4%的政策,就是参考了国际上一定人均GDP的条件下平均投入水平的测算。
第三,量化研究能够将陈述命题严密化。量化研究一般借助数学方法,通过实验设计,具有陈述命题严密、研究结论可重复检验的特点。对于这一点,姚洋在探讨经济学科学性时曾经做了很好的比较。“好的经济学家一定是先有了一个故事,然后才试图用数学模型去证明它。为什么一定要用数学模型呢?因为自然语言是有漏洞的,许多看似完备的论证实际上包含了一些暗含的假设或较大的逻辑跨越。数学是一门严谨的语言——至少在它的公理前提下如此;只要假设条件是可以接受的,数学的严谨逻辑就足以保证结论的可靠性。” (姚洋,2006,第144页)教育学知识积累性差,除了教育问题本身随着时代不断变化等原因外,教育学知识的严密性是影响其积累性的一个很重要的原因。通过量化研究,推动更严密的知识表述对教育学知识的积累将大有裨益。
综合考虑到知识的严密性与教育学的实践性,对于高质量教育研究的评价首先应该区分基础研究与应用研究。基础研究的评价应该是过程导向,以逻辑的严密性作为优先的标准。应用型研究应该是结果导向,以有效性作为优先的标准。从这样的标准看当前的教育研究,确实存在着许多问题。我们有些研究应该更类似于个人感想的随笔,有一些灵光闪现,但缺乏严格的逻辑,也缺乏解决问题的可操作的方案。从教育知识的积累角度看,我们需要教育研究建立在更为严密的逻辑基础上,能经得住推敲,具备知识积累的价值。只有我们积累越来越多的可信的教育知识,教育知识才能在应用研究中发挥越来越大的作用。
作为社会综合实践学科的教育学科,由于知识形态的多样性与实践性,提升教育研究质量的评价标准就会是多元的。但多元不意味着模糊,每一类教育研究都应该依据自身知识形态特点,明确自己研究质量的标准。教育量化研究也不例外。随着教育量化研究的应用越来越广泛,提升教育量化研究质量就成了一个不能回避的问题。
二、教育量化研究存在的问题及对经济学的借鉴
随着教育量化研究方法的广泛应用,提高教育量化研究质量的迫切性也越来越强。现在发问卷、采数据、做模型成为许多研究采取的标准的程序。应该说从程序上看,这样做是对的,问题是如何保证质量。通过问卷收集的数据可靠吗?数据具有代表性吗?模型设定中自变量、因变量的关系有相应的理论支撑吗?统计推断的逻辑是什么?误差的范围是多大?这些基本问题似乎经常被忽略。忽略这些基本问题的结果是量化研究的最大优势不见了。量化研究受基础学科的科学研究与社会科学研究影响,其最大的优势就是其严谨与求真。当我们数据的可靠性无法保证、当我们变量设定缺乏理论支撑、当我们统计推断没有严密的逻辑时,形式上的程序再漂亮,都已经偏离了量化研究的最重要的基础与优势。笔者主要从事教育经济学的研究与教学,经济学的量化研究在社会科学中处于领先地位,在其发展过程中也遇到过与我们量化研究类似的问题,经济学对这些问题的讨论可能对教育量化研究有一定的启示。
实际上,在20世纪八十年代,就有经济学者指出经济学的实证研究结果难以取信于人。从那时起,经济学在量化研究方面出现了一些新的思路与方法,比较好地解决了经济学实证研究可信性的问题。经济学解决这些问题的策略对于改进教育量化研究也许会很有启发。有学者将经济学改进实证研究质量的策略分为三类,即基于设计的实验主义方法、基于经济模型的结构主义方法、基于稳健性的经济计量方法。
(一)基于设计的实验主义方法给经济学带来了更为可信的因果推断研究
基于设计的实验主义认为只有通过对随机分配的实验组与对照组实验前后的比较,才能获得变量间是否为因果关系的结论。过去量化研究进行回归分析时,由于一些关键假设没有满足,使回归分析的结论存在偏误。比较典型的研究是使用现实中的管理数据分析班级规模对学生学业成绩的影响,由于家长、教师和学校对学生分配到哪些学校、哪个班级可以发挥影响,因此使用这样的数据进行分析,会产生严重的内生性偏误。传统的通过增加控制变量的方法,可以从一定程度上降低估计的误差,但无法解决估计的偏误问题。而随机实验通过随机分配实验组与对照组的方式,解决了回归分析估计偏误问题。随机实验方法现在已成为经济学最为重要的实证方法。不过在实际的研究中,由于随机实验要求的条件比较高,很多情况下人们通过在管理数据中寻找随机变化的方式开展准实验研究,从中得到因果关系的结论。计量经济学的最新发展几乎都是围绕准实验计量方法展开的。
(二)基于模型的结构主义方法给经济学带来了理论的严密性
基于模型的结构主义方法认为实验方法尽管可以回答变量间的因果关系,但其主要还是基于可以测量的结果的判断,却很难对产生结果的机制做出解释。从经济学家的角度看,实验主义不是根植于经济理论,更多的是观察的归纳。为了更好地揭示因果关系产生的机制,必须从经济理论的推理中来获得对原因与机制的实证。基于模型的结构主义方法主要通过经济理论的数学模型推导获得严密的机制理论,再通过实证加以验证。在这里,数学对经济理论的严密性发挥了重要作用。对于这类经济理论的验证除了传统的回归模型外,还越来越多地采取模拟计算的方法。模拟计算的方法可以更好地按理论模型的需要进行验证,在一定程度上解决实验数据缺乏的困难。
(三)基于稳健性的经济计量方法给经济学带来了统计推断的逻辑
基于稳健性的经济计量方法也像实验主义方法一样,是为了回应传统回归模型估计上存在的问题。通过有限的样本推断总体情况的统计方法最为关键的是对变异与偏差的控制。最好的估计是偏差小,变异也小的估计。抽样的分布是我们通过样本推断总体的桥梁,有了抽样分布我们才能在一定的置信度与误差范围内对总体做出推断。为提高经济计量方法的可靠性,必须严谨地把握统计推断的逻辑。对计量模型的稳健性检验检验再检验,是提高经济计量方法可靠性的重要保障。对于统计方法的合理使用,美国统计学会在回应对P值的错误理解时强调,“好的统计实践,作为好的科学实践的基本成分,强调好的研究设计与实施原则,数据的多种数值和图形概括、理解所研究的现象、结构的全面和完整的报告,以及正确的逻辑和定量地理解数据概括意味着什么。没有任何单一的指标可以取代科学推理。” (Wasserstein, 2016, p.549) 可见,更好地把握统计方法的逻辑,科学合理地使用统计方法,提高统计方法的稳健性,是提高量化研究质量的重要方面。
从上述三类方法看,经济学回应量化研究质量问题是从实验的可检验性与科学性、经济理论的逻辑严密性,以及解决计量推断的合理性三个方面推进的,这些思路对于提升教育量化研究质量也是适用的。
三、提高教育量化研究质量的策略
经济学及美国统计学会对于提高定量研究与统计方法质量的策略,对教育学科提升量化研究的质量具有重要的借鉴意义。但从量化研究的角度看,教育学科与经济学科还是有较大的差异。一是教育研究的对象更复杂,教育研究的测量技术更复杂;而经济研究测量相对简单,对测量技术的关注较少。二是教育理论研究并没有像经济理论一样走上数学化的道路,这也决定了教育量化研究质量提升可能无法像经济学的结构主义方法一样,通过数学推理来保障其理论的严谨性。但这并不意味着教育量化研究质量提升不需要理论的支撑,恰恰相反,正像美国统计学会的声明一样,全面的报告和科学推理是保证量化研究质量的根本,教育量化研究离不开教育理论的支撑。
(一)提高教育测量的信度与效度是提升教育量化研究质量的首要环节
测量是量化研究最重要的环节之一,科学的进步往往是与测量工具的进步密切相关的,测量工具从某种意义上决定着科学的认识水平。曾经有人以一片叶子为例,用不同的测量尺度进行观察,呈现出令人惊奇的视觉体验。从10的0次方开始(也就是1米), 然后每次按照10的乘方增加。从10米, 100 米, 1000米,以此类推, 到109也就是1000万公里,看到的是浩瀚宇宙中的一个蓝色地球,到1023看到的是浩瀚宇宙中点缀的星系。朝一个相反的方向,以10的乘方减少,到10-4也就是10微米,看到了细胞内部的结构。到10-16也就是十分之一飞米,看到了微观世界的极限夸克。测量工具的进步从某种角度看,决定了人类对宏观世界与微观世界的认识。在一定意义上讲,测量能力决定了科学的边界或是极限。
教育研究由于对象的复杂性,在测量方法与技术上与自然科学存在较大的差异。自然科学的测量主要依赖各类测量仪器,教育研究的测量主要通过量表与问卷。最典型的量表是心理学测量智商、人格等的量表。这些量表依据系统的理论,经过长时间试验,形成了标准化的测试程序与方法,具有较高的信度和效度。最典型的问卷是人口与就业调查问卷。美国20世纪30年代因为急于寻找走出经济危机的对策,开始使用抽样的方式调查经济与就业情况,使抽样调查开始越来越广泛地被采用。一个好的问卷设计一定是基于对所研究问题的深刻理解,经过反复的校正才能逐步形成。不过,问卷调查测量的质量严重依赖于应答者的配合,这在一定程度上影响了问卷的信度与效度。
教育测量中得到比较广泛认可的测试是各类标准化测验,像以托福、雅思为代表的各类语言测试已经做到了不同时间的测试可以等值比较的程度。以PISA为代表的各类学生能力测试也是获得广泛认可的、信度与效度都比较高的教育测量。这些测量依据项目反应理论等教育测量理论,将教育测量看作是一种随机现象,运用数理统计的方法,对所测量的对象做出最“真实”的估计。正像统计学的先驱皮尔逊在论述统计如何变革了科学时指出的:“这些观测到的现象只是一种随机的映像,是不真实的,所谓的真实是概率分布。” (萨尔斯伯格,2004,第16页)
从国内目前教育量化研究的情况看,对测量技术的使用还不十分广泛,教育量化研究数据质量差、信度效度低的问题十分突出。解决这一问题可以从以下几个方面着手:一是凝练问题,长期持续。一个好的测量工具的开发需要长时间的反复试验与积累,这就需要研究问题的相对稳定,而不是今天想研究,明天就编出问卷来这样的操作方式。二是慎重选择,合理使用测量工具与方法。问卷调查方法由于受应答者的影响特别大,可能更适合一些简单明了的问题,对一些复杂以及与应答者自身利益相关的问题可能很难得到客观的数据。一些深入细致的问题可能更适合实验研究的方法。三是加强测量技术的推广,推出更多信度效度高的教育测量结果。
(二)提供抽样的科学性与统计推断的逻辑性是提升教育量化研究效度的核心
教育量化研究本质上是将教育测量的结果看作是随机的,通过有限的样本推断总体的情况。皮尔逊曾指出:“人们从一个实验中真正得到的是散乱的数据,其中没有一个单个数据是确切的,但所有这些数据可以用来对确切值进行近似的估计。”“单个实验的结果是随机的,在这个意义上看它们是不可预测的,然而,分布的统计模型却是我们能够描述这种随机的数学性质。” (萨尔斯伯格,2004,第14页)
对于教育量化研究,抽样是特别重要的一个环节。只有样本具有代表性,才能对总体做出更好的估计。但是由于抽样的随机性,每次抽样获得的样本一定是不同的。为了对总体做出逻辑严密的推断,必须借助于抽样的分布。设想我们可以按照同样的抽样方法,重复进行无数次的抽样,每次抽样样本的均值的分布一定服从正态分布,借助于样本均值的抽样分布,构造联系样本统计量与总体参数的关系的估计方法与原则,就可以对总体的均值做出推断。
简单随机抽样是最基础也是最理想化的抽样方法,它要求总体中每个个体被抽中的概率相等。随机性对于统计推断是极其重要的前提,如果不满足随机性的要求,许多统计推断与模型就会出现严重的偏误。但在现实的抽样调查中,由于很难实现随机控制,往往依据便利原则进行抽样,调查过程中还会有大量的不应答等问题,这些问题都大大增大了抽样调查的难度。有些研究对于这类调查数据没有做适当的处理而直接用来对总体进行估计,会导致严重的估计偏误。
为了解决教育量化研究中统计推断无法满足随机性的问题,近些年来国际上特别强调通过随机实验或准实验的方法保证统计推断的科学性,进而获得教育干预与教育结果之间真正因果关系的证据。标准的随机实验一般需要满足三个条件:一是比较实验组和控制组在实验后的差别;二是实验对象随机地分配到控制组和实验组;三是研究者对实验组和控制组给予不同的实验处理。满足这三个条件,实验组与控制组实验后的差别就是实验干预与实验结果之间的因果关系。
准实验研究则是在自然条件下,通过寻找数据中外生随机的变异,来满足或近似地满足随机性的要求,进而获得因果关系的证据。常用的方法包括多重差分、断点回归、倾向匹配得分、工具变量等。准实验的方法存在的问题是研究问题受到很大局限,只能被动地在现有数据中寻找外生随机的变异。
判断一个量化研究的质量最重要的是看两个方面,即研究的外部效度与内部效度。抽样的科学性是研究外部效度的基础。评价一项量化研究首先要看其数据来源,如果是抽样调查,则必须关注抽样的总体是否界定清楚、有没有清晰的抽样框架与方法、样本容量有多大、估计误差的情况如何等问题。只有把握清楚这些方面,才能说清楚从样本推断的结论可以在什么样的范围内有效,也就是研究的外部效度。统计推断的逻辑性则与研究的内部效度关系更为密切。因变量、自变量与误差项的逻辑关系,以及差异变动的随机性是保证量化研究内部效度的必要条件。
(三)加强理论分析对量化研究的支撑是提升教育量化研究质量的基础条件
正像美国统计协会对P值错误理解的声明所强调的,好的统计实践不仅需要统计方法的逻辑严密,还需要完整的设计及全面的科学推理。全面的科学推理的另一种表达其实就是理论的逻辑。有了理论的支撑,模型设定的变量之间关系及相互的作用机制会更清晰,研究结果将建立在统计与理论双重逻辑的支撑之上,可信度会大幅度提高。对于这一点,理查德·莫内指出:“理论在社会科学和教育的经验研究中发挥着重要作用,它对研究问题的提出、关键概念的测量和概念之间关系的假设等方面提供指导。例如,人力资本理论的一个核心观点在于,在做出是否继续接受教育的决策时,个人需要比较收益和成本。这一框架引导研究者关注额外接受教育包含哪些收益和成本、如何测量不同个体或不同时间上这些收益和成本的差异和变化。此外,理论也对关系方向的假设做出了提示。例如,该理论指出,如果大学毕业生和高中毕业生之间的相对工资收入下降,那么高中毕业生决定就读大学的比例也会随之降低。” (Murnane, Willett, 2010, p.20)
经济学提升量化研究质量的结构主义策略实际上也是强调理论的作用,试图通过理论的分析提升经济学量化研究结果的可信性。只不过经济学走的是类似于物理学的思路,通过经济理论的数学化表达,提升经济理论的严密性。不过,对于教育量化研究来说,可能与经济理论的取向有所不同。“正是由于不同行动者对教育同时产生影响,且他们的相互作用非常复杂,使得构建一个简洁、有力的理论来说明特定教育政策的影响效应非常困难。与之形成鲜明对比的是——物理学,这是一个具有很强理论性的领域,该学科用数学语言来表示一般的规律,同时,这些规律背后的假设能够被清晰定义和验证。然而,在思考社会科学和教育领域中的理论时,记住物理学不过是特例而非准则,这一点很重要。事实上,在大多数科学领域中,理论普遍以文字而不是数学的形式表达,而且一般规律也不像物理学那样能够得到清晰的定义。提到这一点是要鼓励研究者广泛地定义理论,那么,理论则可以更加全面地描述有待评价的政策干预及其可能产生的影响效应以及干预产生影响机制。这样的描述很少用数学语言来表达,实际上也不需要。重要的是清晰的思考,它的形成需要深入了解相关领域的已有研究。”(Murnane, Willett, 2010, p.20)
这里需要特别强调的一点是,有些量化研究过于注重方法的漂亮及形式的优美,但却忽略了研究问题的重要性,有点舍本逐末的感觉,为方法而方法,忘记了研究的问题才是最重要的。如果研究的问题没有意义,再复杂的方法都会失去存在的意义。好的研究,无论是实证研究,还是思辨研究,新思想、新观点都是研究的灵魂。在这一点上,姚洋的观点值得我们借鉴:“村上春树的语言很平实,但他的每部小说都给读者构建了一个奇幻的世界,并把读者一步步引入其中,让人流连忘返。好的经济学论文也引人入胜,不同的是,小说以故事取胜,而经济学以思想取胜。思想改变世界,经济学家应该以产生思想为满足。” (姚洋, 2006,第148页) 教育量化研究在重视方法与技术的同时,必须有新思想与新观点,否则就会陷入为方法而方法的陷阱。
(四)信息技术为教育量化研究质量的提升创造新的条件
以人工智能、物联网、3D打印等为代表的新技术正在推动第四次产业革命,人工智能、大数据、云计算等信息技术正在改变人类生活的各个方面。有研究预测,模拟人脑进行推理、决策与知识学习的、具备认知智能的机器人替代人的比率可能达到60%。如果在大数据的支持下,通过雷达、红外、力觉和触觉传感器、移动互联网、深度学习等模拟人类分类与理解、感官通路等能力,感知智能将在某些行业替代人类。从这样的视角看,信息技术将对教育的需求产生重大的影响。当然,在教育过程中,信息技术也将改变学习、教学与学校。不过,本文更关注的是信息技术对教育量化研究的影响,笔者认为最为重要的影响可能主要体现在三个方面:
第一,信息技术为教育量化研究提供了大量的真实数据。制约教育量化研究发展的一个很重要的方面就是研究数据的缺乏。许多重要的教育问题无法深入开展量化研究,缺乏数据是其中一个很大的原因。随着信息技术在社会生活中的广泛应用,互联网记录了大量的人类行为的数据,对于整个社会的运行都产生了难以估计的影响。人们基于互联网及移动互联网的学习活动越来越多,学校的信息化程度越来越高,互联网积累了大量的学生学习及学校管理的数据,这些数据的有效利用将会为教育量化研究提供更为丰富的数据。同时,有些互联网实时记录的数据比传统的问卷等方式收集的数据可能更真实,这为教育量化研究提供了更为坚实的基础。
第二,信息技术带来了新的量化研究设计思路。互联网在丰富教育研究数据的同时,也会影响教育量化研究的设计。目前的教育量化研究主要是通过基于随机分组的实验,获得对相关变量因果关系的推断,通过样本统计量推断总体参数是目前量化研究的主要取向。但互联网提供的大数据可能具有不同的特点,它可能不具有代表性,不适合于以随机性为前提的因果推断。互联网大数据可能更适合于以下两类研究:一是对某一类教育活动的规模及其变动趋势的分析;二是对于个体学习活动的分析。
互联网大数据比较适合对某一类教育活动的规模及其变动的估计。比如,有研究使用移动互联网的数据,根据在某一城市在一定时间内连续使用移动互联网的数据,估计这一城市实际的常驻人口数据,得到了比以往各类登记数据更为准确的常驻人口数据。同样的思路应用于教育,也会对一些教育活动的规模及其变动做出准确的估计。
第三,信息技术能够建立行为模拟与预测模型。互联网大数据比较适合对个体学习活动进行分析。互联网大数据一个重要的特点是可以实现对某一个个体的长时间跟踪与记录。我们经常会发现,我们的手机或电脑会给我们推送一些我们喜欢的信息。为什么手机与电脑会推送我们喜欢的信息呢?因为我们上网时的信息被网络平台后台的大数据所分析,对我们的偏好有了预测。网上学习实际上有异曲同工之妙。网络平台记录了学习者学习过程与学习结果的信息,能够更好地分析判断学习者学习的情况与学习效果,从而设计出更为适合学习者的学习内容。随着程序算法的不断发展,越来越智能化的信息技术会对个体的学习行为做出越来越准确的分析与预测,为智能化个性化教育的发展提供广阔的空间。
不过,如果我们希望获得客观的结论,仍然必须遵循量化研究质量提升的逻辑,从测量的信度效度,到抽样的科学与统计推断逻辑的严密,以及理论分析对整个研究设计的支撑,都是必不可少的。从这一角度看,信息技术改变的更多的是量化研究的基础设施条件,对量化研究本身的逻辑没有根本性的影响。
总之,教育学作为综合实践性的学科,研究范式的多元及知识形态的多样是其固有的特点。但多元不意味着模糊或没有标准,不同类型的研究都要明确高质量的标准。教育量化研究作为教育研究的最重要的范式之一,不断明确高质量量化研究的标准,对于教育量化研究质量的提升将大有裨益。
(致谢:本文是在华东师范大学召开的“信息技术时代的教育学理论重建”会议发言基础上整理成文的,感谢李政涛教授的邀请及提出问题,使我有机会把一些思考整理出来,不是特别成熟,仅供各位同仁参考。)
参考文献
杜育红,袁玉芝.(2017). 高等学校资源配置的逻辑与内涵发展. 教育与经济,(3),3-8.
范涌峰,宋乃庆.(2016). 教育研究科学化:限度与突破. 教育研究, (1), 94-101.
萨尔斯伯格.(2004). 女士品茶——20世纪统计怎样变革了科学 (邱东等译). 北京:中国统计出版社.
姚洋.(2006). 经济学的科学主义谬误. 读书, (12), 144-149.
赵洪春.(2013).经济学实证研究路在何方. 经济资料译从,(2), 80-87.
Murnane,R.J., Willett,J.B.(2010). Methods Matter. Oxford: Oxford University Press.
Wasserstein, R.L.(2016). ASA关于统计意义和P-值的声明(方积乾译). 中国卫生统计, (3), 549-552.
本刊声明
一、本刊对所有来稿不收取任何费用,也未委托任何机构或个人代为组稿。
二、本刊严禁一稿多投,如因作者一稿多投给本刊造成损失的,本刊保留追究作者法律责任的权利。
三、作者投稿请登陆华东师范大学学报期刊社官方网站(www.xb.ecnu.edu.cn)。
四、本刊联系电话:021-62233761;021-62232305。
华东师范大学学报期刊社
华东师范大学学报期刊社
微信矩阵
华东师大学报
哲学社会科学版
华东师大学报
自然科学版
华东师大学报
教育科学版
点击「阅读原文」访问华东师范大学学报教育科学版官网