王传毅 杨力苈 杨佳乐 | 德国大学“卓越计划”实施成效评价:基于PSM-DID方法
DOI:10.16298/j.cnki.1004-3667.2020.01.02
摘要
通过倾向值匹配法(PSM)和双重差分法(DID),从知识生产的视角对德国大学“卓越计划”实施成效进行评价。研究发现,虽然入选高校的学术发表数量、质量以及国际合作发表在建设周期内取得了显著进步,但进步幅度较之于没有入选“卓越计划”的高校并不明显。这表明德国“卓越计划”在提高德国大学科研表现上的效果并不显著。我国“双一流”建设成效评价可考虑在科学研究维度的若干可比领域运用PSM-DID的方法开展政策效应评估。
关键词
德国“卓越计划”;重点建设政策;成效评价
一、引言
2015年10月,国务院印发了《统筹推进世界一流大学和一流学科建设总体方案》(下文简称“双一流”建设方案),旨在通过重点建设,加快高等教育治理体系和治理能力现代化,提高高等学校人才培养、科学研究、社会服务和文化传承创新水平,实现“到本世纪中叶,一流大学和一流学科的数量和实力进入世界前列,基本建成高等教育强国”的目标。“双一流”建设方案的出台吹响了新时期我国建设世界一流大学的号角。需要看到的是,重点建设政策并非我国独有。世界主要发达国家都将重点建设一批世界一流大学作为提升国家高等教育及科技核心竞争力的重要组成部分,并制定了相应的战略规划。据不完全统计,全世界已有30多个国家正在实施世界一流大学建设计划,涉及两千多个机构。如德国“卓越计划”、法国“卓越大学计划”、俄罗斯“5—100计划”、澳大利亚“G8联盟”、日本“全球COE项目”、韩国“BK21-PLUS计划”、印度“卓越潜力大学计划”“创新大学计划”等。
其中,与我国“双一流”建设方案类似的是德国“卓越计划”。其诞生具有鲜明的历史背景。19世纪初,洪堡建立柏林大学后,德国大学成为各国学习的榜样,“洪堡原则”也成为大学办学的“金科玉律”。然而,随着时代发展,在近几十年来各国建设世界一流大学的浪潮中,英美大学在各大世界大学排行榜上表现抢眼,吸引着全球的顶尖学者及留学生。反观德国大学,却有衰落式微的趋势,全球排名前50的高校中难觅德国大学踪影,进入排名前100的德国高校也屈指可数。基于此,2004年时任德国教育部部长布尔曼提出,要打造若干所“日耳曼的常春藤”,以提升德国大学在全球高等教育体系中的地位,培养世界一流的精英人才,重塑德国大学辉煌。2005年,德国“卓越计划”诞生。
第一期和第二期“卓越计划”的目标是通过增加政府对于优质科研机构活动经费的资助,使得德国大学与研究机构能够提升自身的研究能力和学术水平,进而增强德国大学在国际研究领域内的知名度和竞争力。具体表现在三个方面:第一,通过资助博士生院、构建结构化的博士生培养模式,提升以博士生为代表的青年后备研究人员的实力;第二,以资助卓越研究集群的方式,推动德国各大学之间、与国际顶尖大学以及与工业界之间的科研合作;第三,通过“卓越大学”子计划“未来构想”,资助德国部分顶尖大学,尤其是这些大学的优势学科,以提升德国大学的国际竞争力。由上不难看出,以制度创新着力提高德国大学的科研实力是德国“卓越计划”核心。在以大学整体为目标的“未来构想”中,“卓越计划”实行分期执行、动态调整,一期(2005—2012年)遴选了9所大学进行重点建设支持,二期(2012—2017年)遴选了11所大学进行重点建设支持,目前已启动第三期建设计划。
两期建设结束后,为德国政府、公众及相关研究者关注的是,德国“卓越计划”在建设周期末究竟取得了怎样的成绩,政府投入重金扶持的“排头兵”是否圆满地完成了建设任务?学者们提出了不同的看法。第一个观点是,科研所带来的“卓越”是对德国高等教育传统的否定,对德国高等教育一直遵循的“平等”传统带来冲击。“卓越计划”之前,德国高等教育体系是“一眼望去的高原”,相对均衡,而各校特色鲜明;“卓越计划”之后,造出几座高峰,但大学之间的恶性竞争加剧,破坏了德国大学体系的平衡,削弱德国高等教育的整体竞争力,使之在一个在更长的时域内缺乏可持续发展能力。第二个观点是,对科研的重视显著削弱了大学的教学功能。重视教学是自柏林大学成立以来德国大学的一项重要特点。然而“卓越计划”对于科研的过度重视削弱了大学及大学教师对教学的投入,进而影响大学的教学质量。第三个观点是,“卓越计划”对促进德国大学的“科研卓越”起到了显著作用。“卓越计划”已经实现了其“雄心壮志”,显著提升了入选大学的科研表现,特别是在医学领域。同时,建设周期后,科研集群之间的科研合作显著增强,论文合著网的规模和密度都显著增加。在一篇以“追求大学科研卓越——德国‘卓越计划’的实施效果与未来发展”为题的论文中,作者认为“卓越计划”为德国大学注入科研活力,提高科研论文的发表数量,同时显著地提升了德国大学的国际排名。
然而,随着科学知识在深度和广度上的不断提升,全球科研论文总量增加、被引频次增加是一个自然发展的过程,现有指标数值的提升并不意味着德国在全球科研竞争体系中处于更加有利位置。同时,也必须看到,科研产出的提升是德国大学的普遍性表现,只是增量有高有低。而“卓越计划”作为一项有明确目标指向的激励性工具,应着眼于考察入选“卓越计划”的大学是否相较于科研水平接近、但没有入选“卓越计划”的大学取得了更加突出的成绩。我国“双一流”建设成效的评价也面临着类似问题,即相较于第一轮没有进入建设范围的高校而言,进入建设范围的高校是否取得了与资助力度相匹配的突出成就?为此,本研究将运用PSM-DID的政策评估方法,考察德国“卓越计划”中“未来构想”对德国大学整体的建设成效,以期为我国开展“双一流”建设成效评价提供参考。
二、PSM-DID的政策评价方法
DID是一种自然实验方法,其逻辑起点是反事实分析,即设定与事实相反的条件,以此讨论因果关联,它包括两方面的含义:其一,某一事件在历史上发生过,但假定该事件没有发生,分析其对相关因素的影响;其二,某一事件在历史上没有发生过,但假定该事件发生,分析其对相关因素的影响。
为此,自然实验的评价方法往往需要一个来自外部的、不受人为控制的事件的发生,使得研究对象被随机分成实验组和对照组。该事件称为干预(Intervention),把受到干预影响的群体称为实验组(Treated Group),把没有受到干预影响的群体称为对照组(Reference Group),并运用双重差分法(Difference in Difference, DID)估计实验组和对照组的差异程度。在政策研究领域,运用自然实验的方法开展政策成效评价的研究并不鲜见。如一项针对中国西北地区农村居民向城市迁移对其子女学业成绩影响的研究,利用DID的方法发现,父母由农村向城市的迁移对学生英语学习成绩有显著正向的影响,且对低年级学生的影响作用更大;一项针对美国“学费保障计划”对州高等教育拨款影响的研究,利用DID的方法发现,该法案使得大学需要负担的费用显著增加,导致学费显著增加,但并未带来州外学生数量的增加;一项针对挪威大学创新绩效的研究,利用DID的方法发现,在挪威推行专利权改革后,研究人员的创业率及专利申请率下降了50%,大学创业公司的专利申请也有所下降。也有尝试运用DID方法对我国“211工程”和“985工程”实施成效进行评价的研究,虽然在指标选取、部分结论以及基本假定的检验上有值得商榷之处,但总体来看,基于自然实验的设计来评价重点建设政策效应的研究范式已现雏形。
率)的差异和干预带来的差异之和共同构成,可观测、但不可拆分。在现实政策环境中,这种情况并不乏见,例如在中国所实施的重点建设政策中,进入“985工程”的高校大多在发展基础和发展速度上均优于未入选的高校,DID的平行趋势假定难以满足。
在此情况下,准实验方法中的倾向值匹配法(Propensity Score Matching, PSM)则提供了一个折中的解决方案。它以配对的方式对实验组和对照组的样本进行处理,即按照本研究所关注的若干核心变量,构建一个测量样本是否进入实验组的概率函数,基于每个样本进入实验组的概率进行配对。以重点建设政策为例,入选的高校往往科研水平较高,而未能入选的往往科研水平较弱。因此,以是否入选作为0-1分布的因变量,影响入选的若干核心变量,如学术成果、学术成果的影响等作为自变量,可有效估计出各院校入选的概率大小。将概率接近的院校进行匹配,即可在对照组中选出与实验组最为接近样本。配对后的对照组样本与干预组样本往往满足平行趋势假定,即可通过DID分析直接测度政策干预的效应(▲)。需注意的是,PSM-DID仅关注配对后的样本,故分析时会较DID损失一定的样本信息。
本研究对于德国“卓越计划”的实施成效评价将首先采用DID的评估方法,以考察对入选高校所产生的政策效应;同时,对入选高校和未入选高校进行平行趋势假定的检验;若不满足平行趋势假定,则采用PSM的方法进行匹配,以降低样本中入选高校和未入选高校在初始科研成果上的差异程度;最后,再运用DID的方法评价“卓越计划”的实施成效。
三、德国“卓越计划”实施成效评价结果
(一)指标、数据来源及描述性统计
鉴于德国“卓越计划”的基本目标及其官方评估的主要标准,本研究主要着眼于德国大学知识生产的规模、水平以及国际化程度进行成效评价,所选取的指标有六项:①在核心期刊发表的论文数量(P),核心期刊范围是对SCI/SSCI/A&HCI收录期刊进行再认定,将国际化程度较高、以英文写作且具有较多引证文献作为核心期刊;②标准化后的总被引得分(TNCS),该指标对被引次数进行了标准化处理,剔除了学科领域和发表年份的影响;③标准化后被引频次排名前1%的论文数量(P_top1),该指标充分考虑了学科特质和发表时间,筛选的是同一学科领域、同一发表年度的论文中被引频次排名前1%的论文;④标准化后被引频次排名前5%的论文数量(P_top5),该指标的测算方式与P_top1类似;⑤标准化后被引频次排名前10%的论文数量(P_top10),该指标的测算方式与P_top1类似;⑥国际合作的论文数量(P_int_collab),该指标统计的是2个及2个以上国家合作的论文数量。所有的数据均来源于莱顿大学的世界大学排名数据库。鉴于论文发表在各年份之间存在着一定波动,故本研究采用“卓越计划”实施之初、第一轮结束时以及第二轮结束时的前后4年数据作为其估计值,故2005是指2005年前后4年(2004—2007年);2012年是指2012年前后4年(2011—2014年);2016是指2016年前后4年(2014—2017年)。需要特别说明的是,在第一期“卓越计划”中,第一轮入选高校和第二轮入选高校间隔一年,在本研究中均将其视为同期进入,没有细化区分具体的年份。(见表1)
(二)基于DID的“卓越计划”政策效应估计
本研究采用DID的方法对第一期“卓越计划”的政策效应进行评估,评估结果如下:①在第一个建设周期,德国高校整体在论文的规范化引文得分有显著进步,平均增加563,在国际合作发表上也有显著进步,增加1 120篇论文;②入选第一期“卓越计划”的院校在所有指标的均值上显著高于未入选院校;③在排除院校随时间自然增长的趋势以及入选院校与未入选高校之间的差异程度后,第一期“卓越计划”的政策效应仅仅体现在国际合作发表上,在学术成果发表的数量、质量方面并不显著。以被引次数排名前10%的论文发表为例,在第一期“卓越计划”实施之初,入选院校平均水平(524篇)与未入选院校平均水平(277篇)的差异为247篇,在第一期实施期末,入选院校平均水平(664篇)与未入选院校平均水平(305篇)的差异为359篇,虽然在平均水平上增长了112篇,但相较于院校本身的发表水平而言,其干预效应(112篇)并未通过5%显著性水平的统计检验。(见表2)
同样,本研究采用DID的方法对第二期“卓越计划”的政策效应进行评估,评估结果如下:①在第二个建设周期,德国高校整体仅在国际合作发表上有显著进步,增加了956篇论文;②入选第二期“卓越计划”的院校在所有指标的均值上显著高于未入选的院校;③在排除了院校随时间自然增长的趋势以及入选院校与未入选高校之间的差异程度后,第二期“卓越计划”的政策效应也仅仅体现在国际合作发表上,在学术成果发表的数量、质量方面并不显著。以被引次数排名前5%的论文发表为例,在第二期“卓越计划”实施之初,入选院校平均水平(250篇)与未入选院校平均水平(141篇)的差异为109篇,在第二期实施期末,入选院校平均水平(298篇)与未入选院校平均水平(158篇)的差异为140篇,虽然在平均水平上增长了30篇,但相较于院校本身的发表水平而言,其干预效应(30篇)并未通过5%的显著性水平的统计检验。(见表3)
(三)基于DID估计的平行假定检验
鉴于平行趋势假定在运用DID方法估计政策效应中的重要性,本研究针对两期“卓越计划”中每一组DID回归方程的因变量逐一进行平行趋势假定的检验。检验发现,入选“卓越计划”的高校和未入选高校存在着非常明显的差异,且在随时间发展的过程中,各类因变量的增速也有显著不同。限于篇幅,仅呈现部分检验结果①。图2中可以看出:2005年至2012年“卓越计划”第一期实施的过程中,入选高校在被引频次排名前10%论文和国际合作发表论文的增速和初始水平都显著高于未入选高校,这意味着现有DID分析并不能满足平行趋势假定。故本研究将基于PSM-DID对“卓越计划”的政策效应进行评估。
(四)基于PSM-DID的“卓越计划”政策效应估计
PSM 是将每一个样本高校的多个特征聚合成一个指标,依据聚合结果匹配具有多维特征(协变量)的样本高校。本研究选取的协变量有三:高校在近十年的发文数,被引数以及规范化的引文影响力。数据来源于科睿唯安的incites数据库。本研究使用倾向得分匹配模型的Logit 模型,即:取值为1(入选“卓越计划”)或者0(未入选“卓越计划”)的二分变量作为因变量,计算德国各高校入选“卓越计划”的概率(倾向得分值)。匹配结果显示:入选高校与未入选高校匹配前倾向得分值的核密度函数图存在显著差异,这与平行趋势假定的检验结果是高度一致的。(见图3(左))匹配后,如图3(右)所示,两组高校倾向得分值的核密度函数图接近了许多,这意味着匹配后,样本高校的协变量特征达到近似状态,配对样本之间的差异显著缩小,表明本研究所建PSM模型具有合理性。
本研究采用PSM-DID的方法对第一期“卓越计划”的政策效应进行评估,评估结果如下:①在第一个建设周期,德国高校国际合作发表上有显著进步,增加了1 063篇论文;②入选第一期“卓越计划”的院校在所有指标的均值与匹配后的未入选的院校均值差距有所缩小,但仍显著;③在排除院校随时间自然增长的趋势以及入选院校与未入选高校之间的差异程度后,第一期“卓越计划”的政策效应仅仅体现在国际合作发表上,在学术成果发表的数量、质量方面并不显著。以论文发表数量为例,在第一期“卓越计划”实施之初,入选院校平均水平(4317篇)与未入选院校平均水平(2497篇)的差异为1 820篇,在第一期实施期末,入选院校平均水平(5327篇)与未入选院校平均水平(2867篇)的差异为2460篇,虽然在平均水平上增长了639篇,但相较于入选院校本身的发表水平而言,其干预效应(639篇)并未通过5%的显著性水平的统计检验。(见表4)
同样,本研究采用PSM-DID的方法对第二期“卓越计划”的政策效应进行评估,评估结果如下:①在第二个建设周期,德国高校在各指标上进步均不显著;②入选第二期“卓越计划”的院校在所有指标的均值与匹配后的未入选的院校均值差距有所缩小,但仍显著;③在排除了院校随时间自然增长的趋势以及入选院校与未入选高校之间的差异程度后,第二期“卓越计划”的政策效应在学术成果发表的数量、质量及国际合作发表上均不显著。以论文发表数量为例,在第二期“卓越计划”实施之初,入选院校平均水平(4 604篇)与未入选院校平均水平(2401篇)的差异为2203篇,在第一期实施期末,入选院校平均水平(6749篇)与未入选院校平均水平(3378篇)的差异为3370篇,虽然在平均水平上增长了1 167篇,但相较于入选院校本身的发表水平而言,其干预效应(1167篇)并未通过5%的显著性水平的统计检验。(见表5)
四、结论与启示
本研究运用PSM-DID方法评估德国大学“卓越计划”的实施成效,发现:虽然入选高校的学术发表数量、质量以及国际合作发表在建设周期内取得了可圈可点的进步,但进步幅度较之于没有入选“卓越计划”的高校并不明显。这表明德国大学“卓越计划”实施成效在提高德国大学科研表现上的效果并不显著,并不如前文综述中相关学者所描述的那样,“卓越计划”显著提升了德国大学的科研竞争力。基于此,本研究有如下四条启示。
(一)“实力”还是“光环”:应结合参照系来判断
以“卓越计划”为代表的重点建设政策究竟是已具有较强科研实力的大学“套了光环”“戴了帽子”“给了奖金”,还是真正提升了这些大学的科研实力,这是值得推敲的。PSM-DID方法恰好为探测这一问题提供了有力的工具:如果入选各类计划的重点建设大学在获得大量的资助后并未体现出比建设初期更强的优势,参照于同类水平、但未能入选的高校没有“增量性优势”,那从某种意义上讲,重点建设的成效只不过扮演了“锦上添花”的功能。因此,对重点建设政策实施成效的评价不仅仅应当为入选高校建设进展欢呼雀跃,更应该将未入选的高校,特别是在政策实施之前、科研水平与入选高校相当、但未能入选计划的高校作为参照系来审视,这样才是更加科学、也更加公平的做法。
(二)“标准”还是“事实”:应明晰结论的适用范围
基于PSM-DID的方法可对政策实施的成效进行客观的量化表征,这较之于一般的描述性统计或是泛泛列举具有明显优势。然而,研究者必须充分地意识到,基于PSM-DID方法所测量出的政策效应仅仅是一种有限事实的呈现,而非标准的确立,更不可盲目将其与遴选调整、资源分配挂钩。
首先,PSM-DID的政策效应测量主要适用于科研维度的若干可比领域,特别是论文发表领域,且必须依赖严格可比的客观数据。从德国“卓越计划”实施的初衷来看,增加研究产出的数量与质量、提高国际排名是其重要目的,因此,以英文论文发表数量、规范化的引文影响力、被引频次排名前列的论文数量以及国际合作论文数作为测度指标具有一定的合理性;但另一方面,无论从国际上其他的重点建设政策看,还是从我国实施“211工程”“985工程”以及“双一流”建设方案来看,科研仅仅是其中的一个重要组成部分。立德树人的成效、服务国家重大战略及社会实际需求、解决国家科技创新关键问题等方面均难以量化,更不用说测量其政策效应。因此,避免以偏概全,避免以有限事实制定统一的刚性标准是需要重视的。
第二,PSM-DID所测量的政策效应仅仅是以平均水平所代表的整体成效,而对于具体哪些高校在科研维度的若干可比领域取得了显著的建设成效、哪些没有建设成效,至少PSM-DID未能回答,它给出的只是平均水平,提供的只是基于概率论对平均水平变化的显著性判断。
第三,PSM-DID是一种反事实判断,即着重考察的对象是临界值上下的高校,即对比科研水平相当、但受到重点建设政策干预的高校和没有受到重点建设政策干预的高校。因此对于在PSM分析中,未能有效匹配的样本高校(特别是顶尖高校)的建设成效,PSM-DID难以提供有价值的判断。
(三)“固守”还是“变革”:应尊重传统、渐进发展
对于事实呈现而言,操作相对容易,但对于价值判断而言,则很可能陷入无休无止的争吵。从已有研究来看,“卓越计划”的支持者对其建设成效是信心满满,但本研究结果却显示,在知识生产领域,以论文发表被引为基础的可比指标上,德国大学“卓越计划”却并没有显示出统计学意义上的显著成效。当然,这一争议会伴随更多证据的呈现逐步消减。
更需注意的是,即使本研究发现,德国“卓越计划”显著地提高了入选高校的科研表现,学者们对“卓越计划”的批评仍然不绝于耳,教学的忽视、平等的毁灭、竞争的恶化都为“卓越计划”贴上了并不美好的标签。因为,对于什么是好的大学、什么是卓越的高等教育体系无疑见仁见智,历史也没有给出一个固定的答案。即使是德国本身,对于“卓越”的理解也在不断变化。如德国“卓越计划”第三期在前两期的基础上做出了较大调整,摒弃了以往的三部分资助内容,仅开设两项子计划,即“卓越大学集团计划”与“卓越大学计划”。其中,“卓越大学集团计划”集中资助跨学科、跨单位的研究项目,重点支持学生培养及国际顶尖人才引进;而“卓越大学计划”则要求申请单位必须参与至少两项“卓越大学集团计划”资助项目。“卓越计划”第三期的开展,除保持其对人才培养、科研合作等的一贯关注外,也展现出德国建设世界一流大学的一些新思路,如从支持传统优势学科的发展转向对跨学科研究的重点资助等。从这个意义上讲,一个政策的实施应当充分尊重本国的教育传统,同时结合时代新需求,在蜿蜒中前进、在渐进中变革。而对其成效的评价不应拘泥于事实呈现,而应加入更多因地制宜的价值判断。
(四)“即期”还是“长远”:应面向未来、关注可持续发展
虽然“卓越计划”在计划实施的几年时间内,对提升入选高校科研产出的效果并不显著,但这并不意味着“卓越计划”是失败的。知识生产具有一定的周期性,特别是重大原始创新性成果的发现需要时间。关注基础、打造可持续发展的德国高等教育或许才是 “卓越计划”的目标。因此,在反思德国“卓越计划”效果不够显著的同时,也应该参考、学习和吸收德国在着眼未来、创新机制等方面的建设思路,从可持续发展的角度思考如何开展大学和学科建设等问题。
作者
王传毅,清华大学教育研究院副教授,北京 100084
杨力苈,牛津大学教育学院博士研究生,英国牛津 OX2 6PY
杨佳乐,通讯作者,清华大学教育研究院博士研究生,北京 100084
原文刊载于《中国高教研究》2020年第1期第5-11页
栏目
“双一流”建设研究
中华人民共和国教育部主管
中国高等教育学会主办
投稿平台
http://editor.hie.edu.cn/gj/article/add
投稿邮箱
gaoyanbianjibu@163.com
《中国高教研究》编辑部
北京市海淀区学院路35号世宁大厦217室