【名家联袂 国际钜献】石蓉 等 | 随机干预实验在全球推动扶贫政策改善的经验
本期 · 精彩
新刊速递 | 华东师范大学学报(教育科学版)2020年第8期目录
【重磅】史耀疆 等 | 教育精准扶贫中随机干预实验的中国实践与经验(上)
【重磅】史耀疆 等 | 教育精准扶贫中随机干预实验的中国实践与经验(下)
*会议预告*
教育随机实验与准实验研究:理论、方法与中国经验研讨会启动及征稿通知
随机干预实验在全球推动扶贫政策改善的经验
石蓉 , 史耀疆 , Bill Bikales , Ricardo Morel
摘要:2019年诺贝尔经济学奖的授予为随机干预实验带来了许多关注,本文尝试探讨随机干预实验在全球范围内的政策影响。随机干预实验不仅是学术界的一大理论创新,更逐渐发展成为实证有效的政策工具。应用随机干预实验方法产生政策影响有四个作用机制,分别为:(1)规模化有效的干预和项目;(2)通过不成功案例优化项目,改善资源分配;(3)创造知识类的公共产品;(4)制度化循证决策。对作用机制的梳理,可为以中国为代表的发展中国家开展教育减贫领域的随机干预政策模拟实验提供行之有效的实证经验。
关键词:随机干预实验;政策影响;扶贫
石 蓉
联合国开发计划署驻
华代表处经济学家
史耀疆
陕西师大教育实验经济
研究所教授、所长
Ricardo Morel
贫困创新行动(IPA)
缅甸国别处主任
Bill Bikales (毕儒博)
联合国驻华协调员
办公室经济学家
基金项目:国家自然科学基金重点项目(项目号:71933003);高等学校学科创新引智计划(项目号:B16031)
原文载于《华东师范大学学报(教科版)》2020年第八期
目录
一、通过有效项目的规模化促进政策的制定
二、无效性验证也有非常重大的政策意义,有助于后期调整干预或放弃项目,避免更多公共资源被浪费
三、通过改变认知来影响政策以及国际援助项目
四、通过引发方法论的变革,促使更多的国际组织和国家利用随机干预实验的研究结果,并将影响评估制度化
五、总结
随机干预实验(Randomized Controlled Trials,RCTs)因其在克服内生性上的优势,逐渐成为学术研究尤其是发展经济学研究中进行因果推断和有效性分析的“黄金准则”,大量学术研究开始采用随机干预实验方法进行实证研究。根据《经济学人》(The Economist)杂志的一篇报道,2000年以来,应用随机干预实验方法的研究论文在美国国家经济研究局(National Bureau of Economic Research,NBER)工作论文中的占比不断提高。除了在学术界得到广泛应用外,随机干预实验也在公共政策、国际发展等领域产生了广泛影响。RCTs的广泛使用为公共政策的设计和实施提供了非常有效的工具,并且有助于让公共政策更关注政策本身的有效性而非政策所需要的预算。
其中,利用RCTs帮助社会政策制定和实施的一个非常著名的案例是,1997年墨西哥政府为了解决贫困问题而实施的名为PROGRESA(Programa de Educacion,Salud y Alimentacion)的有条件转移支付(Conditional Cash Transfer,CCT)项目。这个先驱性的多维度减贫项目在设计初期就加入了随机干预实验的方法,以期能够在经济和政治上得到支持,从而更长久地运行下去。该项目是全球发展中国家中第一个对全国性政策进行严格影响评估的尝试,且在随机实验的数据支持下持续开展了20余年。在20余年中,该项目不仅通过规模化实施变成了墨西哥全国性的社会保障项目,使得640万个家庭(相当于墨西哥五分之一的人口)受惠,并且使CCT成为社会保障的新模式,随后扩展到了其他60多个亚非拉的发展中国家(Honorati et al.,2015)。随机干预实验的主要阵地不仅仅在发展中国家,在英国和美国等发达国家也有很多利用随机实验影响政策的例子。例如,美国国家税务局就曾经利用随机干预实验来寻找增加纳税人填报税收优惠的最佳干预方法;美国全国范围内有大量关于提升教学质量和学生学业表现的随机干预实验;英国的内阁办公室曾经专门设立部门,研究如何让政策更有效地推动人们行为的改变,其中很大一部分研究利用了实验的方法,而这个部门随后发展为一个专门和政府合作的咨询企业,被称为The Behavioral Insights Team。由此可以看出随机干预实验研究不仅在学术界具有重要的科学意义,而且在政策方面也具有不可低估的影响力。
本文将通过以下几方面探讨随机干预实验研究对政策的影响:第一,RCTs在政策方面最直接的影响在于能够对一个社会项目或干预手段的有效性进行严谨的科学影响评估。由此,一个被证实有效的干预手段就可能被规模化从而成为一项全国范围的项目,能够带来范围更广的政策效应,本文中所提到的墨西哥PROGRESA转移支付项目就是一个典型例子。第二,在随机干预实验中并不是所有干预都会被证实有效,有些经实验证实有效的项目在规模化或者异地化的过程中也会产生一些问题,所以RCTs并不是以规模化、政策化为目的,而是希望通过合理的实验设计,对现有方案及项目进行检测、筛选及调整。因此根据随机干预实验的结果更能够对已有的干预进行适应性修改,并且对于无效的项目及时止损,以防止资源或者公共财政的进一步浪费。第三,RCTs并不仅仅局限于对零散的社会项目的有效性进行探讨,研究者也会进行微观经济学的理论验证,比如分析如何更好地利用激励手段来引导和改变人们的行为。由此产生出来的新的认知,譬如“提高健康预防相关措施的价格并不会提高健康防御措施的利用率”,作为一种“公共产品”能够帮助政策制定者以及发展项目管理者制定和设计更加有效的、经过实践检验的政策及项目。第四,RCTs还因其引发的方法论的变革而在政策领域产生了更为长远的影响,因此,越来越多的政府和国际组织都开始将影响评估制度化,并且更加依赖于随机实验所产生的证据和知识来做决策,这从侧面体现出了随机实验研究的必要及重要性。下面本文将通过几个案例详细介绍RCTs在国际上的政策应用经验。
一、通过有效项目的规模化促进政策的制定
回顾现有的随机干预实验研究,我们发现有一些研究直接影响和促进了项目的规模化和相关政策的推行,其中有两个著名的案例:一个是肯尼亚的儿童驱虫项目,一个是墨西哥的有条件转移支付项目。这两个项目都是由小规模项目逐渐扩展到全国范围然后在全球范围内复制推广的。其中,墨西哥的有条件支付项目,更是成为了墨西哥现行社会保障制度的基础。这两个案例之所以能够顺利地由一个局部区域内的小型项目发展扩张成为全国性政策或者全球性的活动,主要还是因为它们有严谨的影响力评估结果作为支撑。这两个案例都使用了随机干预实验作为影响力评估的标准,并且结果也在第一时间内有效地分享给了相关的政策制定者。经过实证检验的有效性,能够最大程度地帮助项目得到政治上以及经济上的支持,为项目的扩展奠定基础。
肯尼亚儿童驱虫项目起始于诺贝尔获奖者Michael Kremer和经济学家Edward Miguel在1998年到2001年间在肯尼亚开展的小学生驱虫项目的有效性研究。这个项目初期只在肯尼亚乡村的75所学校开展,研究表明以学校为单位的大规模驱虫项目不仅能够改善儿童健康水平,而且显著提高了学生出勤率。因为驱虫片的价格低廉,使得这个项目比起其他旨在提升学生出勤率的干预方法更为 “经济”(Miguel & Kremer,2004)。在该研究的基础上,2009年肯尼亚时任总理Raila Odinga宣布在全国范围内施行驱虫项目,之后,该项目经过调整、本土化,也逐渐落地于埃塞俄比亚、印度、尼日利亚、越南等国家。除此之外,一个被称为“The Deworm the World Initiative”的全球性驱虫计划也在全世界范围内开始推广。
另一个影响范围更广、持续时间更久的项目是1997年在墨西哥开展的PROGRESA项目,下面将采用案例的形式详细介绍这个项目并对其产生的政策影响进行更深入的讨论。
案例一 墨西哥PROGRESA项目
作为第一个全国范围内的CCT项目,该项目总共持续了20余年,具体分为三个阶段开展。第一阶段始于1997年,PROGRESA在墨西哥农村地区作为一项创新政府扶贫项目开始实施,主要关注教育、健康和营养三个方面。在实施初期,墨西哥政府委托国际粮食政策研究所(International Food Policy Research Institute,IFPRI)对该项目进行影响评估。第二阶段始于2002年,在有力的评估结果支持下,政权更迭并没有影响项目的连续实施,且得到了泛美开发银行10亿美元的贷款支持。由此,项目扩大规模并开始惠及城市中的贫困人口,同时改名为Oportunidades。第三阶段始于 2015年,该项目进一步重组并扩大了干预范围,开始在生产力、劳动市场、金融和社会融合方面对贫困家庭提供帮助,之后更名为Prosper项目(Ordóñez-Barba & Silva Hernández,2019)。通过PROGRESA项目在过去20年中的变迁,可以看出影响评估对于一个新兴政策的推行所发挥的强有力的支持作用。在许多国家,政权更迭往往会影响政策实施的连续性,而PROGRESA作为一个创新的社会保障政策,不仅没有在新一任政府上台后被终止,反而获得了更大的资金支持并且扩大了政策惠及的人群,这很大程度上是由于严谨的影响评估证实了该项目的有效性。
该项目的一个重要特征是超越了简单的以金钱来衡量贫困的思路,而是从教育、健康、营养三个维度来全面解决贫困问题,并且强调从需求角度来解决贫困问题。此前政府在扶贫方面的努力主要集中于供给方面,例如增加对穷人社会服务的供给、建造更多诊所和学校等,而PROGRESA则主要利用现金作为一项激励,并以学校入学率和医疗服务使用率为条件,鼓励穷人更多地利用学校及诊所的资源。
1. 项目起源的背景及目标
PROGRESA的起源背景是,在墨西哥1994年经济危机之后,时任墨西哥总统Ernesto Zedillo面临巨大的公共财政压力,因此他希望寻求新型的社会保障项目来替代上一届政府耗资巨大却鲜有效果的社会政策(Rowe, 2011)。经济学家Santiago Levy作为当时社会保障部门的负责人,提出了一个旨在阻断贫困代际传递的项目,主要目标是通过加大人力资本投资赋能家庭中的年轻成员,以改善农村极端贫困家庭的生计状况。
2. 项目干预设计
这个项目的干预手段涵盖健康、营养、教育三个紧密相关的方面。健康方面:该项目会向贫困家庭提供一定资金支持,前提是受惠家庭所有成员都定期接受由相关健康部门提供的预防性健康服务,比如,定期接种疫苗以及参加健康相关知识的培训。营养方面:该项目会对贫困家庭的怀孕妇女以及5岁以下儿童给予营养补充品,并且,如果儿童定期去诊所进行身高体重等生长指标的测量,怀孕妇女定期去接受产检及健康培训,那么该家庭每个月也会得到相应的现金资助。教育方面:针对贫困家庭中念小学三年级到高中三年级的18岁以下的学生,如果他们的出勤率满足一定标准则能够获得一定数额的奖学金。在奖学金数额的设计上,高年级学生和女学生接受到的补贴数额更大,这是因为相比低年级和男学生他们的辍学率更高,所以需要更多的现金来激励他们留在学校。该项目中的上述各类现金资助均会以月为周期发放给符合条件并且履行以上要求的贫困家庭。值得一提的是,所有现金资助会直接提供给家庭中的成年女性,由她来支配这一部分额外的经济来源。这是因为很多社会学研究都表明,在发展中国家,母亲比起父亲更倾向于将补助用于提高儿童健康和整体家庭福利的投资,而非用于一些类似烟酒等的消费品上。
整个项目的设计特点主要体现在了综合性。相比其他单一资金资助或者补贴项目,PROGRESA的项目设计考虑到了贫困的多维度性,认识到贫困不仅仅体现在缺乏经济收入,更体现于教育和健康等社会公共服务使用的匮乏上。因此多维度同时干预,能够系统、深入地解决贫困产生的根源问题。并且,该项目的设计者意识到了这三个维度的关联性:每一个维度上的小改变都有可能影响其他维度的表现。例如,儿童健康及营养状况的提升可能改善他们的学业表现,相应地,接受更好的教育也更能够帮助他们践行更加健康的卫生习惯。这与联合国开发计划署在1990年根据Amartya Sen关于人类能力的认知所提出的人类发展指数有着很多相似的地方,他们都在贫困的定义上,加入了除收入之外的健康和教育两个方面的考量。
PROGRESA项目的另一个显著特点是强调政府和受惠者双方的义务,即受惠者只有严格履行了自己的义务才能够获得相关的现金补助。这样一来,在直接提供现金资助的基础上附加相关条件,就能够鼓励受惠家庭更多地使用社会提供的健康和教育类的相关服务,并且能够引导家庭将资源更多地分配给儿童以及青少年。在这个“条件”的设计背后,是政策的制定者意识到了一个规律,即穷人很多时候拒绝积极使用政府提供的公共服务其实是因为服务的使用会带来额外的经济负担:即使义务教育免除了学费,送孩子去学校上学仍然需要承担购买衣服、学习用具等其他费用。长远来看,这些投入在青少年健康和教育方面的资源,可以视为对他们进行的人力资本投资,能够增加他们在未来劳动力市场上的竞争力,从而达到改善家庭生计、打破贫困代际传递的目标。
3. 项目评估
PROGRESA项目在设计初期就纳入了评估这一环节,墨西哥政府委托国际粮食政策研究所(IFPRI)作为第三方研究机构对项目影响进行评估。由于项目是分阶段在不同地区逐渐开展的,研究者利用不同阶段项目铺开的时间差,巧妙地构建了实验组和对照组来进行评估。
IFPRI官网上对评估项目进行了整体介绍:研究者在1998年3月初开展了基线调查,采集了来自506个社区的24000户家庭的信息,这其中有320个社区是实验组,而其余的186个社区是对照组。实验组的320个社区是用按规模大小成比例的概率抽样方法(Probabilities Proportional to Size,PPS)从4546个PROGRESA初始受益项目社区的样本框中随机选择出的。利用同样的方法,项目组又在PROGRESA项目计划实施而未实施的1850个社区中随机抽取了186个社区作为对照组。1998年5月,项目正式开始实施干预并发放资金补助,在这之后的两年中,每隔六个月IFPRI都会对参加了基线调查的家庭进行一次评估调研,调研问卷不仅包括家庭的基本社会经济状况,还包含儿童上学的情况、健康表现和健康服务的利用率、家庭食物和非食物的消耗、家庭成员的时间使用情况。除了家庭问卷调查之外,研究者也对学校、诊所和社区进行了问卷调查,收集了学生的考试成绩和社区诊所的日常运营数据。由于实验组和对照组的样本家庭都是随机选取的,通过分析对比已经接受PROGRESA项目的实验组家庭和还未纳入项目的对照组家庭的各项指标,能够有效分析出该项目的直接效果和影响。
4. 项目评估结果
不同的学者利用PROGRESA项目的数据从不同角度进行了影响分析,总体来说,项目在短期内不仅对儿童的健康教育方面有非常显著的积极影响,也有效改善了贫困家庭的整体生活状况(Behrman et al.,2000;Gertler,2000;Hoddinott et al.,2000;Schultz,2000)。下面我们对该项目在教育、营养和健康产出方面的不同影响做一简单的总结:
教育方面:该项目虽然在入学率、平均受教育年限、辍学率及留级率方面都有显著的正面影响,但是对学业表现的影响并不十分明显。项目对小学和中学的入学率都有显著的提高作用:其中小学男生和小学女生的入学率分别提高了1.07%和1.45%;男中学生的入学率提高了8%,女中学生的入学率提高了14%。根据预测,参与项目的适龄学生的平均受教育年限将增加0.66年,与现有项目的平均受教育年限6.2年相比,其总体提升了超过10%(Schultz 2000)。其他的分析表明参加PROGRESA项目的学生比起其他学生来说辍学率更低,并且更少出现留级现象,对小学升中学时的辍学现象有明显减少作用(Behrman et al., 2000)。不同研究结果表明,虽然该项目能够有效增加学生的入学率,却没有显著增加学生在学校的时间和花在课业上的时间。分析标准化测试成绩可知,项目对于学生成绩并没有显著影响(Skoufias & Parker 2001;Behrman et al., 2000)。
健康方面:该项目对于成人及儿童的健康产出以及诊所利用率都有非常显著的积极影响。研究显示,参与项目的0—5岁儿童的患病概率比未参加项目的儿童低12%,参与项目的成年人也比其他成年人更健康,因患病而影响日常生活的时间更短。项目实施之后,实验组所在社区的诊所利用率显著高于对照组,并且在接种疫苗、产检和儿童成长监测等社区医疗服务的使用上有显著提高(Gertler 2000)。
营养方面:数据分析显示项目对于儿童的成长发展有显著积极作用,并且有效降低了1—3岁儿童的生长迟缓(Stunting)发生率(Behrman & Hoddinott, 2000)。
家庭方面:参加项目的家庭消费水平平均提高了14.5%,并且项目提高了女性在家庭中独立进行决策的概率(Hoddinott et al., 2000)。
除了项目的短期影响,也有学者追踪研究了这个项目对青少年受教育程度和就业的长期影响。在项目实施了17年后,研究者发现参加PROGRESA项目7年的青少年比未参加项目的同龄人平均受教育年限多了3年,完成高中学业的概率高了18%,上大学的概率高了5%。除此之外,参加项目的年轻人就业概率比未参加过项目的年轻人高了37%,同时,每周工作的时间更长,每小时的薪水也更高。由此可以看出,这个项目基本完成了其在实施初期所设想的目标:通过对儿童的健康、营养与教育进行干预,提升他们的人力资本以使他们能够依靠自己的能力改变贫困的现状,打破贫困代际传递。
5. 成本效益分析
PROGRESA这个项目因为其显著的评估结果,不仅在墨西哥国内实现了规模化,并且也将CCT模式推广到了南美洲和全世界,受到了广泛关注,被公认为是随机干预实验研究结果影响政策的一个典范。然而也有很多学者对该项目的成本效益提出了担忧,认为虽然项目中的干预手段对于提高儿童的营养和健康水平都有显著效果,但是因此付出的成本也非常高昂。1999年的项目预算达到7.8亿美元,占墨西哥政府扶贫资金的五分之一,国内生产总值的 0.2%。IFPRI发布的报告也指出,拨给项目的每100比索中有8.2比索是用于支付项目运营的成本,这其中选取受益人占了成本的30%,确认受益人履行条件占了成本的26%(Coady,2000)。
6. 对政策的推动作用
通过对墨西哥PROGRESA项目的全面了解和分析,我们可以了解到这个项目从一个小规模的扶贫项目转化为一个全国的社会保障项目的过程。在整个过程中,该社保项目的可持续性主要是依赖于有力的影响评估结果。为了做影响评估,政府在项目实施前期就授权了第三方评估机构IFPRI来设计随机实验。在非常有力的影响评估的结果支持下,这个项目也得到了更多的资金以及政治支持,并且拉丁美洲的其他国家也纷纷效仿开展了本国的CCT项目。
其中与PROGRESA项目最为相近的是哥伦比亚开展的Familias en Acción项目,该项目同样以人力资本开发和减贫为主要目标。另外还有一个非常典型的项目是巴西政府开展的Bolsa Familia CCT项目,该项目整合了巴西现有的社会援助项目,并且因其受益人数一度超过了PROGRESA而成为了最大规模的CCT项目。但是它和PROGRESA也有很大的区别,其重点不在于关注人力资本的开发,而是以将资源重新分配到贫困家庭作为主要目标。包含这两个国家典型的CCT项目在内,拉丁美洲一共有超过15个国家开展了CCT项目,包括阿根廷、玻利维亚、智利、多米尼加共和国、危地马拉、洪都拉斯、牙买加、秘鲁等。
二、无效性验证也有非常重大的政策意义,有助于后期调整干预或放弃项目,避免更多公共资源被浪费
从1990年开始,随机干预实验就在Michael Kremer的带领下开始被用于发展经济学领域,尤其在2000年之后更是迎来了爆发式增长。在近几年的研究中,我们能看到随机干预实验所涉及的领域越来越广:一开始的时候主要集中于营养和教育方面,但是现在已经有越来越多的项目扩展到农业粮食安全、能源环境、公共治理、和平建设、金融等领域。在随机干预实验扩展的过程中,我们会发现也有很多项目和政策被证实并没有显著效果,这些研究也同样具有重要意义。根据无效的结果,我们可以对干预进行调整和改变以达到更好的效果,或者及时止损放弃无效的项目,防止更多财政和公共资源被浪费,从而提高资金在发展领域分配的效率。
2006年诺贝尔和平奖授予了小额贷款之父Muhammad Yunus,以表彰他在向贫困人口提供信用贷款及服务方面所作出的努力。他首先在孟加拉设立了专门面向穷人的“村庄银行”,希望通过提供公益性质的借贷帮助穷人进行投资、改善生计,并最终摆脱贫困。“村庄银行”设立之后,小额贷款机构开始在更大的范围内扩张,迄今为止全球已经有超过3000家提供小额信贷的机构(Maes & Reed,2012)。
然而,近几年来在中低收入国家进行的小额信贷的随机干预实验显示,小额贷款并没有对穷人的长期收入和消费水平产生显著影响。许多政策制定者都认为小额信贷是扶贫的有效工具,认为给缺乏信用的穷人提供贷款能够增加他们获得更多收入的机会,例如投资及做小生意。6项在中低收入国家进行的随机干预实验显示:为穷人提供贷款虽然在某种程度上增加了他们进行商业活动的积极性,但是这些投资和商业活动并没有显著提高家庭的收入和消费水平;进一步数据分析显示,小额贷款在女性赋能和对儿童的人力资本投资上也没有显著积极影响;很多贷款被家庭用来消费而非用于投资。由此可以看出,虽然小额贷款没有提高收入和消费水平,但是也能够帮助穷人在困难时期度过难关,给了他们更多金融服务上的选择(Banerjee et al.,2015)。
这些研究成果并没有否定小额贷款存在的积极意义,比如能够帮助贫困人口提升金融服务的可获得性,但是严格的实证检验证明传统的小额贷款并不能有效帮助穷人摆脱贫困。所以,如果想要实现扶贫的目标,更多的扶贫资金不应该用来补贴这些传统的小额贷款机构,而是应该用于那些能够降低人们获取贷款成本的创新性的市场手段,以促使他们进行更有导向性的借贷活动。
随机干预实验在项目规模化以及上升到政策层面的过程中也面临重重挑战。世界银行和柬埔寨政府合作的关于扩大儿童早期教育规模的一项随机实验就显示了小规模项目在扩大规模的时候遇到的很多新的问题,下面将详细介绍这个案例。
案例二 柬埔寨学前教育的扩张项目
柬埔寨的学前教育使用率一直处于较低的水平,2009年到2010年只有170000名3—5岁的儿童接受了学前教育,占同年龄段儿童的20%。为了提高学前教育的参与率,使更多儿童在上小学之前能够得到更充分的准备,柬埔寨政府正在逐步扩张学前教育机构在全国的分布。在这个过程中,柬埔寨政府在世界银行研究团队的帮助下,试图通过随机干预实验来评估三种提供儿童学前教育的模式哪种更有效。三种模式具体为:(1)由政府配备师资建立正规的幼儿园,每天运营4个小时;(2)以社区为单位的早教中心,由接受过专业培训的社区成员在社区内选择教学地点,每天运营3个小时;(3)家庭教育模式,由家庭中的妇女承担起早教的责任,参与项目的妇女需要进行培训并且每个月都要参与会议交流心得体会。
随机干预实验设计将研究对象分为五个组,其中三个实验组分别实施三种不同的学前教育模式,另外两个对照组,分别对应正规幼儿园和非正式早教项目。项目开展期限为2008年到2011年。数据分析结果显示,这三种模式都没能使得足够多的孩子参与到学前教育中来,在有正规幼儿园的村子里,只有40%的孩子接受了学前教育,而这个比例在其他两种模式中分别为34%和12%。针对幼儿园和社区早教中心使用率低的问题,家长们给出了不同原因:有些是因为去幼儿园需要额外负担很多教学用具的费用;有些是因为幼儿园太早放学,造成全职工作的父母没有办法接孩子,于是放弃了接受学前教育的机会。除家庭原因外,社区早教中心的教师流失率高也是一个非常重要的问题,很多老师因为报酬过低而选择离开,导致许多社区早教中心因缺乏教师而闲置。至于家庭教育模式,大部分村落都没有有效落实这个项目。终期评估结果显示,实验组与对照组孩子的认知发育水平没有显著差异,这可能是由于随机干预实验在规模化的过程中出现的种种问题削弱了项目的有效性(Bouguen et al.,2013)。
这个项目显示出了柬埔寨政府在推动学前教育机构扩张的过程中面临的重重问题。世界银行的研究团队根据这些反馈,向柬埔寨政府提出两个在扩张学前教育中为了确保有效性而需要解决的问题:(1)在供给方面,由于校舍的建立和师资的配备都存在很多实际的困难,从而影响了整个政策实施的进度:(2)在需求方面,家长并没有意识到学前教育的重要性。根据这两个建议,柬埔寨政府将他们在2014年到2018年的策略做了适当的调整,并且强调从需求的角度出发来寻求解决方案。
通过上面的案例我们可以看到,随机干预实验对于政策的影响不仅仅在于证实和推广有效的干预和项目,更重要的是在于检测和反思如何更有效地达到预期的政策效果。在倡导循证决策的过程中,随机干预实验作为一个有效的工具,不仅有助于筛选出有效和无效的项目,更能够帮助项目和政策本身进行细节上的调整以达到最优效果。不得不说的是,人们一般认为随机干预实验所需成本较高,在某些程度上耗费巨大的资源去做影响评估并不“划算”,然而历史的很多经验都告诉我们,如果在没有严格的影响评估论证的情况下就开展大规模的干预项目,有可能会付出更大的社会成本。在这里我们以非常有代表性的“千禧村”项目为例,来从侧面证明有效的影响评估对于政策推广或者项目的可持续性的关键意义。
案例三 “千禧村”项目
在联合国正式提出千年发展目标后不久的2005年,“千禧村”项目作为联合国“千禧计划”的一个区域试点被提出,旨在帮助非洲偏远地区按计划实现千年发展目标。时任千年发展目标特别顾问的Jeffrey Sachs是这个项目的总设计师,他针对非洲长期存在的贫困问题,提出了一个非常宏伟的项目蓝图。这个项目计划为10个非洲国家的10个试点地区提供长达10年的系统干预。项目中的干预跨越多个领域,包括农业、贫困、健康、营养、教育和基础建设。
这个项目在设计的时候主要遵循如下几个指导原则:(1)这个项目提供的是跨领域的系统干预,包括发放蚊帐、提供艾滋病检测、建立学校、提供教师培训、铺设道路、修建电力和灌溉设施等,可谓是“多管齐下”;( 2)预计中的投入成本是每年每人60美金;(3)项目的主体是以社区为主,期望通过这个项目能够让社区给当地居民提供更包容的社会服务,包括医疗、公共教育和基础设施。这与之前的很多项目主要注重给予个人或者企业经济上的帮助有很明显的区别(Sachs, 2018)。这些干预的设计在理论上是非常先进的,比如干预的多维度性:不仅仅是从经济的角度给予帮助,而是从健康、教育、基础设施各方面同时实施干预,试图打破发展的“瓶颈”。干预还特别强调社区主导地位,认为利用社区的领导力能够更好地实现项目所设定的目标。
但是,针对这个大规模的“模范”村庄试点项目也存在很多质疑的声音,一些学者认为在没有任何证据表明项目有效的情况下快速扩张试点范围是欠妥的做法,还有一些学者认为“千禧村”项目有可能成为另外一个完全依赖国际援助才能维持的项目。2010年“千禧村”项目发布了第一个中期评估报告,报告对5个试点项目村庄在项目实施前和项目实施后的各项指标做了简单的对比,这种前后对比的方式显然不够严谨,没有办法支撑“千禧村”项目本身带动了这些指标变化的结论。因此,尽管项目的中期评估宣称该项目对当地实现千年发展目标有显著的推动作用,仍然有很多学者因为其简单的方法认为这个结论缺乏真实的证据支持。
其中Clemen 和 Demombynes在同一年发表了一篇文章,他们在文章中对比了项目所在地点相关指标的趋势和肯尼亚、加纳、尼日利亚其他地区的同期趋势,发现项目的实际效果比之前报告中用前后对比方法得出的小很多。虽然“千禧村”项目在下一步打算利用影响评估中的“类实验”方法来找到匹配的对照组去进行相对严谨的因果分析,然而因为项目村与之后作为对比的控制村都不是随机选择的,并且项目开始的时候并未收集过控制村的基线数据,所以其结果的有效性仍然令很多学者担忧(Clemens & Demombynes, 2010)。在项目的第二阶段,资金的筹措也出现了问题,虽然项目还是能顺利运转下去,但是在第二阶段人均的投资是25美元,不到第一阶段人均投资的二分之一。研究团队在2018年发布了结项评估报告。Sachs本人也在结项报告后发文总结了该项目,认为该项目的最大正面影响是在健康和农业两个领域,但对于消除贫困并没有显著的影响。
由于项目设计之初研究者并未深入思考过项目评估的方法,“千禧村”这个声势浩大的国际发展项目,至今仍很难有一个让公众置信的评估结果,这也是为什么这个项目会受到诸多争议的原因之一。有些学者认为,“千禧村”如果能在设计之初,就考虑引入随机干预实验作为其影响评估的方法,那么应该会产生更多更清晰的证据和数据来指导之后的发展项目和扶贫政策。这个项目因为其规模和耗资巨大,所以带有很大的特殊性,也容易引发各方的关注与讨论,这也从另一个侧面说明了一个严谨的影响评估对于大规模的政策推广或者项目的可持续性具有关键意义。如果缺乏科学的影响评估,则将很难让大众或者资助方相信投入到项目的资源得到了合理的利用,产生了期望中的效果,这势必会影响项目后续的资金支持以及政策支持。
三、通过改变认知来影响政策以及国际援助项目
随机干预实验对政策的另一层影响在于,通过对不同实验干预手段和结果的分析总结,能够证实或者证伪某些微观理论,通过总结人们对不同激励/干预的反应可帮助经济学家更好地理解人们的行为,从而促进发展经济学在微观领域的发展(Banerjee et al., 2016)。这些给特定项目做影响评估的研究不仅能成为政策制定者进行决策的直接依据,其结果更可以激发学者之间的讨论,推动学者通过不断总结形成新的认知或理论,为之后的经济学研究和国际发展领域的干预设计提供更加可靠的理论支持。
在针对低收入国家的国际援助项目中,关于是否应该免费向受益人提供预防性的健康设施(例如蚊帐、净水器)有很多讨论。很多传统的项目设计者都强调不应该免费发放这种简易的健康预防设施,他们认为免费发放只会造成浪费并且降低设施的使用率(J-PAL, 2018)。于是,很多项目都倡导给这些产品设定一个象征性的“名义价格”,希望以此来鼓励受惠家庭提高其使用率。针对这个问题,现有的很多随机干预实验的结果在一定程度上给出了解答。其中非常典型的案例是肯尼亚的一项探讨以何种方式提供蚊帐更加有效的项目,下面本文将对该项目进行更详细的介绍和探讨。
案例四 肯尼亚的蚊帐发放实验
疟疾作为全球性的公共健康问题每年会导致40万人死亡,其中大部分集中在非洲。因为缺少防护措施及卫生知识,疟疾多发于贫困家庭,而且往往给患病家庭带来更多的经济负担。世界卫生组织(World Health Organization,WHO)的最新数据显示,非洲因为疟疾而死亡的人数在2010年到2018年之间减少了31%,死亡率的下降很大程度上与驱虫蚊帐的使用有关(WHO,2019)。在认识到使用驱虫蚊帐是一种价格低廉且有效的减少疟疾传播的方法后,许多国际组织的援助项目开始捐助驱虫蚊帐给疟疾横行的非洲国家,以减少疟疾对贫困人口的影响。在肯尼亚开展的这项大规模干预实验中,如何能够使得分发的蚊帐获得更高的使用率成为了许多学者关注的问题,隶属于阿卜杜勒·拉蒂夫·贾米尔贫困行动实验室(The Abdul Latif Jameel Poverty Action Lab,J-PAL)的几名学者试图通过随机干预实验来回答这个问题。
这项实验所采取的具体干预是向在村诊所进行产检的怀孕妇女发放驱虫蚊帐。具体来说,在16个诊所中,蚊帐会以打一折或者免费这两种形式提供给孕妇。结果表明,即使当蚊帐以特别低的优惠价格(0.6美元)售卖的时候,其购买率比免费提供的使用率仍然低60%;且数据显示,以优惠价格购买蚊帐的女性和免费得到蚊帐的女性在蚊帐的使用率上并没有显著的区别(Cohen & Dupas,2010)。除此之外,阿卜杜勒·拉蒂夫·贾米尔贫困行动实验室联合贫困创新行动(Innovations for Poverty Action,IPA)还进行了很多关于其他预防性卫生产品价格对购买率影响的实验:肯尼亚的一个驱虫项目把驱虫片的价格从免费提高到每个儿童0.3美元,结果显示其接受率从75%降低到18%;并且,即使向项目参与者宣传防治寄生虫的好处也无法改变他们是否采取预防性健康行为的决定(Kremer & Miguel,2007)。
Kremer 和 Glennerster在2011年出版的关于健康经济学的一个指导手册中回顾了在不同发展中国家开展的70多个与健康经济学有关的随机干预实验,总结出了消费者在做与健康相关的一些决策(例如购买和使用与健康相关的产品与服务)时表现出的一些共同规律,比如对于非急性的医疗产品,提高价格会显著降低其购买率和使用率,且没有明显证据表明付出一定的“名义价格”会增加产品的使用率(Kremer & Glennerster,2011)。
通过总结这些看似零散的随机干预实验的结果,学者们对人们在不同情境下针对不同激励机制的反应有了更深的理解,并且也能够帮助其他国际组织设计出更好更有效的援助项目。WHO在其2013年关于利用驱虫蚊帐控制疟疾的文件当中引用了Cohen和Dupas在肯尼亚开展的研究,以此来说明免费提供关键性健康预防措施的重要意义,并且在其官网发布了针对控制疟疾的官方指导意见:建议有疟疾风险的人群和地区全面使用驱虫蚊帐,并且建议通过免费和持续性发放来保障控制和减少疟疾的最佳效果。
这一认知的改变不仅使得学界对健康用品的定价有了新的认识,而且促使许多国际组织和慈善机构改变了他们分发驱虫蚊帐的方式。WHO 2017年的疟疾报告显示,非洲国家每户拥有至少一个驱虫蚊帐的比例从2010年的50%上升到了2016年的80%,其覆盖率的显著增加与倡导驱虫蚊帐的免费发放紧密相关(WHO,2017)。
四、通过引发方法论的变革,促使更多的国际组织和国家利用随机干预实验的研究结果,并将影响评估制度化
不可否认的是,在过去的20多年中,随机干预实验受到了前所未有的关注,越来越多的微观干预和RCTs让学术界意识到发展经济学除了探讨国家的宏观发展路径与战略外,也应该更脚踏实地地探寻何种干预能够最有效地改善人们的生计。发展经济学中最值得关注的贫困问题其实本质上是非常微观的现象,从传统定义上来讲,贫困是指个人与家庭在物质上存在匮乏的情况。根据诺贝尔奖获得者Amartya Sen所提出的观点,贫困的真正含义除了包括物质上的匮乏也应该包括贫困人口在实现完整而有价值的人生中所需要的其他能力和机会的缺乏。只关注经济发展及人们收入水平的提升,而不关注个人层面各个维度的缺乏显然不能从根本上解决贫困问题。所以在发展经济学这门学科的发展中,微观领域研究的拓展显得尤为重要(Sen,2001)。
Esther Duflo在2017年的一篇文章中提出,政策制定中不仅要关注大的方向,更要注意到政策的细枝末节,因为很多时候正是这些细节决定了政策的成败与影响力大小;然而许多政策制定者并不在意这些细节,他们往往依赖经验和一些假设做出决定(Duflo,2017)。正如我们前面的例子中所提到的,许多国际组织及国家都意识到驱虫蚊帐的使用可以有效减少疟疾的传播,但是以哪种方式提供蚊帐能够最大化其覆盖率还是一个需要严谨求证的问题。因此,政策制定者需要更多以实证数据为支撑的政策评估机制,通过严谨的随机干预实验设计来探究政策中需要解决的细节问题。
随着随机干预实验研究案例的增多,许多国家的政府已经加入了利用随机干预实验来评估公共政策影响的行列。在第一部分作为典型案例,我们已经介绍了墨西哥政府对PROGRESA项目进行的严谨的影响评估以及其对于整个政策推广的积极作用。除此之外,还有许多其他国家的政府也积极利用独立机构的评估来推进政策实施或改进现行政策及项目。印度尼西亚政府在2013年就开始与J-PAL的研究团队一起设计旨在解决本国大型的粮食补助项目中存在的腐败问题的干预实验。
案例五 改善印度尼西亚粮食补助项目
Raskin作为印度尼西亚最大的社会援助项目,其主要内容是向家庭收入在底端的30%的家庭提供价格更为低廉的粮食,2012年项目预算达15亿美元。该项目官方规定的执行方式为:符合条件的家庭每个月能够以市场价格五分之一的价格购买15公斤的大米。但在实际操作中,由于地方政府的腐败,符合条件的家庭往往只能以优惠价格买到比配额少很多的大米,且优惠价格比官方规定的价格还要高出42%;同时,也经常出现不符合条件的家庭购买低价补贴粮的情况。
2012年,印度尼西亚政府希望能够对Raskin项目进行改革,提出了在项目中为受益人提供ID卡这项措施,希望能够通过发放ID卡让贫困家庭全面了解官方规定的优惠价格和他们可以购买的配额,同时也方便执行人查验购买优惠粮的家庭的资质。但是政府也担心,发放ID卡的过程可能存在分配不公的情况,甚至由此会导致一些社区内的冲突。
针对印度尼西亚政府的这个诉求,J-PAL设计了小规模的随机干预实验项目,在6个月之后完成了第一次评估。研究人员发现在项目实施之后,有ID卡的实验组家庭比没有ID卡的控制组家庭,以户为单位每个月的优惠粮购买量增加了24%,价格降低了2.5%;整体来看,符合条件的家庭能够享受到的优惠增加了26%。通过成本效益分析比较发现,ID卡的成本造价为每户1美元,但是每户获取的补贴增加了7.7美元。
在这个小规模的RCT结果的支持下,印度尼西亚政府决定扩大规模,2013年向1500万户贫困家庭发放了ID卡。在此基础上,另外一个全国性的奖学金项目和燃料补助项目也借用这个结果,开始利用ID卡的发放来减少信息不对称带来的腐败问题。
除了利用独立机构进行影响评估外,有些国家的政府甚至已经开始在自己的机构内部建立专门的评估部门,将循证决策制度化。其中一个典型的例子是2013年秘鲁政府在J-PAL和IPA的帮助下在教育部底下设立的MineduLab。其主要目的在于通过评估来为教育部在提高全国儿童教育水平和学业表现方面的项目提供信息和证据支持。
案例六 MineduLab
1. MineduLab的设立
MineduLab是秘鲁政府教育部底下专门负责监测和评估的办公室所设立的一个智库,其主要职能是寻找创新的、有据可循的政策干预来解决教育行业的一些重点问题。这个智库的产生为学者和政策制定者创造了一个相互沟通的制度化机制。其主要的优势有两点:(1)充分调动了学术界的主观能动性,鼓励学者针对本国教育行业现存的主要问题,提出创新的解决方案;(2)因为该智库设立在教育部下面,所以能够保障教育部的相关部门直接参与到方案设计、影响评估、结果分享等各个环节当中。
在之前的案例分析中,我们着重强调了政府在决定是否实施某项政策的时候,是如何利用随机干预实验的结果来支持一些小范围内的试点项目扩展成为全国性政策的。但是却很少提及这些项目本身是如何产生的,以及随机干预实验在这些项目的产生过程中有怎样的作用。其实,影响这些项目产生的主要机制有两个。一个以学术界的研究为主导,学者出于学术兴趣,对某一种新兴的理论进行求证或讨论。如果该学者所研究的方向正好也有很大的政策价值,则相关研究可以被政策制定者采用或应用 ,成为值得推广的项目或有实践价值的理论。这个机制的缺点是很多学者关注的问题本身也许并不具有实际的政策价值,由此可能导致设计或者实施的随机干预实验无法有效转化为政策项目。二是以政府为主导,有些政策制定者已经意识到现有的政策存在某些问题,于是求助于独立的研究机构在现行的政策上进行调整,产生出新的、改进的项目,然后通过随机干预实验再一次检验这个政策的调整是否有效。而MineduLab的创立,打破了这两种模式之间的隔阂,使得学界和政策界有机结合起来,形成了一个良性的倡导循证决策的生态系统。
MineduLab运作的机制主要是通过定期开展“创新窗口”的活动 ,向学术界、政策界、业界征集针对本土教育所面临的不同问题的创新解决方案。迄今为止,MineduLab已经开展了四期“创新窗口”的征集活动,并且通过9个随机干预实验完成了对9个创新提案的影响评估。这些创新方案或者干预提案需要满足以下几个要求:(1)成本不能过高并且需要有潜在的影响力;(2)能够利用行政数据或者实验手段进行影响评估;(3)不影响现行的教育政策。在这些基础要求之上,MineduLab的成员会根据教育部关注问题的优先性,对“创新窗口”征集活动期间所提交的方案进行筛选和排序,每一期会遴选出三个创新干预项目优先进行实施。
被选上的创新干预方案一般都会经历三个流程。第一个阶段:发现问题,并且根据问题提出创新的解决方案,被选上后MineduLab会协助提案者设计随机干预实验评估方案。第二个阶段:根据设计的方案,实施创新干预,并在干预完成后通过收集到的数据进行影响评估。第三个阶段:利用评估结果帮助以后的政策制定。
目前为止,创新提案主要关注的教育行业的热点问题有以下几个方面:(1)如何利用非金钱方式激励老师从而提高其工作表现;(2) 如何建立更合理的学校管理模式与监督机制从而提高学生的学业表现;(3)如何利用科技帮助老师更有效地完成教学任务,并且提高学生的学业表现。
MineduLab作为一个政府体制上的创新,不仅证实了在公共部门内部建立循证决策部门的可行性和必要性,同时也鼓励了其他发展中国家开展类似的鼓励创新、加强学界和政策界融合的部门。目前,加纳和赞比亚的教育部也对建立类似 MineduLab的机构表示了兴趣,并且与IPA相关负责人签订了初步的合作意向书。IPA在秘鲁的经验显示,如果要建立一个类似MineduLab的机构,政府的主动性与主导作用是非常关键的。
2. 由“创新窗口”征集的创新干预与其评估结果
在MineduLab已经完成的9个影响评估中,有一个非常有意思的创新干预叫“锻炼你的大脑”项目。提出这项干预的缘由是,有一些研究表明非认知能力在学业成绩中具有重要影响作用,更有神经科学的研究提出短期的心理干预能够有效提高学生的学业表现。根据这些理论,有学者提出了一项针对中学生的心理干预实验,认为这可能是一种潜在的提高学生成绩的低成本手段。
该创新项目的实施非常简单,主要是在教学期间抽出两个课时的时间,对一篇科普类文章进行学习,科普类文章的主要内容是对人类大脑机制的介绍,并且主要强调一个事实,即人类的大脑和智力并非一成不变的,而是像肌肉一样,可以通过训练逐渐提高。这个干预的目的是希望通过对该文章的学习改变学生“大脑和智力是一成不变的”这一看法,给予他们一种心理暗示,让他们明白勤于用脑会有正向的反馈,能够使得自身的大脑机能和智力得到提升。在第一个课时,学生被要求阅读文章并和同学讨论,之后每个学生需要写一封给低年级同学的信,简单介绍这篇文章的主要内容以及自身的思考。在第二个课时,老师会在学生上交的原创信件中,评选出一篇优秀作品,并且将学生们所写的信件和介绍该文章内容的海报一起张贴在墙壁上进行展示。
MineduLab利用随机干预实验对这个创新干预进行了影响力评估,总共有800所公立高中参与到了项目中,其中来自400所高中的 27000个学生被分配到实验组接受干预,而其他400所高中的学生被作为控制组。为了测量干预对儿童学习成绩的影响,该评估同时利用了秘鲁全国标准化的数学和语文测试分数来进行分析。结果显示,接受心理干预的学校的学生在标准化数学测试中的表现比控制组显著高了3.5分,并且在数学测试中拿到最高两个等级的人数比例和控制组相比也有显著的优势。另外,这个项目非常“划算”,整个项目所需要的实物投入仅限于分享给学生的阅读材料和海报。这个干预项目证实,一些策划合理的短期心理干预能够有效影响学生的学习。
除了政府部门,越来越多的国际发展机构也开始注意到随机干预实验研究的重要性。英美专门负责发展援助的机构,比如美国国际开发署(United States Agency for International Development,USAID)和英国国际发展部(Department for International Development,DFID)都对严谨的政策评估显示出了极大兴趣。在国际发展领域,美国和英国作为传统的捐赠国,每年都有大量的官方发展援助捐赠给低收入国家和受冲突与暴力影响的脆弱国家(Fragile,Conflict and Violence,FCV)。2018年经济合作与发展组织(Organization for Economic Cooperation and Development,OECD)的最新数据显示,美国与英国的官方援助分别位居全世界官方援助的第一与第三位,总量超过500亿美元。在如此巨大的数额面前,如何保证援助项目的有效性就成了一个非常关键的问题。
USAID在其发展项目运行周期手册中规定,任何一个创新的、还未证实过的干预或者是计划大规模推广的干预都需要进行影响评估,如果无法对小规模的试点项目进行影响评估则需要附上文件详述原因。其官方网站也指出,影响评估方法中应优先考虑随机干预实验,如果因为实际原因无法实施随机干预实验,则可以选择其他“准实验”方法来进行影响评估。
DFID在推广和提倡影响评估方面一直走在欧洲国家的前列,不仅在本机构的大规模和创新项目中引入了影响评估,并且也创立了国际性的组织来资助随机干预实验的实施,比如国际影响评估协会(The International Initiative for Impact Evaluation,3ie)。DFID中大部分影响评估都是对外分包给了专门致力于开展RCTs的机构。不能否认的是,这些非营利机构或研究机构在随机干预实验研究的发展中起了非常大的推动作用。因为RCTs方法论的广泛使用,也推广了循证决策,让更多政策制定者意识到影响评估的重要意义。关于这些致力于RCTs的独立机构的详细介绍参见表1。
像IPA这类以消除贫困为核心使命的专门对公共政策进行影响评价的组织,其主要作用机制是通过对创新的扶贫想法和有潜力规模化的扶贫项目进行效果评估,得出可以引导政策的证据。然而通过影响评估得出相关项目的有效性证据仅仅是影响政策制定的第一步,更关键的一步是如何及时并且有策略地与相关政策制定者分享并沟通项目评估的结果。以在缅甸实施的第一个大型随机干预实验项目为例,IPA和政策制定者以及资助方一起合作,对一个样本量为5000个家庭的母婴现金转移(Maternal and Child Cash Transfer,MCCT)项目的试点进行了影响力评估,并及时在政府扩大社会保障项目期间与其分享了调查结果。
该研究对5097名女性进行了三年的追踪调查。从基线期妇女仍旧处于怀孕状态的时候开始,到孩子出生满1000天的时候结束。抽样家庭被随机分配到三个组:(1)第一组每月接受无条件现金转移的干预;(2)第二组在接受现金转移之外还要接受高强度的信息干预,即关于社会和行为改变的沟通活动(Social and Behavioral Change Communication,SBCC),其重点是宣传健康的婴幼儿喂养行为、合理的卫生和家庭支出;(3)第三组是控制组,没有接受任何干预。结果显示,结合SBCC的现金转移干预有效减少了儿童发育迟缓的发生,而仅有现金转移的干预没有任何显著影响。
在政策交流活动中,IPA与多个项目的资助方分享了这项研究的结果,包括生计和粮食安全基金(Livelihoods and Food Security Fund,LIFT)、缅甸的社会福利部(Department of Social Welfare,DSW)以及负责SBCC干预的国家营养中心(National Nutrition Center,NNC)。相关信息的分享非常及时,因为政府已经开始准备在全国范围内实施MCCT。在得知研究的结果之后,DSW和NNC都非常支持在现金转移的基础上加入SBCC的干预。而且,更多的资助者,包括世界银行和儿童基金会,也加入进来,从技术和资金方面支持扩大这一项目。由此可见,像IPA一样致力于开展RCTs的研究和政策机构,不仅注重产出知识,而且在联合政策制定者以及资助方参与政策讨论方面发挥着关键的作用。此外,他们也与学术界密切合作,研究人员根据RCTs结果所撰写的文章在全球学术和政策领域具有更广泛的影响力。
五、总结
本文通过对全球各个国家以及不同机构实施的随机干预实验进行梳理,并且参考不同文献以及J-PAL的官方材料,总结出了随机干预实验推动全球政策改善的四个作用机制,分别是:(1)规模化有效的干预和项目;(2)通过分析不成功案例,优化项目并改善资源分配;(3)创造知识类的公共产品;(4)制度化循证决策。在每一个作用机制下,本文选取全球不同国家实施的随机干预实验案例进行了详细论证,这几个案例在地理位置的分布上也有很高的覆盖性,包含了非洲、美洲以及亚洲的多个发展中国家。然而,随机干预实验并非只在发展中国家实施,文章也以英国的内阁办公室以及美国的发展援助机构作为例子,来说明其他发达国家对于循证决策的重视。
随机干预实验从1990年开始逐渐被应用于社会科学以及发展经济学领域。在初期,随机干预实验多集中于营养、健康和教育等话题,后来很多项目开始扩展到农业粮食安全、能源环境、公共治理、和平建设、金融等领域。因为J-PAL和IPA的设立,从2000年开始,随机干预实验逐渐在全球学术界以及国际发展、政策领域获得更广泛的推广。在全球范围内,作为随机干预实验领跑者的J-PAL及其附属机构在超过83个国家开展了超过1000项随机干预实验。2019年诺贝尔经济学奖的授予,更是让随机干预实验走入大众的视野。经过20多年的发展,作为影响评估的有力工具,随机干预实验已经被全球许多国家用来对新政策进行评估或者对旧的政策进行改善和调整。相比之下,中国的随机干预实验仍然处在发展阶段,相信未来随着更多随机干预实验研究的出现,以及政策制定者对其熟悉度、认可度的提升,随机干预实验将会在中国的政策制定领域有更广泛的应用。
根据全球的经验,为了推进随机干预实验在政策领域内更好地服务政府决策及政策制定,本文提出几项建议:
(1)学术机构应该加强与国际组织的合作。从全球的经验来看,通过影响评估得出相关项目有效的证据仅仅是影响政策制定的第一步,更关键的一步是如何及时并且有策略地与相关政策制定者分享以及沟通项目评估的结果。除了发布报告、政策简报外,增加与国际组织的合作,充分利用国际组织的平台沟通、分享研究成果,能够使研究本身获得更广泛的影响力。学术机构和国际组织的相互合作,不仅能够有助于分享研究成果,也可以帮助国际组织对其开展的落地项目进行有效性评估。目前虽然很多的国际组织已经越来越认可随机干预实验的方法论,但是因为国际组织自身也具有非常完备的监督和评估体系,很少有项目会在设计的阶段就引入随机干预实验的方法来进行影响力评估。但是对于一些落地项目,尤其是规模较大的干预项目,如果能够在项目的设计阶段就充分考虑到利用随机干预实验的方法进行影响力评估,那么,将会更有利于提供可置信的评估结果来支持项目的扩展或对项目进行经验总结。
(2)政府部门应该适当考虑制度化循证决策。正如前文所述,美国全国范围内有大量政府支持的关于提升教学质量和学生学业表现的随机干预实验,秘鲁政府更是在教育部底下专门设置了一个研究部门,来通过影响评估为教育部在提高全国儿童教育水平和学业表现方面的项目提供信息和证据支持。由此可以看出,教育领域内利用随机实验来服务政策制定在国外已经发展得非常成熟。近年来中国在精准扶贫思想的指导下,开展了大规模、多类型的扶贫项目,并且取得了显著的成果。在教育扶贫方面,贫困户不仅能够享受到教育补助,政府更是拨付大量的资金改善办学设施,加强乡村教师队伍建设,对乡村教师生活进行补助。针对如此大规模、大投入的干预项目及政策,如果能够在早期设计实施的时候,利用随机干预实验方法进行影响力评估,则能够更加具体、量化地体现项目产生的影响。这样一来,项目的评估就不仅仅是关注投入了多少,例如补贴了几个老师、资助了几个学生、安装了几个多媒体设施等,而是更加注重产出了多少,例如乡村教师的流动性变化、学生辍学率降低了多少、平均学习成绩提高了多少等 。
(3)改革开放以来,中国的减贫事业取得了有目共睹的成就。在1978年,中国农村的贫困发生率高达97.5%。在过去的41年间,随着经济持续发展,扶贫工作也不断深入,共有7.5亿多人脱贫。截至2019年底,中国农村贫困发生率已经降低至0.6%。可以说中国为全球的减贫事业做出了重要贡献,并且中国的扶贫经验也为其他发展中国家提供了有益借鉴。在这一背景下,如何更好地分享中国的扶贫经验,讲好中国故事,用全球通用的科学语言来分析现有的扶贫项目,应该成为下一步努力的方向。中国的扶贫工作,更多的是实践先行,缺少理论的总结和严谨的方法论的验证。其实,现有的扶贫工作已经在贫困县的退出抽查中,利用了很多学术机构进行第三方评估,并收集详细的家庭福利信息。在这种情况下,实施随机干预实验的额外成本就更小,如果能有更多的扶贫项目在初步设计的时候就加入随机干预实验的方法论进行影响力评估,从而为中国的扶贫效果提供可置信的证据,相信通过研究机构及学者的系统性总结和梳理,能够让中国扶贫方案、中国扶贫经验成为全球、全人类共享的“知识公共产品”。
(4) 除了扶贫及教育领域,另一个十分需要影响评估的领域是国际发展援助领域。中国作为一个新兴的援助国,在对外援助方面的支出也逐渐增多。目前官方发布的对外援助白皮书记录了截止2012年的数据。从2004年到2009年,中国的对外援助资金保持快速增长,平均年增长率29.4%。2010年至2012年,中国对外援助金额高达893.4亿元人民币。中国作为世界上最大的发展中国家,积极参加国际发展合作,展现了负责任大国的担当。如何确保对外援助的有效性,确保互利共赢的南南合作可持续开展,这都需要更多的影响评估证据来支持。现在中国的对外援助项目主要集中于基础设施建设,一般来讲对于基础设施建设开展影响力评估的研究较少,方法论还不成熟,但是世界银行旗下的DIME有类似的研究可以作为参考。不过,发展援助在人力资源开发合作和技术合作方面的项目还是非常值得并且容易进行影响力评估的。
随机干预实验因其在因果推断中的优势被学术界广泛认可,但是不可否认的是其实施成本过高,所以要想在学术界得到更广范的推广还面临许多挑战。随机干预实验虽然相比其他的研究成本更高,但是从政策制定的角度来看,如果缺乏随机干预实验的验证而直接大规模实施某项政策,可能会付出更多的政策成本。从国际经验来看,美国的许多基金会以及政府对外援助的项目都配有影响评估,并且其收集到的数据都会在匿名化处理后免费向公众公开。在这种安排下,更多的学者甚至学生,都可以利用随机干预实验的数据进行相关分析并开展研究。这样的处理方式,不仅能够促使公众对项目的有效性进行监督,也能够扩大随机干预实验的影响力,从而促进政府以及其他基金会在随机干预实验方面给予更多的资金支持,以形成一个良性循环的生态系统。然而,这个生态系统的基础是政府有意愿支持并且制度化循证决策,这样随机干预实验的成本将大部分落在政府的身上,而研究者以及学术机构只是充当“智囊团”的角色,为实验的设计以及后续的数据分析提供技术支持。
参考文献
Abdul Latif Jameel Poverty Action Lab (J-PAL). (2018). The impact of price on take-up and use of preventive health products. J-PAL Policy Insights. Last modified May 2018. https://doi.org/10.31485/pi.2270.2018.
Banerjee, A. V., Duflo, E., & Kremer, M. (2016). The influence of randomized controlled trials on development economics research and on development policy. The State of Economics, The State of the World.
Banerjee, A., Karlan, D., & Zinman, J. (2015). Six randomized evaluations of microcredit: Introduction and further steps. American Economic Journal: Applied Economics, 7(1), 1−21.
Behrman, J., Sengupta, P., & Todd, P. (2000). The impact of PROGRESA on achievement test scores in the first year. September. International Food Policy Research Institute, Washington, D.C.
Behrman, J., & Hoddinott, P. (2000). An evaluation of the impact of PROGRESA on pre-school child height. July. International Food Policy Research Institute, Washington, D.C.
Bouguen, A., Filmer, D., Macours, K., & Naudeau, S. (2013). Impact evaluation of three types of early childhood development interventions in Cambodia. The World Bank.
Clemens, M. A., & Demombynes, G. (2010). When does rigorous impact evaluation make a difference? The case of the Millennium Villages. Journal of Development Effectiveness, 3(3), 1−49.
Coady, D. (2000). The application of social cost-benefit analysis to the evaluation of the human capital impacts of PROGRESA. March. InternationalFood Policy Research Institute, Washington, D.C.
Cohen, J., & Dupas, P. (2010). Free distribution or cost-sharing? Evidence from a randomized Malaria prevention experiment. Quarterly Journal of Economics, 125(1), 1-45. DOI:10.1162/qjec.2010.125.1.1
Duflo, E. (2017). Richard T. Ely lecture: The economist as plumber. American Economic Review, 107(5), 1-26. DOI:10.1257/aer.p20171153
Gertler, P. J. (2000). Final report: The impact of PROGRESA on health. November. International Food Policy Research Institute, Washington, D.C.
Hoddinott, J., Skoufias, E., & Washburn, R. (2000).The impact of PROGRESA on consumption: A final report. September. International Food Policy ResearchInstitute, Washington, D.C.
Honorati, M., Gentilini, U., & Yemtsov, R. G. (2015). The state of social safety nets 2015. Washington, DC: World Bank Group.
Kremer, M., & Miguel, E. (2007). The illusion of sustainability. The Quarterly Journal of Economics, 122(3), 1007-1065. DOI:10.1162/qjec.122.3.1007
Kremer, M., & Glennerster, R. (2011). Improving health in developing countries. Handbook of health economics, 2, 201-315. DOI:10.1016/B978-0-444-53592-4.00004-9
Maes, J. P., & Reed, L. R. (2012). State of the microcredit summit campaign report 2012. Microcredit Summit Campaign.
Miguel, E., & Kremer, M. (2004). Worms: Identifying impacts on education and health in the presence of treatment externalities. Econometrica, 72(1), 159-217. DOI:10.1111/j.1468-0262.2004.00481.x
Ordonez-Barba, G., & Silva-Hernandez, A. (2019). Progresa-Oportunidades-Prospera: Transformations, reaches and results of a paradigmatic program against poverty. Papeles De Poblacion, 25(99), 77-109.
Rowe, N. (2011). Mexico's oportunidades: Conditional cash transfers as the solution to global poverty? Donald A. Henriksen Fellowship in International Political Economy, Keck Center for International and Strategic Studies, 1−20.
Sachs, J. D. (2018). Lessons from the Millennium Villages Project: A personal perspective. The Lancet Global Health, 6(5).
Sen, A. (2001). Development as freedom. Oxford Paperbacks.
Schultz, T. P. (2000). Final report: The impact of PROGRESA on school enrollments. April. International Food Policy Research Institute, Washington, D.C.
Skoufias, E., & Parker, R. (2001). Conditional cashtransfers and the impact on child work and schooling: Evidence from the PROGRESA program in Mexico. Economia: Journal of Latin America and the Caribbean EconomicAssociation. Vol. 2, No. 1. 1(pages 45–96).
World Health Organization. (2017). World malaria report 2017.
上期回顾
特稿
特稿 | 邬大光 , 李文:我国高校大规模线上教学的阶段性特征——基于对学生、教师、教务人员问卷调查的实证研究
高校在线教育(特约主持人:邬大光)
刘振天 , 刘强 | 在线教学如何助力高校课堂革命?——疫情之下大规模在线教学行动的理性认知
郑宏 , 谢作栩 , 王婧 | 后疫情时代高校教师在线教学态度的调查研究
高等教育评价
吴冠军 | 科研诚信与学术声誉——基于政治哲学与博弈论的思考
教育领导力
董辉 , 李路路 , 张婕 | 教学领导的概念创生与理论演进——基于菲利普•海林杰教授访谈的叙事与思考
刘莉莉 , 孔曼 | 变革型领导力与教师组织承诺的关系研究——教师自我效能感的中介效应分析
科学教育
本刊声明
一、本刊对所有来稿不收取任何费用,也未委托任何机构或个人代为组稿。
二、本刊严禁一稿多投,如因作者一稿多投给本刊造成损失的,本刊保留追究作者法律责任的权利。
三、作者投稿请登陆华东师范大学学报期刊社官方网站(www.xb.ecnu.edu.cn)。
四、本刊联系电话:021-62233761;021-62232305。
华东师范大学学报期刊社
华东师范大学学报微信矩阵
华东师大学报
哲学社会科学版
华东师大学报
自然科学版
华东师大学报
教育科学版
点击「阅读原文」访问华东师范大学学报教育科学版官网
我知道你在看哟