政策效应评估的四种方法(Policy evaluation)
利用非实验数据进行微观政策效应评估
1. 工具变量法
标准的计量经济学提供了一种处理内生性问题的方法———IV 法。
Ehrlich( 1975,1977 ) 运用时间 序列数据和截面数据就美国执行死刑对降低谋杀 率的影响进行的研究具有典型性。Ehrlich认识到 谋杀率与死刑执行率之间的双向因果关系,并试图 应用IV来解决其内生解释变量和遗漏解释变量的问题。他选择了此项政策支出的滞后量、总的政府 支出、人口、非白人比例等变量作为IV,但并没有解 释为什么这些变量是好的 IV,所选出的这些 IV 与 内生的解释变量之间又具有怎样的关 联。 直 至 Ehrlich( 1987,1996) 的研究出版,其选择 IV 的考虑 及相关的因果识别问题才得到详细的阐述。Angrist ( 1990) 和 Angrist 等( 1991 ) 分别用 IV 研究了参加 越战对老兵收入的影响和教育背景对收入的影响, 从而充分显现了运用 IV 进行因果推断的价 值。 Card 等( 1992a,1992b) 将学生的出生州与出生队列 作为 IV,研究了教育投入对教育质量的影响,从而 使得教育产出、教育质量领域的研究出现了重大转 折。Bound 等( 1995) 指出了 Angrist 等. ( 1991) 研究 中存在的弱工具变量的问题,从而将 IV 的效率问题 以及 IV 的选取准则引入研究。此后,有关 IV 研究 的理论问题都主要集中在如何寻找最优的工具变量上。
工具变量法是一个相对简单的估计方法,但是有两个重要的缺陷:
( 1 ) 工具变量的选择问题。在 政策评估问题中,要找出满足条件的工具变量并不 容易。在实践中,尤其是当纵向数据和政策实施前 的数据可以获得时,研究者多使用因变量的滞后变 量作为工具变量。但是,这同样会引发相关性,并 不能从根本上解决问题。
( 2 ) 如果个体对于政策的反应不同,只有当个体对政策反应的异质性并不影 响参与决策时,工具变量才能识别 ATT、ATE。但这 是一个很强的假定,有 时研究者不得不假定非理性,或 者忽略研究对象的异质性 ( Heckman, 1997) 。
2. 断点回归
RD是一种类似于随机受控实验的准实验法。
它的主要思想是: 当个体的某一关键变量的值大于临界值时,个体接受政策干预; 反之,则不接受 政策干预。一般而言,个体在接受干预的情况下, 无法观测到其没有接受干预的情况。而在 RD中,小于临界值的个体可以作为一个很好的控制组来 反映个体没有接受干预时的情况,尤其是在变量连 续的情况下,临界值附近样本的差别可以很好地反 映干预和结果变量之间的因果联系,进 而计算出 ATE、ATT 等政策效应变量。
RD 最早 是 由 美 国西北大学的心理学家 Campbell 于 1958 年首先发展设计出来的,但一直没 有得到广泛的应用。Hahn 等( 2001) 为断点回归的 模型识别和模型估计进行了严格意义上的理论证 明,并提出了相应的估计方法。自此之后,RD 在经 济学上的应用才开始盛行。到目前为止,对这一方 法的研究成果还主要集中在劳动经济学领域。国内学者运用 RD 进行分析的研究还比较少见,余静文等( 2010a) 研究了城市圈所产生的集聚效应、辐射效应,考察了其对地区收入差距的影响; 余静文 等( 2010b) 还使用该方法考察了城市圈对区域经济 绩效的影响,发现城市圈产生的辐射效应和政府治 理结构转变所带来的效应会促进城市圈区域的经 济发展。
RD是一种类似于随机实验的方法,也是准实验方法中最具有可信性的方法。Lee( 2008 ) 认为在 随机实验不可得的情况下,断点回归能够避免参数 估计的内生性问题,从而真实反映出变量之间的因 果关系。RD 方法应用的关键假设是要求在断点附 近的个体的特征相同,这一假设可以通过统计分析 得到检验。由此可见,RD 的吸引力不仅在于它的 实验性,还在于它的因果推断可以方便地得到检验。
3. 双重差分
近年来,DID在政策评估研究得到了广泛应用。 DID 处理选择偏差的基本思想是: 允许存在不可观 测因素的影响,但假定它们是不随时间变化的。
假定不可观测因素 Uit 可分解为 Uit = φi + θt + μit ,其 中 φi 是个体固定效应,不随时间变化; θt 是个体所 处的共同的环境带来的效应,对于所有个体而言都 相同; μit 是个体时点效应。DID 假定实验组和控制 组在研究的区间内具有相同的个体时点效应,也就 是说 μit 相同,因此通过对截面单位在项目实施前后 的结果取差值,就能排除 φi 、θt 的影响。反之,若在政 策实施条件下,个体时点效应 μit 不相同,则 DID 就 不再是一致估计量。
应用 DID 评估政策效应的基本步骤是利用面 板数据建立双固定效应模型并估计参数:
Yit = β0 + β1Tit + β2Ait + β3Tit Ait + εit
其中,Tit = 1 表示实验组对象,反之则表示控 制组对象; Ait = 1 表示政策实施后的区段,反之亦 然; Tit Ait 是交叉项,其系数 β3 表示实验组对象在接 受政策后结果变量的变动程度,反映了政策变动的 效应,是目标变量。参数 β1 表示没有政策干预时,实 验组与控制组的经济行为如何随时间变动,而参数 β2 则反映实验组和控制组中任何不随时间变动的 差异。应用 DID 评估政策效应的一个关键假设是: 当不存在政策干预时,β3 = 0 ,这一假设只有在实 验组与控制组性质非常接近时才是合理的。表 1 概 括了 DID 方法的基本原理。
Heckman等( 1985,1986) 最早提出使用 DID 方法对社会公共政策的实施效应进行评估,此 后对 DID 方法的研究和应用成果层出不穷,典 型的有: Card 等( 1990,1994 ) 对移民政策、最低工资制度对 工资和就业的影响进行了研究; Puhani( 2000 ) 对波 兰 1991 年实施的失业救济政策改革对失业持续期 的影响进行了评估; Stewart ( 2004 ) 对英国 1999— 2001 年引入的最低工资制度对就业的影响进行了评估;
Donohue 等( 2005 ) 发现美国与加拿大的谋杀 率之间具有相同的变化趋势,从而以取消死刑的加 拿大作为控制组,评估了美国恢复死刑制度对降低谋杀率的影响,结果表明美国执行的死刑政策并未 对社会谋杀发生率起到遏制作用; Chen 等( 2008) 使 用中国 2000 个家庭的数据对世界银行发展项目的 效应进行了评估。
国内学者近年来也开始运用 DID 方法对政策 效应进行评估,主要的研究有: 周黎安等( 2005 ) 就 农村税费改革对农民收入增长所产生的影响进行 了评估; 朱宁宁等( 2008 ) 对我国建筑节能政策的实 施效应进行了评估; 黄清( 2009 ) 对 2002—2005 年 电力行业放松规制的政策效应进行了实证检验和 研究; 刘生龙等( 2009) 评估了西部大开发对于西部 地区经济增长及中国区域经济收敛的作用; 聂辉华 等 ( 2009 ) 使用全国层面的企业数 据,胥 佚 萱 等 ( 2011) 使用上市公司数据分别对 2004 年开始在东 北地区实行的增值税转型政策的影响进行了研究; 俞红海等( 2010) 基于上市公司数据,对股权分置改 革的有效性进行了实证分析; 李楠等( 2010 ) 利用中 国工业行业数据,对 国有企业改革的绩效进行了评估。
DID 方法允许不可观测因素的存在,而且允许 不可观测因素对个体是否接受干预的决策产生影 响,从而放松了政策评估的条件,使得政策评估的 应用更接近于经济现实,因而应用更广。但是,研究者在应用中也应该充分认识到 DID 方 法 的 局 限性:
( 1) 数据要求更加苛刻。DID 方法以面板数据 模型为基础,不仅需要横截面单位的数据,还需要 研究个体的时间序列数据,特别是政策实施前的数 据。因此,相 比于 Matching,DID 方法要求更多的 数据。
( 2) 个体时点效应 μit 未得到控制。DID 要求很 强的识别假设,它要求在政策未实施时,实验组和 控制组的结果变量随时间变化的路径平行,这一假 设并没有考虑个体时点效应 μit 的影响。由于 μit 的 影响,在项目实施前后,实验组和和控制组个体行 为的结果变量并不平行,此时应用传统的 DID 方法 就会出现系统性误差。
( 3) 未考虑个体所处的环境对个体的不同影响。
DID 方法假定环境因素的冲击对处于相同环境 中的个体会产生相同的影响,即 θt 对所有个体都相 同。但实际中,实验组和控制组个体可能因为某些 不可观测因素的影响,使得其在面临相同的环境因 素的冲击时做出不同的反应,此时 DID 的应用就会出现问题。
针对以上问题,国外学者在使用DID的过程 中,逐步对其进行了扩展,扩展的方向主要有两个: 一是考虑 DID 中未控制的因素,从而进一步放松其 应用条件; 二是将 DID 与 Matching 等其他政策评估 方法结 合 起 来,提出新的估计 量。 比 如: Bell 等 ( 1999) 考虑了个体所处的环境对个体的不同影响, 提出了经趋势调整的估计量; Heckman 等( 1997 ) 提 出了“条 件 DID”这一新的估计量 ( conditional DID estimator) ,将 Matching 与 DID 方法结合起来应用, 不仅能大大降低选择偏差,且结果更为可信。但不 容忽视 的 是,条 件 DID 仍 要 满 足“共 同 支 撑 域” 假定。
4.倾向匹配方法
匹配是一种非实验方法,是 对于一些没 有 采 用或不方便采用实验方法区分实验组和控制组的 数据采 用 的 一 种 近似实验的方法。 匹 配 方 法 假 定,控制协变量之后,具有相同特征的个体对政策 具有相同的反应。换句话说,不可观测因素不影 响个体是否接受政策干预的决策,选 择仅仅发生 在可观测变量上。因此,对 每一个实验组个体而 言,可以根 据可观测特征为其选择一个控制组个体构成反事实。
在实证分析中,根据选择控制组时匹配方法的不 同,Matching 又 可 分 为 协 变 量 匹 配 ( covariant Matching,CVM) 和倾向得分匹配 ( propensity score matching,PSM) 等。其中,CVM 涉及多个协变量,会 导致“维度灾难”、计算过于复杂等问题。Rosenbuam 等( 1983) 指出,如 果协变量能使得条件独立假设 ( conditional independence assumption,CIA①) 成立,那 么倾向得分( propensity score,PS) 作为协变量的一个函数,当然也能使得 CIA 成立。通过将协变量中蕴含 的信息转移至 PS 中,PSM 可以克服 CVM 的劣势,成 功降维,从而在实践中应用更多。
Rusenbaum 等( 1983 ) 提出的利用 PSM 来消除 混杂因素所引起的偏差,在提出之初并没有受到很 大关注,但是近些年被广泛应用于医药、经济、政策 评估等领域,成为政策效应评价中最常用的方法。 Perkins 等( 2000) 讨论了此方法在流行病药效学上 的应用,Gilligan 等( 2007 ) 对在埃塞俄比亚农村实 施的应急食品救援政策的效应进行了评估,Sandra 等( 2009) 对法国的一项再就业培训项目的效应进 行了评估。国内学者近年来也开始运用 PSM 方法 对 社会公共政策的效应进行评 估。 陈 玉 萍 等 ( 2010) 运用 PSM 方法研究了滇西南山区改良陆稻 技术的采用对农户收入的影响,解决了应用传统方 法分析农业技术效应时,因农户技术采用存在的自 我选择而带来的因果干涉问题; 李佳路( 2010 ) 运用 PSM 方法,采 用 S 省 30 个国家开发重点县2009 年的农村贫困监测数据,对扶贫项目的减贫效 应进行了评估。
PSM 作为非参数方法,不需要对可观测因素的 条件均值函数和不可观测因素的概率分布进行假 设,因而相比参数方法具有优势。但是,PSM 也有 局限性,主要表现为以下几点:
( 1) 极强的前提假设。PSM 的应用必须满足 CIA 和共同支撑域假定,这两个假定合起来称为“强 可忽略性”假设。一旦违背这一假定,ATE 和 ATT 就会出现偏误。Heckman 等( 1997 ) 通过假设检验 表明当“强可忽略性”假定不满足时,不宜应用 PSM 的方法对政策效应进行评估; Heckman( 2008 ) 通过 理论分析认为当存在未观测到的混杂因素时,PSM 方法不仅不能消除系统误差,反而会带来新的偏 差; 刘凤芹等( 2009) 运用蒙特卡罗模拟实验的结果 也表明 PSM 对强可忽略性假设非常敏感,即使是轻 度的 违 背,PSM 的 估 计 结 果 偏 差 也 超 过 50% ; Kannika 等( 2010) 运用实际数据,对比参数方法与 PSM 方法的结果,进一步验证了 PSM 的应用需要满 足“强可忽略性”假定。
( 2) 不能为所有的实验组个体找到控制组个 体。匹配方法仅能为处在共同支撑域上的个体找到合适的对照个体。如果对于不同个体而言,处 置效应是同质的,那么共同支撑域的假 定不会对 政策效应的大小造成影响; 反之,如果处置效应是 不同质的,共同支撑域的假定使得某些 实验组个 体很难找到“反 事实”,处置效应无法识别。换 句 话说,如果匹配过程损失了大量的观察值,处置效 应的估 计量就仅在共同支撑域上具有 一 致 性 特 征。在异质性响应中,如果实验组个体的处置效应 差别很大,估 计出的 ATT 就不能代表政策的平均 回报。
( 3) 数据量要求极大。Matching 方法往往应用 于截面数据,为了保证条件独立假设成立,需要尽 可能多地搜集协变量信息,将混杂因素分离出来。 同时,为了保证能找到与实验组个体特征最为接近 的控制组,研究者也需要收集大量的个体数据,以 保证结果的精度。
( 4) 结果的稳健性受到多种挑战。PSM 方法计 算得到的 ATE 或 ATT 的稳健性受到多种因素的影 响,如干预分配机制方程的设定、匹配算法的选择 等。刘凤芹等( 2009 ) 运用蒙特卡罗模拟实验的结 果表明,PSM 对误差项分布不敏感,对隐指标方程 的误设极为敏感; 在共同支撑域较小时,PSM 对具 体匹配方法的选择极其敏感。
综上所述,Matching 的应用必须满足很强的假 设前提,并且要具有相当的数据量。如果研究者认 为无法验证强可忽略性假定,手头的数据样本又不 够大,就必须选用其他的政策评估方法,如 DID 和 样本选择模型等,它们都明确允许有未被观测到的 混杂因素的存在。
参考文献:
【1】.”Mostly Harmless Econometrics: An Empiricist.s Companion“Joshua D. Angrist
【2】HECKMANJJ.2008.Econometriccausality[J].InternationalStatisticalReview,52:1-27.
【3】HECKANJ J,H I. 1997. Matching as an EconometricEvaluation Estimator: Evidence from Evaluating a JobTrainingProgramme[J].TheReview of EconomicStudies,70:605-654.
【4】HECKMANJJ,ROBBR.1985.AlternativeMethodsfor EvaluatingtheImpactofInterventions//JAMESJHECKMAN,SingerB.LongitudinalAnalysisofLaborMarket Data.New York:Cambridge University Press:352.
@计量经济学圈
记录一个我们生活在其中的时代社会,一个非常具有潜力的深度与客观兼具的大号,囊括的主题如下:经济、社会、历史、新闻、世界、计量工具。