查看原文
其他

政策效应评估的四种主流方法详解(Policy evaluation)

1、工具变量法

标准的计量经济学提供了一种处理内生性问题的方法———IV 法。Ehrlich( 1975,1977 ) 运用时间序列数据和截面数据就美国执行死刑对降低谋杀率的影响进行的研究具有典型性。Ehrlich认识到谋杀率与死刑执行率之间的双向因果关系,并试图应用IV来解决其内生解释变量和遗漏解释变量的问题。他选择了此项政策支出的滞后量、总的政府支出、人口、非白人比例等变量作为IV,但并没有解释为什么这些变量是好的 IV,所选出的这些 IV  与内生的解释变量之间又具有怎样的关联。直至 Ehrlich( 1987,1996) 的研究出版,其选择 IV 的考虑及相关的因果识别问题才得到详细的阐述。Angrist  ( 1990) 和 Angrist 等( 1991 ) 分别用 IV 研究了参加越战对老兵收入的影响和教育背景对收入的影响, 从而充分显现了运用 IV 进行因果推断的价值。Card 等( 1992a,1992b) 将学生的出生州与出生队列作为   IV,研究了教育投入对教育质量的影响,从而 使得教育产出、教育质量领域的研究出现了重大转折。Bound 等( 1995) 指出了 Angrist 等. ( 1991) 研究中存在的弱工具变量的问题,从而将 IV  的效率问题 以及 IV 的选取准则引入研究。此后,有关 IV 研究 的理论问题都主要集中在如何寻找最优的工具变量上。工具变量法是一个相对简单的估计方法,但是有两个重要的缺陷:(1) 工具变量的选择问题。在政策评估问题中,要找出满足条件的工具变量并不 容易。在实践中,尤其是当纵向数据和政策实施前的数据可以获得时,研究者多使用因变量的滞后变量作为工具变量。但是,这同样会引发相关性,并不能从根本上解决问题。(2) 如果个体对于政策的反应不同,只有当个体对政策反应的异质性并不影响参与决策时,工具变量才能识别 ATT、ATE。但这是一个很强的假定,有时研究者不得不假定非理性,或者忽略研究对象的异质性 ( Heckman, 1997) 。


2、断点回归


RD是一种类似于随机受控实验的准实验法。它的主要思想是:  当个体的某一关键变量的值大于临界值时,个体接受政策干预; 反之,则不接受政策干预。一般而言,个体在接受干预的情况下, 无法观测到其没有接受干预的情况。而在 RD中,小于临界值的个体可以作为一个很好的控制组来反映个体没有接受干预时的情况,尤其是在变量连续的情况下,临界值附近样本的差别可以很好地反映干预和结果变量之间的因果联系,进而计算出 ATE、ATT 等政策效应变量。RD 最早是由美国西北大学的心理学家 Campbell 于 1958 年首先发展设计出来的,但一直没有得到广泛的应用。Hahn 等( 2001) 为断点回归的模型识别和模型估计进行了严格意义上的理论证明,并提出了相应的估计方法。自此之后,RD 在经济学上的应用才开始盛行。到目前为止,对这一方法的研究成果还主要集中在劳动经济学领域。国内学者运用 RD  进行分析的研究还比较少见,余静文等( 2010a) 研究了城市圈所产生的集聚效应、辐射效应,考察了其对地区收入差距的影响; 余静文等( 2010b) 还使用该方法考察了城市圈对区域经济绩效的影响,发现城市圈产生的辐射效应和政府治理结构转变所带来的效应会促进城市圈区域的经济发展。RD是一种类似于随机实验的方法,也是准实验方法中最具有可信性的方法。Lee( 2008 ) 认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。RD 方法应用的关键假设是要求在断点附近的个体的特征相同,这一假设可以通过统计分析得到检验。由此可见,RD 的吸引力不仅在于它的实验性,还在于它的因果推断可以方便地得到检验。


3、双重差分法


近年来,DID在政策评估研究得到了广泛应用。DID 处理选择偏差的基本思想是: 允许存在不可观测因素的影响,但假定它们是不随时间变化的。作为政策效应评估方法中的一大利器,双重差分法受到越来越多人的青睐,概括起来有如下几个方面的原因:(1)可以很大程度上避免内生性问题的困扰:政策相对于微观经济主体而言一般是外生的,因而不存在逆向因果问题。此外,使用固定效应估计一定程度上也缓解了遗漏变量偏误问题。(2)传统方法下评估政策效应,主要是通过设置一个政策发生与否的虚拟变量然后进行回归,相较而言,双重差分法的模型设置更加科学,能更加准确地估计出政策效应。3)双重差分法的原理和模型设置很简单,容易理解和运用,并不像空间计量等方法一样让人望而生畏。(4)尽管双重差分法估计的本质就是面板数据固定效应估计,但是DID听上去或多或少也要比OLSFE之流更加“时尚高端”,因而DID的使用一定程度上可以满足“虚荣心”。一般而言,DID仅适用于面板数据,因此在只有截面数据时,还是不要浪费心思在DID上了。不过,事无绝对,在某些特殊的情景下,截面数据通过巧妙的构造也是可以运用DID的,大神Duflo曾经就使用截面数据和DID研究了南非的养老金计划项目对学前儿童健康的影响,感兴趣的可以去搜搜大神的文章。

具体来说,基准的DID模型设置如下:

其中,du为分组虚拟变量,若个体i受政策实施的影响,则个体i属于处理组,对应的du取值为1,若个体i不受政策实施的影响,则个体i属于对照组,对应的du取值为0dt为政策实施虚拟变量,政策实施之前dt取值为0,政策实施之后dt取值为1du·dt为分组虚拟变量与政策实施虚拟变量的交互项,其系数就反映了政策实施的净效应。


从DID的模型设置来看,要想使用DID必须满足以下两个关键条件:一是必须存在一个具有试点性质的政策冲击,这样才能找到处理组和对照组,那种一次性全铺开的政策并不适用于DID分析;二是必须具有一个相应的至少两年(政策实施前后各一年)的面板数据集。


为什么交互项du·dt的系数就能够体现出政策的净效应呢?这一点可以通过下表来体现(下表也反映了双重差分法五个字的真正含义):

双重差分法的基本思想就是通过对政策实施前后对照组和处理组之间差异的比较构造出反映政策效果的双重差分统计量,将该思想与上表的内容转化为简单的模型(1),这个时候只需要关注模型(1)中交互项的系数,就得到了想要的DID下的政策净效应。


更进一步地,DID的思想与上表的内容可以通过下图来体现:

图中红色虚线表示的是假设政策并未实施时处理组的发展趋势。事实上,该图也反映出了DID最为重要和关键的前提条件:共同趋势(Common Trends),也就是说,处理组和对照组在政策实施之前必须具有相同的发展趋势。DID的使用不需要什么政策随机以及分组随机,只要求CT假设,因此用DID做论文时必须对该假设进行验证,至于具体怎么验证,后面再说。


很多时候,大家在看使用DID的文献时,会发现别人的基准模型和模型(1)并不完全一致,别人的模型如下:

别人的模型里只有交互项du·dt,而缺失了dudt,是哪里出问题了么?并没有,模型(1)和(2)本质还是一样的,且模型(2)在多年面板数据集里更为常见。模型(2)中,为个体固定效应,更为精确地反映了个体特征,替代了原来粗糙的分组变量du;为时间固定效应,更为精确地反映了时间特征,替代了原来粗糙的政策实施变量dt。因而,dudt并未真正从模型中消失,只是换了个马甲。模型(2)事实上就是一个双向固定效应模型,这也是为什么DID方法一定程度上可以减轻遗漏变量偏误的原因(主要是消除那些不可观测的非时变因素,为了使估计结果尽可能准确,模型中还是要加入控制变量)。


在介绍完DID的基本思想和模型设定后,现在要开始强调同等重要的内容,那就是稳健性检验——必须证实所有效应确实是由政策实施所导致的。很多人对这一点并不重视,认为DID很简单,随便跑几个回归就可以写出一篇大作了。关于DID的稳健性检验,主要表现在两个方面:

1)共同趋势的检验。这个假设是比较难验证的,看文献时会发现别人经常没有做该检验,比如,很多人做DID时只有政策实施前后各一年的数据,这样的的话根本无法验证政策实施前的趋势问题。不过,如果是多年的面板数据,可以通过画图来检验CT假设,之前推荐的那篇AER文章就画了大量的图形对此进行了说明。


2)即便处理组和对照组在政策实施之前的趋势相同,仍要担心是否同时发生了其他可能影响趋势变化的政策,也就是说,政策干预时点之后处理组和对照组趋势的变化,可能并不真正是由该政策导致的,而是同时期其他的政策导致的。这一问题可以概括为处理变量对产出变量作用机制的排他性,对此,可以进行如下的检验:

A. 安慰剂检验,即通过虚构处理组进行回归,具体可以:a)选取政策实施之前的年份进行处理,比如原来的政策发生在2008年,研究区间为2007-2009年,这时可以将研究区间前移至2005-2007年,并假定政策实施年份为2006年,然后进行回归;b)选取已知的并不受政策实施影响的群组作为处理组进行回归。如果不同虚构方式下的DID估计量的回归结果依然显著,说明原来的估计结果很有可能出现了偏误。

B. 可以利用不同的对照组进行回归,看研究结论是否依然一致。

C. 可以选取一个完全不受政策干预影响的因素作为被解释变量进行回归,如果DID估计量的回归结果依然显著,说明原来的估计结果很有可能出现了偏误。等等。

Heckman等( 1985,1986) 最早提出使用 DID 方法对社会公共政策的实施效应进行评估,此后对 DID 方法的研究和应用成果层出不穷,典型的有: Card 等( 1990,1994 ) 对移民政策、最低工资制度对工资和就业的影响进行了研究; Puhani( 2000 ) 对波兰 1991 年实施的失业救济政策改革对失业持续期的影响进行了评估; Stewart ( 2004 ) 对英国 1999— 2001 年引入的最低工资制度对就业的影响进行了评估;
Donohue 等( 2005 ) 发现美国与加拿大的谋杀率之间具有相同的变化趋势,从而以取消死刑的加拿大作为控制组,评估了美国恢复死刑制度对降低谋杀率的影响,结果表明美国执行的死刑政策并未对社会谋杀发生率起到遏制作用; Chen 等( 2008) 使用中国 2000 个家庭的数据对世界银行发展项目的效应进行了评估。国内学者近年来也开始运用 DID 方法对政策效应进行评估,主要的研究有: 周黎安等( 2005 ) 就农村税费改革对农民收入增长所产生的影响进行 了评估; 朱宁宁等( 2008 ) 对我国建筑节能政策的实施效应进行了评估; 黄清( 2009 ) 对 2002—2005 年电力行业放松规制的政策效应进行了实证检验和研究; 刘生龙等( 2009) 评估了西部大开发对于西部地区经济增长及中国区域经济收敛的作用; 聂辉华等 ( 2009 ) 使用全国层面的企业数据,胥 佚 萱 等 ( 2011) 使用上市公司数据分别对 2004 年开始在东北地区实行的增值税转型政策的影响进行了研究; 俞红海等( 2010) 基于上市公司数据,对股权分置改革的有效性进行了实证分析; 李楠等( 2010 ) 利用中国工业行业数据,对国有企业改革的绩效进行了评估。DID 方法允许不可观测因素的存在,而且允许不可观测因素对个体是否接受干预的决策产生影响,从而放松了政策评估的条件,使得政策评估的应用更接近于经济现实,因而应用更广。但是,研究者在应用中也应该充分认识到 DID 方法的 局限性:(1) 数据要求更加苛刻。DID 方法以面板数据模型为基础,不仅需要横截面单位的数据,还需要研究个体的时间序列数据,特别是政策实施前的数据。因此,相 比于 Matching,DID 方法要求更多的数据。(2) 个体时点效应 μit 未得到控制。DID 要求很强的识别假设,它要求在政策未实施时,实验组和控制组的结果变量随时间变化的路径平行,这一假设并没有考虑个体时点效应 μit 的影响。由于 μit 的影响,在项目实施前后,实验组和控制组个体行为的结果变量并不平行,此时应用传统的 DID 方法就会出现系统性误差。(3) 未考虑个体所处的环境对个体的不同影响。DID 方法假定环境因素的冲击对处于相同环境中的个体会产生相同的影响,即 θt 对所有个体都相同。但实际中,实验组和控制组个体可能因为某些不可观测因素的影响,使得其在面临相同的环境因素的冲击时做出不同的反应,此时 DID 的应用就会出现问题。针对以上问题,国外学者在使用DID的过程中,逐步对其进行了扩展,扩展的方向主要有两个: 一是考虑 DID 中未控制的因素,从而进一步放松其应用条件; 二是将 DID 与 Matching 等其他政策评估方法结 合 起 来,提出新的估计量。 比 如: Bell  等  ( 1999) 考虑了个体所处的环境对个体的不同影响, 提出了经趋势调整的估计量; Heckman 等( 1997 ) 提出了“条 件 DID”这一新的估计量 ( conditional DID estimator) ,将 Matching 与 DID 方法结合起来应用, 不仅能大大降低选择偏差,且结果更为可信。但不容忽视的是,条件 DID 仍要满 足“共同支撑域” 假定。


4、倾向匹配方法


匹配是一种非实验方法,是对于一些没有采用或不方便采用实验方法区分实验组和控制组的数据采用的一种近似实验的方法。匹配方法假定,控制协变量之后,具有相同特征的个体对政策具有相同的反应。换句话说,不可观测因素不影响个体是否接受政策干预的决策,选择仅仅发生在可观测变量上。因此,对每一个实验组个体而言,可以根据可观测特征为其选择一个控制组个体构成反事实。在实证分析中,根据选择控制组时匹配方法的不同,Matching 又可分为协变 量匹配 ( covariant Matching,CVM) 和倾向得分匹配 ( propensity score matching,PSM) 等。其中,CVM 涉及多个协变量,会导致“维度灾难”、计算过于复杂等问题。Rosenbuam 等( 1983) 指出,如果协变量能使得条件独立假设 ( conditional independence assumption,CIA①) 成立,那么倾向得分( propensity  score,PS) 作为协变量的一个函数,当然也能使得 CIA 成立。通过将协变量中蕴含的信息转移至 PS 中,PSM 可以克服 CVM 的劣势,成功降维,从而在实践中应用更多。Rusenbaum 等( 1983 ) 提出的利用 PSM 来消除混杂因素所引起的偏差,在提出之初并没有受到很大关注,但是近些年被广泛应用于医药、经济、政策评估等领域,成为政策效应评价中最常用的方法。Perkins 等( 2000) 讨论了此方法在流行病药效学上的应用,Gilligan 等( 2007 ) 对在埃塞俄比亚农村实施的应急食品救援政策的效应进行了评估,Sandra 等( 2009) 对法国的一项再就业培训项目的效应进行了评估。国内学者近年来也开始运用 PSM 方法对社会公共政策的效应进行评估。陈 玉 萍 等  ( 2010) 运用 PSM 方法研究了滇西南山区改良陆稻 技术的采用对农户收入的影响,解决了应用传统方法分析农业技术效应时,因农户技术采用存在的自我选择而带来的因果干涉问题; 李佳路( 2010 ) 运用 PSM 方法,采用 S 省 30 个国家开发重点县 2009 年的农村贫困监测数据,对扶贫项目的减贫效应进行了评估。PSM 作为非参数方法,不需要对可观测因素的条件均值函数和不可观测因素的概率分布进行假设,因而相比参数方法具有优势。但是,PSM 也有局限性,主要表现为以下几点:(1) 极强的前提假设。PSM 的应用必须满足 CIA 和共同支撑域假定,这两个假定合起来称为“强可忽略性”假设。一旦违背这一假定,ATE 和 ATT 就会出现偏误。Heckman 等( 1997 ) 通过假设检验表明当“强可忽略性”假定不满足时,不宜应用 PSM 的方法对政策效应进行评估; Heckman( 2008 ) 通过理论分析认为当存在未观测到的混杂因素时,PSM 方法不仅不能消除系统误差,反而会带来新的偏 差; 刘凤芹等( 2009) 运用蒙特卡罗模拟实验的结果也表明 PSM 对强可忽略性假设非常敏感,即使是轻度的违背,PSM 的估计结果偏差也超过50% ; Kannika 等( 2010) 运用实际数据,对比参数方法与 PSM 方法的结果,进一步验证了 PSM 的应用需要满足“强可忽略性”假定。(2) 不能为所有的实验组个体找到控制组个体。匹配方法仅能为处在共同支撑域上的个体找到合适的对照个体。如果对于不同个体而言,处置效应是同质的,那么共同支撑域的假定不会对政策效应的大小造成影响; 反之,如果处置效应是不同质的,共同支撑域的假定使得某些实验组个体很难找到“反 事实”,处置效应无法识别。换句话说,如果匹配过程损失了大量的观察值,处置效应的估计量就仅在共同支撑域上具有一致性特征。在异质性响应中,如果实验组个体的处置效应 差别很大,估计出的 ATT 就不能代表政策的平均回报。(3) 数据量要求极大。Matching 方法往往应用于截面数据,为了保证条件独立假设成立,需要尽可能多地搜集协变量信息,将混杂因素分离出来。同时,为了保证能找到与实验组个体特征最为接近的控制组,研究者也需要收集大量的个体数据,以保证结果的精度。(4) 结果的稳健性受到多种挑战。PSM 方法计算得到的 ATE 或 ATT 的稳健性受到多种因素的影响,如干预分配机制方程的设定、匹配算法的选择等。刘凤芹等( 2009 ) 运用蒙特卡罗模拟实验的结果表明,PSM 对误差项分布不敏感,对隐指标方程的误设极为敏感; 在共同支撑域较小时,PSM 对具体匹配方法的选择极其敏感。综上所述,Matching 的应用必须满足很强的假设前提,并且要具有相当的数据量。如果研究者认为无法验证强可忽略性假定,手头的数据样本又不够大,就必须选用其他的政策评估方法,如 DID 和样本选择模型等,它们都明确允许有未被观测到的混杂因素的存在。

来源:计量经济学

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存