政策效应评估的四种主流方法详解(Policy evaluation)
1、工具变量法
2、断点回归
3、双重差分法
具体来说,基准的DID模型设置如下:
其中,du为分组虚拟变量,若个体i受政策实施的影响,则个体i属于处理组,对应的du取值为1,若个体i不受政策实施的影响,则个体i属于对照组,对应的du取值为0。dt为政策实施虚拟变量,政策实施之前dt取值为0,政策实施之后dt取值为1。du·dt为分组虚拟变量与政策实施虚拟变量的交互项,其系数
从DID的模型设置来看,要想使用DID必须满足以下两个关键条件:一是必须存在一个具有试点性质的政策冲击,这样才能找到处理组和对照组,那种一次性全铺开的政策并不适用于DID分析;二是必须具有一个相应的至少两年(政策实施前后各一年)的面板数据集。
为什么交互项du·dt的系数
双重差分法的基本思想就是通过对政策实施前后对照组和处理组之间差异的比较构造出反映政策效果的双重差分统计量,将该思想与上表的内容转化为简单的模型(1),这个时候只需要关注模型(1)中交互项的系数,就得到了想要的DID下的政策净效应。
更进一步地,DID的思想与上表的内容可以通过下图来体现:
图中红色虚线表示的是假设政策并未实施时处理组的发展趋势。事实上,该图也反映出了DID最为重要和关键的前提条件:共同趋势(Common Trends),也就是说,处理组和对照组在政策实施之前必须具有相同的发展趋势。DID的使用不需要什么政策随机以及分组随机,只要求CT假设,因此用DID做论文时必须对该假设进行验证,至于具体怎么验证,后面再说。
很多时候,大家在看使用DID的文献时,会发现别人的基准模型和模型(1)并不完全一致,别人的模型如下:
别人的模型里只有交互项du·dt,而缺失了du和dt,是哪里出问题了么?并没有,模型(1)和(2)本质还是一样的,且模型(2)在多年面板数据集里更为常见。模型(2)中,
在介绍完DID的基本思想和模型设定后,现在要开始强调同等重要的内容,那就是稳健性检验——必须证实所有效应确实是由政策实施所导致的。很多人对这一点并不重视,认为DID很简单,随便跑几个回归就可以写出一篇大作了。关于DID的稳健性检验,主要表现在两个方面:
(1)共同趋势的检验。这个假设是比较难验证的,看文献时会发现别人经常没有做该检验,比如,很多人做DID时只有政策实施前后各一年的数据,这样的的话根本无法验证政策实施前的趋势问题。不过,如果是多年的面板数据,可以通过画图来检验CT假设,之前推荐的那篇AER文章就画了大量的图形对此进行了说明。
(2)即便处理组和对照组在政策实施之前的趋势相同,仍要担心是否同时发生了其他可能影响趋势变化的政策,也就是说,政策干预时点之后处理组和对照组趋势的变化,可能并不真正是由该政策导致的,而是同时期其他的政策导致的。这一问题可以概括为处理变量对产出变量作用机制的排他性,对此,可以进行如下的检验:
A. 安慰剂检验,即通过虚构处理组进行回归,具体可以:a)选取政策实施之前的年份进行处理,比如原来的政策发生在2008年,研究区间为2007-2009年,这时可以将研究区间前移至2005-2007年,并假定政策实施年份为2006年,然后进行回归;b)选取已知的并不受政策实施影响的群组作为处理组进行回归。如果不同虚构方式下的DID估计量的回归结果依然显著,说明原来的估计结果很有可能出现了偏误。
B. 可以利用不同的对照组进行回归,看研究结论是否依然一致。
C. 可以选取一个完全不受政策干预影响的因素作为被解释变量进行回归,如果DID估计量的回归结果依然显著,说明原来的估计结果很有可能出现了偏误。等等。
Heckman等( 1985,1986) 最早提出使用 DID 方法对社会公共政策的实施效应进行评估,此后对 DID 方法的研究和应用成果层出不穷,典型的有: Card 等( 1990,1994 ) 对移民政策、最低工资制度对工资和就业的影响进行了研究; Puhani( 2000 ) 对波兰 1991 年实施的失业救济政策改革对失业持续期的影响进行了评估; Stewart ( 2004 ) 对英国 1999— 2001 年引入的最低工资制度对就业的影响进行了评估;Donohue 等( 2005 ) 发现美国与加拿大的谋杀率之间具有相同的变化趋势,从而以取消死刑的加拿大作为控制组,评估了美国恢复死刑制度对降低谋杀率的影响,结果表明美国执行的死刑政策并未对社会谋杀发生率起到遏制作用; Chen 等( 2008) 使用中国 2000 个家庭的数据对世界银行发展项目的效应进行了评估。国内学者近年来也开始运用 DID 方法对政策效应进行评估,主要的研究有: 周黎安等( 2005 ) 就农村税费改革对农民收入增长所产生的影响进行 了评估; 朱宁宁等( 2008 ) 对我国建筑节能政策的实施效应进行了评估; 黄清( 2009 ) 对 2002—2005 年电力行业放松规制的政策效应进行了实证检验和研究; 刘生龙等( 2009) 评估了西部大开发对于西部地区经济增长及中国区域经济收敛的作用; 聂辉华等 ( 2009 ) 使用全国层面的企业数据,胥 佚 萱 等 ( 2011) 使用上市公司数据分别对 2004 年开始在东北地区实行的增值税转型政策的影响进行了研究; 俞红海等( 2010) 基于上市公司数据,对股权分置改革的有效性进行了实证分析; 李楠等( 2010 ) 利用中国工业行业数据,对国有企业改革的绩效进行了评估。DID 方法允许不可观测因素的存在,而且允许不可观测因素对个体是否接受干预的决策产生影响,从而放松了政策评估的条件,使得政策评估的应用更接近于经济现实,因而应用更广。但是,研究者在应用中也应该充分认识到 DID 方法的 局限性:(1) 数据要求更加苛刻。DID 方法以面板数据模型为基础,不仅需要横截面单位的数据,还需要研究个体的时间序列数据,特别是政策实施前的数据。因此,相 比于 Matching,DID 方法要求更多的数据。(2) 个体时点效应 μit 未得到控制。DID 要求很强的识别假设,它要求在政策未实施时,实验组和控制组的结果变量随时间变化的路径平行,这一假设并没有考虑个体时点效应 μit 的影响。由于 μit 的影响,在项目实施前后,实验组和控制组个体行为的结果变量并不平行,此时应用传统的 DID 方法就会出现系统性误差。(3) 未考虑个体所处的环境对个体的不同影响。DID 方法假定环境因素的冲击对处于相同环境中的个体会产生相同的影响,即 θt 对所有个体都相同。但实际中,实验组和控制组个体可能因为某些不可观测因素的影响,使得其在面临相同的环境因素的冲击时做出不同的反应,此时 DID 的应用就会出现问题。针对以上问题,国外学者在使用DID的过程中,逐步对其进行了扩展,扩展的方向主要有两个: 一是考虑 DID 中未控制的因素,从而进一步放松其应用条件; 二是将 DID 与 Matching 等其他政策评估方法结 合 起 来,提出新的估计量。 比 如: Bell 等 ( 1999) 考虑了个体所处的环境对个体的不同影响, 提出了经趋势调整的估计量; Heckman 等( 1997 ) 提出了“条 件 DID”这一新的估计量 ( conditional DID estimator) ,将 Matching 与 DID 方法结合起来应用, 不仅能大大降低选择偏差,且结果更为可信。但不容忽视的是,条件 DID 仍要满 足“共同支撑域” 假定。
4、倾向匹配方法
来源:计量经济学