多期三重差分法和双重差分法的操作指南

因果推断研究小组 计量经济圈

欢迎投稿(荐稿)计量经济圈,计量相关都行

箱:econometrics666@sina.cn

copyrights@计量经济圈因果推断研究小组, 欢迎加入交流学习, 值得青睐的博士研究群体组织。

谢谢计量经济圈社群的这些话,来者都是缘分,我们是互相需要的大家庭。

 多期双重差分法建议使用Pooled OLS


我们在上一篇文章里(多期双重差分法,政策实施时间不同的处理方法)讲了,凡是对于政策实施时间不一致的情况,我们可以考虑“多期双重差分方法”。在那个DID模型里,只存在DID=treated*time这个交互项了,而且我们建议最好使用pooled最小二乘法来计算,即我们使用reg而不是xtreg,因为我们政策在各个地区实施的时间跨度很大,导致我们有些用来估计DID交互项的观测变量就不够了。比如,上海建地铁比较早,而长沙建地铁比较晚,可我们本来能搜集到的数据就只有2007-2016这么十年。现在若长沙是在2015年建地铁,那么他就只会在2015-2016这二年里是处于treated=1),而你xtreg需要进行组内估计,那就显得处于1的观测值太少了点。因此,我们可以把panel data这个数据结构给忽略了,直接使用类似于repeated cross section数据结构来估计DID

quietly: reg y αt βi  Xit  BC*After ,  cl(id)  // 没有加协变量

quietly: reg y αt βi  Xit  BC*After  Covariates ,  cl(id)  // 加了协变量

quietly: areg y αt βi  Xit  BC*After  Covariates iother,  a(id) cl(id) //arg: linear regression with a large dummy-variable set


DID交互项*其他变量可以识别影响机制 


我们上篇文章想要考察地铁修建对城市环境污染的影响。现在,我们可以看看修建地铁是否是通过影响小轿车(Car)、公共汽车(Bus)和摩托车(Motor)等三种出行方式的选择而间接影响了城市环境污染,因为这三种方式都会造成空气污染。此使,我们只需要把这个城市的小轿车、公共汽车和摩托车的数量(2007-2016的时间序列)与之前的DID交互项BC*After再次交叉相乘,并且再分别把Car, BusMotor的数量放在回归方程中就可以识别这种机制了。仔细看看下面的回归程序,是不是有点像DDD三重差分方法的表达式(我们会讲一讲DDD)。

 

quietly: areg y αt βi  Xit  BC*After BC*After*Car Car Covariates i.year, a(id) cl(id)

 

quietly: areg y αt βi  Xit  BC*After BC*After*Bus Bus Covariates i.year, a(id) cl(id)

 

quietly: areg y αt βi  Xit  BC*After BC*After*Motor Motor Covariates i.year, a(id) cl(id)

 

注意:genicv z = BC After // 可以自用用来产生交互项

 

插一句话:你如果还觉得DID也不能解决一些内生性问题,那你可以使用工具变量来进行稳健性检验:


qui:areg y BC Covariates i.year, a(id) cl(id)

est store a


qui: xi: ivregress 2sls y BC Covariates i.year (BC = Z1 Z2)

estat overid  //过渡识别检验看看选取的工具变量是不是外生的

est store b


hausman a b, constant sigmamore  // 用hausman检验工具变量是不是更有效率

 

再稍微通俗地讲解一下DDD三重差分的思路


我们现在想要研究香港推行的针对60岁以上的老年人的医保政策,假定该政策生效日期是2008年,那么我们想要知道是否这个医保政策促进了香港老年人的健康?每当看到这个的时,候我们首先需要问自己,这里面出现了几个有效信息。


从这个描述来看,我们能够得到三个有效信息:第一,该政策是在香港实行,第二,该政策是针对60岁以上老年人,第三,该政策生效日期是2008年。如果你发现有三个有效信息,一般而言,我们最好采用DDD三重差分法来更好地估计该医保政策的效果。标准的DID双重差分法,实际上是提供了两个有效信息:香港和2008,即在2008年香港执行该项医保政策,现在的情况是三个有效信息。


我们推演一下,为什么此处最好使用三重差分法来获得政策效应。如果不考虑其他没有执行该项政策的内陆省份的情况,直接用2008年之后香港60岁以上的老年人健康状况与2008年之前的香港60岁以上的老年人健康状况,那谁知道健康状况的变化是不是因为金融危机造成的,所以这里面的混淆因素就理不清楚了。这就是为什么我们需要把其他没有执行该医保政策的内陆省份包括进来作为控制组,来控制这些大环境因素造成的健康状况变化。


另外,如果直接用香港60岁以上老年人群体的健康状况(处理组)减去60岁以下中年人群体的健康状况(控制组),那有什么大的问题呢?我们压根分不清这个处理组与控制组健康状况差异到底是不是由于这个医保政策造成的,毕竟老年人和中年人群体的健康状况本来就存在系统性的差异。


标准的三重差分就像下面这个式子所展示的那样,他的变异形式就比较广了,只要有三个交互项的乘积在里面(DID*其他任何一个变量),那他就可以叫做三重差分。


计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈六多精神:计量资料多,社会科学数据多,科研牛人多,名校人物多,热情互助多,前沿趋势多。如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群。

帮点击一下下面的小广告,谢谢支持!

Modified on
    Added to Top Stories

    Sending