查看原文
其他

Abadie半参数双重差分DID估计量, 使你的平行趋势假设更加可信!

计量经济圈 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于DID双重差分法,我们引荐了1.DID运用经典文献,强制性许可:来自对敌贸易法的证据2.连续DID经典文献, 土豆成就了旧世界的文明3.截面数据DID讲述, 截面做双重差分政策评估的范式4.RDD经典文献, RDD模型有效性稳健性检验5.事件研究法用于DID的经典文献"环境规制"论文数据和程序6.广义DID方法运用得非常经典的JHE文献7.DID的经典文献"强制许可"论文数据和do程序8.传销活动对经济发展影响, AER上截面数据分析经典文9.多期DID的经典文献big bad banks数据和do文件10.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章12.第二篇因果推断经典,工作中断对工人随后生产效率的影响?13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文14.AER上以DID, DDD为识别策略的劳动和健康经济学15.一个使用截面数据的政策评估方法, 也可以发AER16.多期DID模型的经典文献,big bad banks讲解",",17.多期DID的经典文献big bad banks数据和do文件18.非线性DID, 双重变换模型CIC, 分位数DID

19.模糊(Fuzzy)DID是什么?如何用数据实现呢?20.多期DID的big bad banks中文翻译版本及各细节讲解21.DID中行业/区域与时间趋势的交互项, 共同趋势检验, 动态政策效应检验等22.截面数据DID操作程序指南, 一步一步教你做23.DID的研究动态和政策评估中应用的文献综述24.连续DID经典文献, 土豆成就了旧世界的文明25.DID双重差分方法, 一些容易出错的地方26.连续DID, DDD和比例DID, 不可观测选择偏差27.加权DID, IPW-DID实证程序百科全书式的宝典28.DID和DDD, 一个简明介绍, 双重和三重差分模型29.DID过程中总结的地图展示技巧30.DID的平行趋势假定检验程序和coefplot的其他用法31.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理32.实践中双重差分法DID暗含的假设33.过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图34.计量院士首次用DID方法分析, 中国封城对新冠病毒扩散的影响!35.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理36.诺奖夫妇的中国学生, “DID小公主”的成名之作, 茶叶价格与中国失踪女性之谜!37.前沿: 反向DID, 反向双重差分法DDR全解析, 辅以实证示例!38.英诺丁汉大学校长为你讲解逐年PSM匹配-DID方法的操作, 并配上自己写的一篇范文!39.逐年PSM匹配后再DID识别因果的实证范文, 这就是逐年PSM-DID的操作范式!40.用事件研究法进行因果识别如何做? 有什么好处? 与DID结合起来潜力无穷!等等。

正文

关于下方文字内容,作者:王欣睿,美国威斯康辛大学麦迪逊分校经济系通信邮箱:xwang2344@wisc.edu

The difference-in-differences estimator measures the effect of a treatment or policy intervention by comparing change over time of the outcome variable across treatment groups. To interpret the estimate as a causal effect, this strategy requires that, in the absence of the treatment, the outcome variable followed the same trend in treated and untreated groups. This assumption may be implausible if selection for treatment is correlated with characteristics that affect the dynamic of the outcome variable. In this article, I describe the command asdid, which implements the semiparametric difference-in-differences (SDID) estimator of Abadie (2005, Review of Economic Studies 72: 1–19). The SDID is a reweighing technique that addresses the imbalance of characteristics between treated and untreated groups. Hence, it makes the parallel trend assumption more credible. In addition, the SDID estimator allows the use of covariates to describe how the average effect of the treatment varies for different groups of the treated population.
1. 概述
Abadie半参数双重差分估计量
摘要
双重差分(DID)估计量通过比较不同处理组的结果变量随时间的变化来衡量实验处理或政策干预的效果。要想将估计结果解释为因果关系,双重差分法要求在不进行处理的情况下,结果变量在实验组和对照组中遵循相同的变化趋势。如果处理的选择与影响结果变量动态变化的特征相关,那么该假设可能是不可信的。在本文中,我描述了asdid命令,该命令实现了Abadie的半参数双重差分(SDID)估计(2005,Review of Economic Studies 72:1-19)。SDID是一种重新加权的技巧,用于处理已被处理组和未被处理组之间的特征失衡。因此,它使平行趋势假设更加可信。另外,SDID估计量可以使用协变量来描述平均处理效果如何随不同被处理组而变化。

1 半参数双重差分估计量

如Abadie (2005)所述,在估计ATT的标准误时,我们会考虑与倾向得分估计有关的误差,这与所使用的近似方法无关。其他估计量使用倾向得分来估计ATT。核匹配(kernel matching)和最近邻匹配(nearest neighbor matching)估计量是最广泛用于准实验识别的估计量。但是,这两个估计量都假定倾向得分已经被给出,而不是去估计出倾向得分,并且产生的平均估计值比Abadie估计量的标准误更小。

2 absdid 命令

Abadie (2005)在半参数双重差分(SDID)估计量的实证应用中编写了MATLAB代码,absdid命令是其Stata等效项 [1]。absdid通过比较各处理组的结果随时间的变化来估计ATT,同时调整各处理组之间在基线上与倾向得分相关的可观测特征的差异。
2.1 句法
absdid depvar [if] [in], tvar(varname) xvar(varlist) [yxvar(varlist) order(#) sle csinf(#) csup(#)]
其中depvar 表示对每一个观测值我们所感兴趣的结果变量在基线与接受处理后的变化。
2.2 选项
tvar(varname) 是一个二元处理变量。当测对象被处理时取值为1,未被处理时取值为0。tvar() 是必需的。
xvar(varlist) 是控制变量。它们可以是连续变量或二元离散变量,被用于估计倾向得分。xvar() 是必需的。
yxvar(varlist) 是一系列可以修改处理效果的变量。处理效果被默认假设为恒定的。
order(#) 代表用于估计倾向得分的多项式函数的阶数。它取整数值且默认值为order(1)。
sle 强制使用logistic 函数形式来估计倾向得分(请参阅Hirano,Imbens和Ridder [2003])。这保证了估计出来的倾向得分一定大于0且小于1。如果不使用此命令,将默认采用线性回归来估计倾向得分。
csinf(#) 舍弃掉倾向得分小于#的观测值。默认值是csinf(0)
csup(#) 舍弃掉倾向得分大于#的观测值。默认值是csup(1)

3 实例

为了说明absdid的运行原理,让我们重新做一遍Abadie的网站上的应用练习。我们估计参加工会对工会女员工工资的影响。所使用的数据是当前人口调查的摘录,即美国政府对失业和劳动力参与情况的每月调查。数据包括在1996年观察到的并且在1997年重新调查到的女性员工(见表1)。这些工人在1996年没有加入工会,因此我们可以通过1996年至1997年加入工会的工人来识别参加工会对工资的影响。
如果一个工人加入工会,则她1997年的工资记为w1,97;如果没有加入工会,则其工资记为w0,97。由于传统上工资的波动是通过对数正态分布建模的,因此我们所感兴趣的参数如下:
ATT{log(w)} ≡ E{log(w1,97)−log(w0,97)|union97 = 1}
为了简单起见,我们报告对ATT{log(w)} 的估计,并将结果解释为加入工会对工资变化百分比的影响。[2]
如果在1997年女性员工是被随机选择加入工会的,那么我们可以通过比较1997年加入工会和未工会的工人的工资的对数来估计ATT{log(w)}。考虑到1997年加入工会的女性员工与未加入的女性员工在年龄,教育水平和种族方面的差异(请参阅表1),我们使用了SDID方法。
我们假设在没有工会的情况下,在年龄、学历、种族、居住状况和活动部门相同的情况下,加入工会的工人的工资动态变化将与未加入工会的工人的工资动态变化相似。如果该假设成立,我们可以使用absdid命令来计算加入工会对女性员工工资效应的SDID估计值。

首先,如(1)中所述的那样,我们需要一个变量(dlwage),用于度量基线和随访人群之间工资的变化的百分比。第二,我们需要一个二元变量(union97),用来表示已接受处理和未接受处理的人群。第三,我们需要一列控制变量,用来控制加入工会的工人和未加入工会的工人之间存在差异。让我们考虑一下年龄、是否是黑人、是否是西班牙裔和年级等变量,这些变量报告了这些工人在1996年时的年龄、种族背景和受教育程度。有了这些数据,我们就可以估计出加入工会对女性员工工资的影响的SDID估计量了:
. absdid dlwage, tvar(union97) xvar(age black hispanic married grade)

Number of obs表示估计所使用的满足(3)的观测值的数量,即其倾向得分大于0且小于1的观测值。尽管样本有18,470个观测值,但只有18,469个观测值用于估计ATT。这表明1个观测值的估计倾向得分小于或等于0或大于或等于1。这并不奇怪,因为默认情况下,absdid使用线性回归来估计倾向得分。因此,预测值通常可以为负或大于1。为避免任何信息的丢失,我们可以添加sle选项。[3]
. absdid dlwage, tvar(union97) xvar(age black hispanic married grade) sle

要舍弃倾向得分非常小或非常大的观察结果,我们可以使用csinf和csup选项来限定倾向得分的最低和最高可接受值。在下面的示例中,我们将ATT的估计值限制为倾向得分在0.01到0.99之间的女性员工。
. absdid dlwage, tvar(union97) xvar(age black hispanic married grade) csinf(0.01) csup(0.99)

当加入工会对工资的效应恒定且不随工人特征而变化时,absdid命令的执行结果将展示ATT的点估计,这与估计倾向得分的方法无关。总体而言,研究结果表明,1997年加入工会使女性员工的工资增加了3.6%。这个效应的估计不会随是否选择sle而改变。
同样,我们也可以考虑加入工会对工资的影响随工人的特点而变化的情况。例如,加入工会对工资的影响可能会随着工人的年龄而变化。有经验的工人(基于年龄)通常很稀缺。因此,他们具有更强的议价能力,可能不需要加入工会来为其工资谈判。因此,我们可以预期加入工会对工资的影响会随着工人的年龄而降低。同样,加入工会对工资的影响也可能随教育水平而变化。在其他方面类似的情况下,未完成高中的工人加入工会对其工资的影响应该比完成了高中或大学的工人的更大。我们在下面的命令及估计结果中可以看到加入工会对女性员工工资的影响是如何随其年龄和教育水平而变化的。
. absdid dlwage, tvar(union97) xvar(age black hispanic married grade) yxvar(age hschool college) sle

正如我们所预期的那样,结果表明加入工会对工资的影响随着年龄和文化程度的增大而下降。考虑到样本中在1996年女性员工的平均年龄为39岁,加入工会可以使女性员工的平均工资增加31.8%(即0.458-39×0.0036 = 0.3176)。相比之下,在1996年时,对50岁的工人而言,估计加入工会对工资的影响为16.1%。同样的,与1996年没有文凭的工人相比,最高学历为高中的工人加入工会对其工资的影响下降了31%。令人惊讶的是,拥有大学文凭的工人与没有文凭的工人相比,加入工会对其工资的影响在统计学上没有显著差异。这可能是因为样本量较小:在1996年至1997年之间,只有7.3%的拥有大学文凭的女性员工加入了工会。
要重现Abadie网站上的实证结果中表II的结果,我们需要考虑可能影响倾向得分的其他控制变量。我们还需要增加用于估计倾向得分的多项式函数的阶数。
首先,Abadie考虑了更多的控制变量,包括年龄、种族以及关于受教育程度、居住状况、活动领域和采访日期的固定效应。让我们将此列表称为cvars并将其保存在宏中:
. local cvars age black hispanic married i.grade i.state i.dind i.month
其次,Abadie使用了4阶多项式函数来估计倾向得分。使用上面列出的控制变量并将4作为多项式函数的阶数,我们重现了Abadie网站上展示的针对女性员工的估计结果:
. absdid dlwage, tvar(union97) xvar(`cvars´) order(4)

. absdid dlwage, tvar(union97) xvar(`cvars´) yxvar(age hschool college) order(4)


这些结果显示在表2的第(1)和(2)栏中。它们与Abadie在其实证研究中发现的女性员工加入工会对其工资的影响是相似的。

4 讨论

对于给定的一组控制变量和预测变量,SDID的估计值随所使用的近似方法(sle或默认的简单线性概率模型)以及所使用的多项式近似的阶数(order(#))而变化。为了减少改变近似方法带来的套利空间,我们可以使用交叉验证(cross validation)技巧来确定最适用于半参数近似倾向得分的方法组合。这样做还可以帮助处理LPM可能会产生倾向得分为负值或大于1的的估计值的情况。当使用SLE近似值时,能够由控制变量完美预测处理状态的观察值将被从估计中舍弃。但是,在大多数情况下,使用sle选项进行近似倾向得分时,可以用于估计ATT的样本量会更大。
以我们的最新示例为对比对象,表2展示了我们对加入工会对工人工资的影响的估计如何随所使用的近似方法而变化。
总而言之,SDID方法最适合于具有基线和随访环节的纵向调查。想要使用absdid命令的话,使用者需要对每个观测值的主要结果变量随时间的变化以及处理状态和基线特征进行测量。

5 参考文献

Abadie, A. 2005. Semiparametric difference-in-differences estimators. Review of Economic Studies 72: 1–19.
Hirano, K., G. W. Imbens, and G. Ridder. 2003. Efficient estimation of average treatment effects using the estimated propensity score. Econometrica 71: 1161–1189.
Kennedy, P. 1981. Estimation with correctly interpreted dummy variables in semilogarithmic equations. American Economic Review 71: 801.
Rosenbaum, P. R., and D. B. Rubin. 1983. The central role of the propensity score in observational studies for causal effects. Biometrika 70: 41–55.

评论

DID需要假设在不进行处理的情况下,结果变量在实验组和对照组中遵循平行变化趋势。如果处理的选择与影响结果变量动态变化的特征相关,即这些特征在实验组和对照组之间不平衡,那么该假设是不可信的。
SDID是一种重新加权的技巧,它通过对与实验组特征相似的对照组观测值赋予更大的权重,使实验组和对照组之间的特征更加均衡,因此,使条件平行趋势假设更加可信。
SDID方法最适合于具有基线和随访环节的纵向调查。要使用absdid命令,使用者需要对每个观测值的主要结果变量随时间的变化以及处理状态和基线特征进行观测。

[1] 原始代码是为衡量加入工会对工人工资的影响而特别编写的。请参阅http://www.hks.harvard.edu/fs/aabadie/cdid_union.m.
[2] 实际上,可以使用Kennedy (1981)提出的变换来更准确地估计加入工会对工资效应的百分比。
[3] 当使用sle时,如果有出现了完美预测,一些观测值仍然可能被倾向得分估计舍弃。例如,当给定行业中的所有工人都加入了工会或都未加入工会时,就会发生这种情况。在这种情况下,仅使用观测状态无法完全预测处理状态的观测值来估计ATT。

关于Stata相关技能,各位学者可以参阅如下文章:1.Stata16新增功能有哪些? 满满干货拿走不谢2.Stata资料全分享,快点收藏学习3.Stata统计功能、数据作图、学习资源等4.Stata学习的书籍和材料大放送, 以火力全开的势头5.史上最全Stata绘图技巧, 女生的最爱6.把Stata结果输出到word, excel的干货方案7.编程语言中的函数什么鬼?Stata所有函数在此集结8.世界范围内使用最多的500个Stata程序9.6张图掌握Stata软件的方方面面, 还有谁, 还有谁?10.LR检验、Wald检验、LM检验什么鬼?怎么在Stata实现11.Stata15版新功能,你竟然没有想到,一睹为快12."高级计量经济学及Stata应用"和"Stata十八讲"配套数据13.数据管理的Stata程序功夫秘籍14.非线性面板模型中内生性解决方案以及Stata命令15.把动态面板命令讲清楚了,对Stata的ado详尽解释16.半参数估计思想和Stata操作示例17.Stata最有用的points都在这里,无可替代的材料18.PSM倾向匹配Stata操作详细步骤和代码,干货十足19.随机前沿分析和包络数据分析 SFA,DEA 及Stata操作20.福利大放送, Stata编程技巧和使用Tips大集成21.使用Stata进行随机前沿分析的经典操作指南,22.Stata, 不可能后悔的10篇文章, 编程code和注解23.用Stata学习Econometrics的小tips, 第二发礼炮24.用Stata学习Econometrics的小tips, 第一发礼炮25.广义合成控制法gsynth, Stata运行程序release26.多重中介效应的估计与检验, Stata MP15可下载27.输出变量的描述性统计的方案28.2SLS第一阶段输出, 截面或面板数据及统计值都行29.盈余管理指标的构建及其Stata实现程序, 对应解读和经典文献30.Python, Stata, R软件史上最全快捷键合辑!31.用Stata做面板数据分析, 操作代码应有尽有32.用Stata做面板数据分析, 操作代码应有尽有33.没有这5个Stata命令, 我真的会活不下去34.第一(二)卷.Stata最新且有趣的程序系列汇编35.第三卷.Stata最新且急需的程序系列汇编36.第四卷.Stata最新且急需的程序系列汇编37.干货: UN和WTO推荐的最全且权威的实证研究方法及在Stata实现!必收藏!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存