查看原文
其他

如何设计双重差分法DID: 各种政策研究的最佳指南!

计量经济圈 计量经济圈 2022-05-11

凡是搞计量经济的,都关注这个号了

箱:econometrics666@126.com

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

正文

关于下方文字内容,作者:李松泽,中央财经大学中国经济与管理研究院,通信邮箱:964916858@qq.com
作者之前的文章:
实证应用经济学中的稳健性检验是什么? 怎么做?哪些策略呢?
中介效应分析新进展和检验方法!
谁嫁(娶)给了谁?基于CHIP的DID方法发现, 与岳父母的教育有关!
重新思考BK中介模型, 关于中介效应分析的神话与事实!
JEEM上关于中国环境领域下载量最高的文章很有意思!
男神毛咕噜最新Top5大作, 另外, 有序因变量依然使用OLS回归!
万字长文述"家庭经济学"进展, 诺奖得主贝克尔长耕于此!
最全利用工具变量控制内生性的步骤和代码—在经管研究中的应用
Designing Difference in Difference Studies: Best Practices for Public Health Policy Research Coady Wing, Kosali Simon, Ricardo A. Bello-Gomez Annual Review of Public Health 2018 39:1, 453-469
The difference in difference (DID) design is a quasi-experimental research design that researchers often use to study causal relationships in public health settings where randomized controlled trials (RCTs) are infeasible or unethical. However, causal inference poses many challenges in DID designs. In this article, we review key features of DID designs with an emphasis on public health policy research. Contemporary researchers should take an active approach to the design of DID studies, seeking to construct comparison groups, sensitivity analyses, and robustness checks that help validate the method's assumptions. We explain the key assumptions of the design and discuss analytic tactics, supplementary analysis, and approaches to statistical inference that are often important in applied research. The DID design is not a perfect substitute for randomized experiments, but it often represents a feasible way to learn about casual relationships. We conclude by noting that combining elements from multiple quasi-experimental techniques may be important in the next wave of innovations to the DID approach.

在研究公共卫生领域的因果关系时,随机控制实验(RCTs)往往会受到可行性与伦理的约束。此时,双重差分(difference in difference, DID)便成为学者们最常使用的准实验设计(quasi-experimental research design),它适用于比较在不同时期受不同政策及环境因素影响的组别产生的效果。本文回顾了DID的主要特征及其在公共卫生政策评估中的应用,强调了DID设计需要满足的关键假设和相应的分析策略,并展示了应用研究中的辅助分析和统计推断方案。



1.4 共同趋势假设
正如前文所述,DID研究设计依赖于共同趋势假设:影响结果的未观测变量要么是不随时间改变的组内特征,要么是不随组别改变的时间趋势。直观来看,该假设意味着各组结果变量的时间序列图像在处理发生前应该是一组平行曲线。
共同趋势假设可以进行统计检验,但仍有必要在概念上对它进行辨析。应该明确固定效应结构试图控制的未观测变量具体是什么,而不能仅仅抽象地分析趋势本身。以疫苗政策为例,与其考虑“如果没有新的政策,两个州的疫苗接种率是否具有相同的时间趋势”,不如思考“哪些(未观测)因素能够解释疫苗接种率在不同州以及不同时期的变动”。明确未观测变量还有助于完善研究设计。例如在构建合成控制组(synthetic control groups)时,若某一组别的过往特征与处理组存在不同,则应该为其赋予更低的权重或直接将其排除。
当共同趋势假设仅对某几组或某几期成立而不适用于全样本时,一种可行的研究设计是先进行倾向得分匹配(propensity score matching),然后再对匹配所得样本用DID来估计处理效应。
1.5 严格外生性
DID方法的核心在于通过差分来消除未被观测的且不随时间或组别变化的混杂变量。为了保证该方法有效实施,政策的处理需要满足严格外生(strict exogeneity)条件:给定时间固定效应和组内固定效应,接受处理的顺序应当独立于潜在结果的分布,即

上式意味着某一组别在期是否接受处理与该组在期以及之前的结果变量无关。这一严格的约束条件在现实当中很可能失效,例如各个州会根据它们关注的结果变量来调整监管措施,而各个公司也会根据不久之后可能发生的监管措施来改变自身行动。这些都会威胁DID设计的有效性。检验严格外生性的一种方法是将政策实施与否作为因变量,将研究所关注的结果变量作为解释变量,看后者能否预测前者。
2 共同趋势假设的敏感性分析和稳健性检验
2.1 图像证据
对于两组两期的DID设计,共同趋势假设是无法被验证的。但若研究情境中存在处理发生前的多个时期,我们便可以通过分组绘制结果变量均值的时间序列图像来初步判断共同趋势假设是否成立。这种方法比较适用于时间序列较长且结果变量均值跨期波动平缓的情形。
图像证据还有助于展示政策冲击的强度,为后续的统计检验做铺垫。
2.2 组内特异线性趋势
当存在两期以上的观测数据时,通过拟合包含组内特异线性趋势(group-specific linear trends)的拓展DID回归方程也可以检验共同趋势假设是否成立:

若通过F检验得出联合显著,则可以认为共同趋势假设失效。实践中,研究者常采用更加简便(随意)的判断方式:若处理效应的估计值对是否控制组内特异线性趋势不敏感,则可以认为DID设计是有效的。
2.3 组分变化的平衡检验
在RCT和匹配设计中,研究者为了证明处理组和控制组在处理发生前的是类似的,需要给出两组协变量呈相似分布的证据。而在适用于DID的情境中,处理组和控制组在处理发生前通常也存在差异,所以仅仅呈现协变量平衡表无法说明研究设计的有效性。真正需要证明的是两组之间的差异不会随时间改变,并且处理发生的变动与协变量分布的变动无关。令表示组g在t时期可观测的协变量,则可以估计如下的协变量平衡回归方程(covariate balance regressions)

2.6 三重差分
当存在同时随时间和组别改变的混杂变量时,DID的共同趋势假设便不再成立。可以通过三重差分(difference in difference in difference, DDD)来解决这个问题:在原先的组别中寻找不受政策干预但受组内特有时变混杂变量影响的个体构成一个新的对照组,然后分别对原有数据和新增数据进行DID估计。新增对照组的DID估计结果代表了组内特有的时变混杂变量产生的影响,而原有数据的DID估计结果则是处理效应与混杂变量影响的加总。通过对两个DID估计结果作差,即可排除混杂因素的影响,得到处理效应的估计。
考虑一个具体的案例。假设美国的部分州针对大型医院新征一种税,我们想评估这一政策对护士收入的影响。由于征税州存在与免税州不同且随时间改变的社会经济特征,所以仅对全美大型医院构成的样本进行DID估计无法准确评估处理效应。此时可以对征税州和免税州的小型医院数据进行类似的DID估计,并从先前得到的估计中减去该值,所得DDD估计量即为税收政策的处理效应。
3 双重差分中的统计推断
DID研究在统计推断方面也面临着重大挑战。Moulton (1990) 指出,在研究宏观变量对微观个体影响的回归分析中,系数标准误的估计往往会存在向下偏误,从而导致原假设更容易被拒绝。偏误的幅度随组内样本的数量、回归元及误差项的组内相关性的增加而提高。Bertrand et al. (2004) 指出,多数DID研究的组内样本数量较多,并且误差项和主要自变量均存在较大程度的组内相关性,因此使用OLS无法获得一致估计量。之后的一系列研究为DID设计了更合适的统计推断方案,Cameron & Miller (2015) 对此进行了全面的综述。
4 政策变动与异质性
当一项政策直接在全国层面统一推行时,可以寻找其他国家作为对照组,或利用合成控制法对其他国家进行加权平均来构造对照组。
对于美国而言,虽然卫生政策是在州级层面确定的,但由于它们均以特定的示范法(model law)为立法依据,所以各州的政策立法往往呈现一致性。评估这类政策时,学者可以对各州分组,并利用采纳政策时间的变异性来实现DID设计。
尽管多数法案在州与州之间呈标准化趋势,但政策的具体实施过程会因当地政治因素而呈现明显的差异性。一种应对方案是根据政策特征将各州划分为若干组。无论采取哪种分类原则,都会有个别样本因难以划分而被剔除,此时应注意估计结果的稳健性。另一种方案是将回归方程中的二元处理变量替换为连续变量(多为线性形式),例如如税率、医疗补助费用或最低工资。当政策存在多个维度上的异质性时,可以通过测算受影响群体的比例来为该政策的总体强度提供线性(一维)度量,相应的DID估计应被解读为政策覆盖范围的扩大对结果变量的影响。
5 讨论
DID方法是评估公共卫生政策时最常用的准实验设计。只有在仔细审视研究情境是否符合共同趋势假设、政策处理是否满足严格外生的基础上,才能开展高质量的DID研究。双重差分的两个维度不一定局限于时间和空间,因此DID方法同样适用于截面数据。
未来的研究应该综合利用DID和其他的准实验设计(例如匹配、断点回归、合成控制,等等)来完成更加有效的因果推断。
参考文献

[1] Moulton, Brent R, 1990. "An Illustration of a Pitfall in Estimating the Effects of Aggregate Variables on Micro Unit," The Review of Economics and Statistics, 72(2), 334-338.

[2] Marianne Bertrand & Esther Duflo & Sendhil Mullainathan, 2004. "How Much Should We Trust Differences-In-Differences Estimates?," The Quarterly Journal of Economics, 119(1), 249-275.

[3] Cameron, A. C. , & Miller, D. L., 2015. “A practitioner's guide to cluster-robust inference,” Journal of Human Resources, 50(2), 317-372.

关于DID相关文章

0.双重差分DID方法免费课程, 文章, 数据和代码全在这里, 优秀学人必须收藏学习!1.DID运用经典文献,强制性许可:来自对敌贸易法的证据2.连续DID经典文献, 土豆成就了旧世界的文明3.截面数据DID讲述, 截面做双重差分政策评估的范式4.RDD经典文献, RDD模型有效性稳健性检验5.事件研究法用于DID的经典文献"环境规制"论文数据和程序6.广义DID方法运用得非常经典的JHE文献7.DID的经典文献"强制许可"论文数据和do程序8.传销活动对经济发展影响, AER上截面数据分析经典文9.多期DID的经典文献big bad banks数据和do文件10.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章12.第二篇因果推断经典,工作中断对工人随后生产效率的影响?13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文,14.AER上以DID, DDD为识别策略的劳动和健康经济学,15.一个使用截面数据的政策评估方法, 也可以发AER,16.多期DID模型的经典文献,big bad banks讲解",17.多期DID的经典文献big bad banks数据和do文件,18.非线性DID, 双重变换模型CIC, 分位数DID,19.模糊(Fuzzy)DID是什么?如何用数据实现呢?20.多期DID的big bad banks中文翻译版本及各细节讲解,21.DID中行业/区域与时间趋势的交互项, 共同趋势检验, 动态政策效应检验等,22.截面数据DID操作程序指南, 一步一步教你做,23.DID的研究动态和政策评估中应用的文献综述,24.连续DID经典文献, 土豆成就了旧世界的文明,25.DID双重差分方法, 一些容易出错的地方,26.连续DID, DDD和比例DID, 不可观测选择偏差,27.加权DID, IPW-DID实证程序百科全书式的宝典,28.DID和DDD, 一个简明介绍, 双重和三重差分模型,29.DID过程中总结的地图展示技巧,30.DID的平行趋势假定检验程序和coefplot的其他用法,31.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理,32.实践中双重差分法DID暗含的假设,33.过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图,34.计量院士首次用DID方法分析, 中国封城对新冠病毒扩散的影响!,35.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理,36.诺奖夫妇的中国学生, “DID小公主”的成名之作, 茶叶价格与中国失踪女性之谜!,37.前沿: 反向DID, 反向双重差分法DDR全解析, 辅以实证示例!38.英诺丁汉大学校长为你讲解逐年PSM匹配-DID方法的操作, 并配上自己写的一篇范文!39.逐年PSM匹配后再DID识别因果的实证范文, 这就是逐年PSM-DID的操作范式!40.用事件研究法进行因果识别如何做? 有什么好处? 与DID结合起来潜力无穷!41.Abadie半参数双重差分DID估计量, 使你的平行趋势假设更加可信!42.弹性DID, DID的终极大法, 关于DID各方法总结太赞了!43.二重差分法分析(DID)44.比DID更加灵活的DDID政策效应评估方45.DID思路和操作,一篇相关实证文献46.二重差分法深度分析(DID),三重差分兼论47.面板数据的DID估计,透彻解读48.PSM-DID, DID, RDD, Stata程序百科全书式的宝典49.关于DID的所有解读, 资料, 程序, 数据, 文献和各种变形都在这里50.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例51.PSM-DID, DID实证完整程序百科全书式的宝典52.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器53.广义DID, DID最大法宝, 无所不能的政策评估工具54.渐进DID专治各种渐进性政策的良药, 可试一试疗效55.双重差分DID的种类细分, 不得不看的20篇文章56.找不到IV, RD和DID该怎么办? 这有一种备选方法57.在教育领域使用IV, RDD, DID, PSM多吗? 使用具体References58.DID和IV操纵空间大吗? 一切皆为P-hacking59.第一篇中文DID实证论文长啥样? 60.世界上第一篇DID实证论文长啥样?61.关于双重差分法DID的32篇精选Articles专辑!62.空间双重差分法(spatial DID)最新实证papers合辑!63.空间DID双重差分方法的文献, spatial DID64.多期三重差分法和双重差分法的操作指南65.多期双重差分法,政策实施时间不同的处理方法66.三重差分法运行和示例

关于一些计量方法的合辑,各位学者可以参看如下文章:实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存