2004 QJE 文献总结:双重差分若可信,应从推断来说起 (1)
此文章总结2004年发表在QJE上关于双重差分推断的文献,链接如下 Marianne Bertrand, Esther Duflo, Sendhil Mullainathan, How Much Should We Trust Differences-In-Differences Estimates? The Quarterly Journal of Economics, Volume 119, Issue 1, February 2004, Pages 249–275, https://doi.org/10.1162/003355304772839588.
1. 概览
1.1 研究问题:这篇文章讨论的是双重差分的推断(statistical inference)问题,并用蒙特卡洛模拟方法(Monte Carlo Simulation)提出解决措施。
1.2 结果预览:当结果变量(outcome)序列相关时(serially correlated),双重差分的标准差会严重低估真实的标准差(standard deviations),从而使得统计推断过度拒绝原假设(over-rejection of null hypothesis),从而引起推断错误。文章用蒙特卡洛模拟方法(Monte Carlo Simulation)去探究解决此问题的方法,并发现当州(文中双重差分使用州和时间两个维度的变化层面,州为其中一个变化层面)的数量足够大时,Bootstrap可以解决双重差分的推断问题;如果当州的数量不多不少时,基于方差协方差矩阵的渐进近似方法(asymptotic approximation of the variance-covariance matrix),两步修正(two corrections)也可以解决此问题;如果当州的数量比较少时,将时间序列数据归类为政策推行前和推行后两个时期进行比较也可以解决此问题。
2. 详述
2.1 文献中双重差分论文的特征: 序列相关问题在多大程度上造成双重差分中t值和显著值的错误判断,主要取决于三部分:1)时间序列的长度;2)因变量的序列相关程度;3)是否采取任何措施修正这种误估。TABLE I 罗列了这篇文章收集到的关于双重差分的论文,平均时间序列长度为16.5, 结果变量大多都有一定程度的序列相关,而绝大部分论文没有讨论结果变量序列相关问题。
2.2 安慰剂政策和双重差分推断的误估程度
此为传统的双重差分模型,用OLS的方法对双重差分估计值进行推断。
作者用Current Population Survey(CPS)中女性工资的数据,估计当结果变量序列相关,却不修正双重差分标准误,会带来的误判程度。TABLE II 随机选择了实验州和控制州,并且随机选择了安慰剂政策的时间,并用传统不加修正的双重差分标准误来做统计推断。TABLE II 说明如果结果变量存在正序列相关性,那么传统的双重差分推断会高估t值和显著值,过度拒绝原假设。 如果政策没有序列相关性,那么OLS标准误的估计是正确的。
TABLE II 第一行,作者没有对标准误进行聚类调整(cluster errors),真实值为5%的拒绝原假设率,估计出来的却是67.5%;第二行,作者对标准误进行聚类调整,真实值为5%的拒绝原假设率,估计出来的是44%。 通过对比第一行和第二行,我们发现,不聚类调整标准误会使得我们错误估计方差协方差矩阵(covariance-variance matrix),把块矩阵(block matrix)当作对角矩阵(diagonal matrix) ,也就是说我们不允许州与年内的标准误有关联(correlation within state-year cell),因此过度拒绝。 但我们同样发现,只是聚类调整标准误并不能完全解决问题。而TABLE II 第五行,告诉我们如果政策是没有序列相关性的,那么OLS标准误的估计是正确的。
TABLE III 告诉我们变化州的数量基本解决不了什么问题,而时间序列的变短会缓解时间序列相关带来的误判。
欲知解决措施如何,且听下回分解。