查看原文
其他

理解DID出了什么问题?双向固定效应模型TWFE与异质性处理效应drdid和csdid

理解DID出了什么问题?

2 × 2DID设计

因此,让我们从我读过的关于DID模型的大多数论文所使用的构建块开始。这是2x2标准设计。

在基本的2x2 DiD设计中,您在两个时间周期中观察到两组观测值。

在第一阶段,这两组都不接受治疗。所以无论出于什么目的,你都可以假设它们在每一个语句中都是相同的。

然而,在第二阶段,其中一组接受治疗(培训计划、药物或其他类型的治疗),而另一组则“不接受治疗”。

一旦实验完成,你就可以设计一个简单的2x2矩阵来帮助分析数据,并量化治疗的影响:


为了简化标记,我将假设所有的- yXY -表示在Y时刻(前=0后=1)- X组(治疗=1或未治疗=0)的平均结果。

我们如何估计治疗效果?

我们知道治疗发生在T=1。人们可能愿意通过简单地获得治疗组和未治疗组之间的结果差异“y11-y01”(第一个D)来估计TE。

然而,这是不正确的,因为这种差异解释了治疗效果和“自我选择偏差”。换句话说,他们的平均结果可能存在差异,因为两组人一开始就不同。

另一种方法是只观察治疗单位,并评估在“y11-y10”治疗后其结果增加了多少。这也是不正确的,因为观察到的变化可能是一些自然增长或趋势的结果,单元经历独立于处理。(第二个D)

然而,最好的方法是将两种策略结合起来。换句话说,获得差异中的差异,以确定治疗效果。

直观地说,这可以从两方面考虑:

通过比较治疗后与未治疗结果的差异与治疗前的结果差异来估计治疗效果。

本质上,如果第二个时期的选择偏差与第一个时期观察到的选择偏差相同,那么这就捕获了TE。

通过比较治疗组与未治疗组在不同时间内的结局变化来估计TE。

两种策略都能得到相同的结果,但前提条件略有不同。

第一种是在“偏差-稳定”假设下。无论什么因素解释了治疗后和未治疗结果之间的差异,治疗前都是一样的。(这样他们就可以被淘汰)

第二种是基于平行趋势假设。如果治疗的结果与未治疗的单位经历的结果相似且平行的变化,那么双重差异也会消除它们。

这就是DID 2x2策略。如果基本假设成立,你就不会错。不管是否令人惊讶,问题在于当你拥有更多数据时会发生什么。


多时期DiD TxG设计

正如我之前说过的,这与比我聪明的人之前说过的一致,简单的情况很容易估计和正确处理。我们甚至可以用简单的线性回归分析来分析数据,并估计TE:

y_it = a0 + a1*tr + a2*t + TE * (tr*t) +e_it

问题来自于具有更多时间段和组(在不同时间处理)的设计。我将粗略地基于Callaway和Sant 'Anna(2020)的解释。

假设有4个周期:T= 0,1,2,3;和4个“组”G =从未治疗(NT), 1,2,3

“T”作为时间变量的想法类似于2x2的设计。改变的是治疗标识符的概念。

在此之前,我使用“TR”这个名称来标识处理(1)或未处理(0)的单元。然而,当在分析中添加更多时间段时,我们增加了单位在不同时间点“处理”或根本不处理的可能性。

Callaway和Sant 'Anna(2020)使用字母G来识别这个变量,但使用“无穷大”来指代从未处理过的观察结果(至少在现有数据中)。我不会分配一个数字,并称之为从未处理(简称NT)。

注意,我忽略了一组“总是”被处理的情况。因为我们无法真正识别他们(我们无法在治疗前看到他们的结果)

TxG设计如下图所示(以矩阵形式):


所有蓝色单元都是已被有效治疗的单位,而橙色单元是可作为潜在对照的观察组,因为它们尚未被治疗。绿色的单元对应从未处理过的单位。这些本质上是完美的对照组,因为他们从未接受过治疗。因此,除非溢出存在(假设它们不存在),你总是可以使用NT单位来制作好的2x2 DiD。

这就是与2x2设计的联系开始的地方,这也可以解释为什么TWFE模型有时会出错。

从技术角度来看(例如Goodman-Bacon 2019),传统的TWFE模型为TE获得了一个参数,该参数是所有可能的2x2设计的平均值,这些设计可以从上述矩阵中构造出来。然而,并不是所有的人都是好的!

一些2x2组合将提供有趣和有意义的结果:

  • 您可以使用其中的一些来计算治疗效果。
  • 有些可以用来测试关于平行趋势的假设。
  • 然而,有些组合是没有用的,可能会导致你得出错误的结论。

首先是好的

假设,我们只对第1期(G=1)首次接受治疗的组的治疗效果感兴趣。

首先要考虑的是哪一组可以作为“对照”,以适当地识别TE。第一个简单的选择是将G1单位与从未治疗的观察结果(NT)进行比较。(“完美”对照组)。

使用NT作为控制单元,我们可以构建至少3个2x2 DiD设置来识别治疗发生后的TE 1、2和3期:


如果有兴趣分析其他组(例如G2和G3)的TE,可以进行非常类似的练习:


如果从未治疗的组不可用,也可以使用其他“治疗”组的单位作为对照,只要它们还没有被治疗:


对于G1的情况,如果我们想估计治疗后的TE 1期,我们可以使用G2和G3的观察结果作为控制的一部分。这是可能的,因为这些观察结果在T1时还不受治疗的影响(假设没有预期)。

对于G2,我们也可以使用来自G3的数据进行同样的操作。对于G3,我们不能使用这种策略,因为除了NT单位,不会有任何其他未处理的观察。

一个一般的规则,如果你观察不同的基质,一个“好的”2x2 DiD将是其中只有一个细胞属于有效处理组(蓝色单元),而所有其他3个单元都是由“良好的未处理对照组”(红色和绿色)形成的。

平行趋势假设

还有其他的设计也可能引起我们的兴趣,特别是如果我们对测试平行趋势假设感兴趣的话。例如,对于在第二阶段治疗的观察,我们可以使用以下设计来检查治疗前一段时间的结果(预期治疗)是否有任何重要变化。


这是一个很好的DID设计,因为所有单元都有效地未经处理。因此,如果并行假设成立,您应该看到TE实际上为0。

对于G3中的观察,我们有更多的选择。人们可以检查在治疗发生之前,结果是否有周期性的变化,甚至可以观察长期的变化(如第三个矩阵所示)。


一般来说,如果我们参考第一个矩阵,如果2x2 DiD中的所有单位都是从未处理过或尚未处理过的单位的一部分,这些比较可以用来测试平行线假设。由于两个单位都没有被处理,人们应该期望TE等于零。

坏的2x2 DiD

就像有好的,也有坏的。正如Goodman-Bacon(2019)所述,TWFE的缺陷之一是,它也可能试图通过比较已经治疗过的单位来识别TE,但时间不同。


考虑第一个面板。它将G2的数据与G1中的数据进行比较。在T1时,G2未得到治疗,而G1在T1和T2时均得到治疗。如果治疗效果是同质的(一个位置转移),这可能会起作用。然而,如果治疗对G1和G2的影响不同(违反平行线假设),那么2x2设计将不能识别治疗效果(它可能识别两组间TE的差异)。如果我们使用更长的差分(第二个矩阵)或如果我们看G3,也会发生同样的事情。

作为一项规则,如果你的“控制”组包括被视为现在或过去任何一点的单元,这是一个糟糕的控制,2x2 DiD将无法识别TE。

drdid和csdid如何适合这里?

DRDID是一种双重稳健的方法,用于处理如何从2x2设计中获得最佳估计。具体来说,就是如何让被治疗者获得最佳的平均治疗效果。所以你可以将它用于我上面展示的任何2x2平方组合(或其他你可以想到的)。

另一方面,CSDID使用DRDID来获得这个ATT,但只用于“好”设计。要么是那些正确识别ATT的,要么是那些可用于测试并行趋势的。更重要的是,它避免了估计糟糕的DiD设计。

除此之外,因为有很多数字要遵循,它通过对ATT的平均来总结结果,基于一些标准,比如用G、T或治疗时间来平均效果(事件研究等效)。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存