【香樟推文2505】交叠DID偏误的诊断、解决与应用——兼论连续DID的偏误

Original 唐联洲香樟经济学术圈 2022-09-19

图片来源：360图片

原文信息：

许文立，2021：《交叠的秘密：经济学研究领域的交叠DID导读与实践建议》，CIMERS工作论文

近年来，DID领域掀起了一场可信性革命，无论是交叠DID还是连续DID，其存在的偏误及改进都受到了大家广泛的关注。本文力求在传统交叠DID的偏误诊断方法、交叠DID稳健估计量的介绍与对比、交叠DID的相关实际应用以及连续DID存在的偏误与修正等方面对之前推文进行有益补充。本推文的剩余部分安排如下：第一部分为交叠DID中TWFE估计量（双向固定效应估计量）存在偏误的原因；第二部分为交叠DID的TWFE估计量分解，为之后的偏误诊断做些铺垫；第三部分介绍了诊断交叠DID偏误的几种方法；第四部分介绍了交叠DID适用的几种稳健估计量；第五部分，用JF和工经上的两篇文章做个例子，看下交叠DID偏误的诊断及稳健估计量的应用；第六部分，总结下交叠DID在应用中的一些建议性动作；最后，考虑到交叠DID和连续DID偏误存在的原因换汤不换药，都是异质性处理效应带来的，因此我们又介绍了连续DID存在偏误的原因，并综述了几种可行的稳健估计量。

TWFE估计量的偏误

在过去相当的一段时间内，关于交叠DID的基本模型设定如下：

其中，D表示个体i第t期是否受到处理，α_i和α_t分别表示个体与时间的固定效应，即双向固定效应（TWFE），学者们通过对β^DID的估计来确定政策对于个体的影响。然而TWFE估计量近些年受到越来越多学者的质疑（Sun 和 Abraham, 2020; Borusyak 和 Jaravel, 2021; Callaway 和 Sant'Anna, 2020; Goodman-Bacon, 2021; Imai 和 Kim, 2020; Strezhnev, 2018; Athey 和 Imbens, 2018），这也是最近常说的交叠DID的秘密。

作者通过一幅图来说明传统交叠DID的估计单元，并据此阐述会出现的问题。

一般来讲，交叠DID（即N*T形式）的估计系数是由如下三种2*2DID的估计系数加权得到的（Goodman-Bacon，2021）：

（1）第一种，存在G0组的参与。只要不存在溢出效应，G0组总是一个好的控制组，即所有的处理组与G0控制组构成的2*2估计单元总能得到有效的估计量。如图中红色框内。（好对照组）

（2）第二种，若样本中不存在从未接受处理的对照组，那么绿色框内这种尚未接受处理的控制组G3与第二期接受处理的G2同样可以构成一个有效的2*2估计单元，这是由于控制组还没有受到处理变量的影响。（好对照组）

（3）第三种，如蓝色框内所展示的一组2*2DID。在这里，我们将G1的T1和T2当作对照组，而G2作为处理组，可以看到确实只有G2的T2发生了处理状态的变化。严格来讲，如果处理效应是同质的，比如处理效应并不随时间变化，那么这个2*2的估计单元并没有太大问题。但是在现实中，很多情况下处理效应并不是同质的，使得这一估计单元在2*2估计时无法满足平行趋势假设，并不能很好地识别出平均处理效应（Huntington-Klein，2022）。（坏处理组）

由于总的TWFE估计量是以上三种类型2*2估计量的加权平均值，那么当第三种2*2估计量的权重和系数值相对较小时，用TWFE估计量不会产生太过明显的偏误；但如果第三组估计量权重较大，就会严重影响我们的估计结果。例如，即使所有个体和所有时间的处理效应均为正，TWFE估计量仍然可能估计出负的处理效应，甚至得到负的权重，违背了基本的统计常识和经济学意义。

TWFE估计量分解

接下来看权重的问题。根据Frisch–Waugh–Lovell 定理（Frisch and Waugh，1933; Lovell，1963），我们关注的系数估计值等于结果变量Y_it对去均值的处理变量的单变量OLS估计系数：

其中，N为个体（组群）的总数；T为时期数。我们称之为余值，是二值处理变量去个体和时间均值（下简称余值），D_i表示个体i所有时期处理变量的均值，D_t表示时期T所有个体处理变量的均值，表示所有二值处理变量的均值。

从该式我们可以知道，TWFE估计量是所有结果变量Y的加权和；当平行趋势满足的情形下，这个估计量就等于所有受处理样本的处理效应线性加权和。这个权重和余值成比例且符号相同。根据的线性构成形式以及余值的定义，我们可以有如下推论：因为双向固定效应将处理变量D转化成了余值化的处理变量，在单变量OLS回归中，小于平均余值化处理强度的观测样本会收获负权重（OLS系数表达式的转换）；这种负权重也可能会出现在受处理样本中；根据余值化处理变量的定义，如果存在一个组群（个体）大部分时间受到处理、同一时间内大部分组群（个体）受到处理、样本中大部分观测值受到处理，那么类型三的平均处理效应就有很大概率收到了负的权重。因此，建议大家在做多期DID的时候可以画个处理时点图，方便读者最直观地感受下如果采用传统的TWFE估计量，文章是否以及可能存在多大的估计偏误。

偏误诊断

最新的交叠DID理论文献表明，传统TWFE估计量的偏误可能由于负权重和异质性处理效应引起。这两个问题是同一硬币的两面，而对于它们的诊断，有如下方法：

（一）回归法

Pamela Jakiela（2021）给了两个建议：

首先是画一个权重的分布图，判断有没有受处理个体获得了负权重。权重其实可以通过处理变量余值算出来，而根据处理变量余值的定义，处理变量余值可以通过处理变量对个体和时间固定效应回归取残差得到。当我们画出来权重分布图后，如果有较多受处理个体收到了负权重、负权重很大，那说明我们的估计结果是有可能存在十分明显的偏误的。之前说过，余值化处理变量与权重符号相同且成比例，用余值化处理变量来看也是可以的。

第二，正如Pamela Jakiela（2021）所说，如果处理效应是同质的，处理组中有个体收到负权重并无不妥，但存在异质性处理效应就会产生偏误。为此，我可以进一步检验这个同质性处理假设。在同质性处理假设与平行趋势假设成立的基础上，第t期个体i的结果变量可以如下表示：

其中是个体i第一期结果变量的值；表示的是在没有接受处理的状态下，个体i第t期结果变量与第t-1期结果变量的差值（如此假定这是因为平行趋势假设下，各个体每一期变化幅度相同）；表示接受处理会对结果变量造成的影响，系数值为常数暗含着同质性处理效应的假设。如此我们可以知道，余值化结果变量（计算方法同样是Y对双向固定效应回归取残差）等于余值化处理变量乘以一个系数，即二者线性相关。因此在平行趋势假设和同质性处理效应假设满足的情况下，我们可以推论：余值化结果变量与余值化处理变量呈线性相关，且斜率在对照组和处理组间没有区别；如果这一推论证伪，可以说假设并没有得到满足。为了证明（证伪）这一推论，我们可以先画个图看看控制组和对照组两组中两类余值的拟合线；当然更严谨的一个做法是一个简易的OLS回归：Y是余值化结果变量，自变量包含余值化处理变量，是否为控制组（dummy），以及余值化处理变量*是否为控制组，我们关注的系数是最后一个交乘项的系数，如果这个系数显著，就拒绝了我们的同质性假设，说明直接用TWFE估计量是有问题的，应用参见许文立（2021）、田淑英等（2021）。

（二）培根分解

为了更简单、易用、直观地发现估计结果中可能存在的偏误，Goodman-Bacon（2021）给出了一种TWFE估计量偏误诊断的方法，作者将它称为“培根分解”（Bacon decomposition）。“培根分解”定理中，各部分权重具有如下性质（s为权重，下角标分别代表新处理vs从不处理、新处理vs尚未处理以及新处理vs已处理三类2*2DID）：

上式的一个直观解释是，总的TWFE估计量，等于上述提到的三类2*2DID系数值根据其权重的加权和。我们知道，当第三种，即“已处理vs新处理类型”的DID系数值与另两种差别越多、该类型的权重越大，那么我们得到的TWFE估计量就越容易受到污染。最为难能可贵的是，Goodman-Bacon（2021）给出了一个Stata工具包，bacondecomp，这个命令可以直接给出三种类型DID各自的系数值及其权重，并能绘出一个权重-系数图，通过对于汇报结果的观察我们可以很方便地对模型的可靠程度有个了解。值得注意的是，现在的bacondecomp这个命令只适用于平衡面板且处理个体不退出的实验设计。应用见许文立（2021）、许文立和孙安妮（2022）。

（三）CD分解

为了诊断交叠DID中双向固定效应估计量可能存在的偏误，de Chaisemartin and D’Haultfoeuille（2018）分解得到了上述加权估计量中的权重，并提出通过一个安慰剂检验——估计权重与处理效应的关系——来诊断权重对处理效应是否有影响。在平行趋势满足情况下，原假设为“固定效应估计量是平均处理效应的无偏估计”，那么，安慰剂估计量不显著意味着没有证据拒绝原假设，应用见田淑英等（2021，2022）、许文立和孙安妮（2022）。

（四）静态效应检验

研究者通常会在事件研究图中展示效应程度以判断试点政策的效应是否具有异质性动态，即异质性处理效应（de Chaisemartin and D’Haultfoeuille，2021）。Freyaldenhoven et al.(2022)建议使用静态模型约束来检验“政策效应是静态”的假设，即通过一个Wald检验的p值和静态效应与动态效应系数置信区间的比较来诊断是否存在异质性处理效应，应用见许文立等（2022）。

稳健估计量

如果上述关于TWFE估计量的诊断均通过，这说明我们直接用TWFE估计量不会造成明显的估计偏误。然而现实往往不跟着我们的期待走，这时候就需要用一些稳健估计量或者方法来纠正TWFE估计量存在的偏误。

Goodman-Bacon（2021）在指出了交叠情形下，静态TWFE估计量可能存在偏误，并提出用DID事件研究法（DID Event Study）来避免这个偏误。正如Goodman-Bacon（2019，SO YOU’VE BEEN TOLD TO DO MY DIFFERENCE-IN-DIFFERENCES THING: A GUIDE ）给出的建议：我们可以换一种方式来呈现结果——事件研究。在回答“我应该做事件研究吗？”问题时，他说：“Yes，在许多情形下，事件研究是对的，让你能相信扁平的处理前效应以及清晰地处理后变化。当你有大量的未处理组个体时，事件研究尤其可信，因为这时给予‘有问题’2×2 DIDs——用已处理的个体作为控制组——较小权重。”

但是，用事件研究就没事了吗？其实不能完全用事件研究来说事，如果仅仅用”事件研究event study”这个词来说事，就有点不负责任，甚至误导了。因为时间序列数据（一般在金融领域）也有事件研究（参见Kothari & Warner（2007，Handbook of Corporate Finance, Volume 1）的文献回顾），我们这里通常是指的面板数据事件研究或者动态TWFE DID模型（参见Clarke & Schythe，2020；Freyaldenhoven et al.,2022）。Cunningham（2021）就问过，问题出在静态参数？如果是，那么，我们可以估计动态回归来避免这些问题，即当代DID事件研究。但是，Sun & Abraham（2020，JoE）显示，在动态模型设定中处理前后的系数也会存在偏误。再仔细看看Goodman-Bacon（2019）的答案，他说的是“在一些条件下，可以使用面板事件研究来应对传统TWFE估计量可能存在的偏误”。

为此，更多的学者提出了交叠DID的稳健估计量。所有稳健估计量的基本逻辑都是一致的，即避免第三类坏控制组进入我们的估计，大多数估计策略都是通过子样本的ATT加权来得到总的ATT。同时呢，这些方法也在估计的无偏性与有效性中进行取舍，至少目前，我们没法说哪种方法更“好”。Scott Cunningham（2021）将当前学界总结出的稳健估计量分为以下三类：加权组群-时间的ATT；通过相对事件时间来堆叠；插补法。

“加权组群-时间的ATT”法比较典型的一篇文献是Callaway and Sant'Anna (2021)。文章的基本思路就是把所有好的2*2DID组群-时间进行配对，那些always treated的组别就舍弃掉了。作者采用了三种方法来识别不同组群-时间的平均处理效应，包括结果回归（outcome regression）、逆概加权（Inverse Probability Weighting, 简称IPW）以及双重稳健（doubly robust）三种方法。在平行趋势满足的前提下，作者发现这三种方法估计出的平均处理效应是相同的；有了各组群-时间的平均处理效应后，研究者们便可以根据自己的研究需要，选取不同的权重（权重计算可以基于如组群，时期，事件类型等）对计算出来的ATT加权得到相对应的处理效应参数。Sun and Abraham (2020)的思路是类似的，在没有协变量的情形下，SA（2020）与CS（2021）是一致的。这个方法有三点值得注意：首先，Callaway and Sant'Anna (2021)假定受处理状态是不会退出的，即个体受到处理后不可以恢复到不被处理状态，这是我们在研究中需要声明的；其次，这个过程非常非常费时间，因为他是将所有好的2*2DID组群-时间配对，那如果样本中有五个组群（不同时间接受处理）、十个时期，该方法会估计50个ATT，这对大样本研究是一个挑战；第三，该方法在找寻“好”组别保证精度的同时，又会损失一部分效率，使得系数方差较大，意思就是用这个方法可能不太容易显著。该方法可以在Stata上通过csdid命令实现。

使用从不或尚未处理的组群作为对照组来加权ATT并不是解决TWFE估计量偏误的唯一方法。例如，堆叠（Stacking）也是可行的替代方案。堆叠的基本做法是根据存在的n个处理时间组生成n个数据集，并在每个数据集内部仅保留在该时点接受处理的和可以作为处理组的两类数据；之后我们生成一个虚拟变量，将当前受到处理的个体取值为1，若在前面一段时间内未接受处理则赋值为0，最后我们再将n个数据集合并起来。这样，我们就通过将数据集重组为相对事件时间，而不是日历时间，将时序差分问题重新转换为传统的两个组群研究设计。这样做是因为两组设计实际上不会遇到交叠处理TWFE的问题。一旦数据被重建为相对事件时间的平衡面板，其中处理以相同的“相对处理日期”为中心，然后可以估计传统的TWFE模型——控制组群和时间固定效应，以得到处理效应的加权平均值。这里需要着重强调的是标准误的聚类问题，由于重复个体的出现，因此要将标准误聚类到我们的子数据集层面。与堆叠法最相关的文章是Cengizetal.（2019），当然，还有其它文献。可以借助的一个Stata包是stackedev。

第三种方法是一种估算方法，它在一个多步骤过程中估计缺失的反事实，具体而言，利用平行趋势假设估计未处理组群中的动态效应；进而借助受处理个体的未处理反事实下的预测值估算出受处理观测值的平均处理效应，最后再依据研究目的，将感兴趣的一些组群平均求出总处理效应。这方面的文献是Borusyak、Jaravel and Spiess（2021 ）及其插补估计量。正如前面所说，现在的稳健估计量都是在效率与精度间做个取舍，那这个估计量更多保证的是估计效率。尽管在很大程度上，Athey et al.（2021）关于使用面板数据完成矩阵的文章也使用了类似的方法，但在技术上，他们不是 DID 估计量，而是合成控制估计量。这里推荐的一个Stata包是did_imputation，使用之前先下载好最新的reghdfe命令。

这三类方法给出了最基准的三类稳健估计量。在2021年NBER的一篇工作论文中，Gardner （2021）提出了一个两阶段DID 估计量，它应该介于上述三类方法之间。从技术上讲，Gardner 确实从一个相同的加权组群时间 ATT 的目标参数开始，这让它与 Callaway and Sant'Anna (2020) 的方法有些许相像。但它不会使用双重稳健方法或逆概率权重等方法来估计整体 ATT；相反，正如他所说的那样，两阶段 DID (2sDiD) 最终将是我们最熟悉的双向固定效应回归的解决方案的一种扩展，如堆叠。它还是一个多步骤过程，仅使用控制组来估计拟合值，使得这个方法又与 Borusyak、Jaravel and Spiess（2021）的插补方法比较类似。这里推荐的命令是did2s，同样可以在Stata上安装。

以上是致力于解决TWFE估计量偏误的一些稳健估计量的介绍，详细的推导可以直接去看原文，上述大部分文献都给出了可以在Stata上直接安装的命令。作者认为，在实践中，所有稳健估计量都通过显著性检验、平行趋势检验是一个不大可能的事情，我们不妨在论文中将各种稳健估计量都用一遍，只要大部分估计量的检验通过了其实就很不错了。

作者认为，现在的一个建议动作是将上述稳健估计量与事件研究法结合起来使用。另外，值得注意的是，当处理时点不同的个体受到的处理效应形状不同时，事件研究法同样会存在明显的偏误。举例来说，2012年，个体A开始受到了政策的正向影响，而2014年，个体B则开始受到负向影响，这种情况运用事件研究法是会存在偏误的，建议学者们在进行事件研究前仔细讨论。

举例

为了更好地理解上述关于偏误诊断、稳健估计量等步骤的具体应用，作者根据两篇公开披露数据的文章进行实操。这两篇文章分别发在了JF和国内的中国工业经济上。

1、Big bad bank（Beck, T., R. Levine, and A. Levkov，2010）

这篇文章考察的是银行放松管制对收入不平等的影响。作者收集了1976-2006年美国48个州和哥伦比亚特区的数据，共1519个观测值；收入不平等系数是根据美国各地约6万个家庭的年度调查计算得到的，指标在州（特区）层面，有四种度量方式，包括基尼系数、泰尔指数、第90百分位和第10百分位之间自然对数的差异、第75百分位和第25百分位之间自然对数的差异。基准模型设定如下：

Y是收入不平等指标，D判断的是观测州当年有没有实施银行的去分支管制，若是取1，反之0。X是一系列的控制变量。此外，控制了双向固定效应。

正如上文所说，一个处理时点图有助于我们更清晰地认识设计中可能存在的偏误。

这里浅色为处理组，深色为控制组。从处理时点图我们可以知道几个基本事实：首先，存在很多always treated的组群，极容易出现第三类控制组；很多大部分时间都受处理的个体、大部分个体都受到处理的时间、受处理样本占了绝大部分，非常容易对第三类DID的处理组施加负权重。当然，还需要一些更为定量的诊断。

（1）负权重诊断

首先是之前说的负权重问题。先用处理变量D对时间和个体固定效应做回归取残差得到余值化处理变量，因为余值化处理变量和对应权重是成比例且符号相同的，因此作者在这里直接画出了余值化处理变量的分布图：

可以看到，这里存在大量受处理的观测值收获了负的权重、没受处理的观测值收获了正的权重。定量来看，15%的受处理观测值收获了负权重，会造成明显的TWFE偏误。

（2）同质处理效应检验

这里选用基尼系数作为被解释变量。我们用基尼系数和处理变量分别对个体固定效应和时间固定效应回归取残差，得到余值化的基尼系数和余值化的处理变量。之后考察余值化基尼系数与余值化处理变量的斜率在处理组和控制组间是否存在差异。首先是余值化的Y与D在处理组和控制组间的拟合线：

可以看到两条拟合线是存在非常明显的分叉的。当然仅凭肉眼来区分还是不太准确，一个交乘项可以来判断斜率是否在不同组别中存在差异，如果交乘项系数显著，证明同质化处理效应并不满足：

我们可以看到，交乘项系数显著，说明存在异质处理效应的。

（3）稳健估计

A.事件研究

最常用的事件研究设计就是如下的线性动态效应面板数据模型：

其中，表示地区 s 是否在时点 t 前 m 期放松了银行分支机构管制的二值变量。表示动态效应，时点t 的地区不平等最多只能被 t 前的 M 期和 t 后的 G 期的管制放松政策所影响。

学者们更多关注政策的累计效应，即不同时期k的，以及政策影响时期外的累积政策效应。因此，根据Simon Freyaldenhoven et al.(2021)对于事件研究设计的设定与作图建议，我们将上式变形如下：

其中，仍表示地区s是否在时点t前k期放松了银行分支机构管制的二值变量，表示表示地区 s在 t时点后是否仍放松银行分支管制，表示地区s在时点t前至少期就放松了银行分支机构管制。

绘制出的事件研究图如下，其中左图为使用BLL（2010）全部样本的事件研究图，右图为删掉了1977年以前就已经放松银行分支管制地区的样本后的事件研究图。纵轴表示动态处理效应估计量，纵轴 0 点处的括号和数值表示处理时点前一期结果变量的均值；横轴表示事件时间，且设置初次处理时点为 0。实心圆点表示点估计量，点估计量上下的横杠表示 95%的置信区间，而横杠外的线条表示 95%的均匀置信区间带。而图中左下角的两个 p 值分别表示拒绝两个原假设“没有处理前的趋势”、“所有的动态效应都已经显示”的概率。

左图就是传统的TWFE估计量事件研究图，看起来是一个很完美的估计。一方面，我们没有办法在90%的置信区间下拒绝“没有处理前趋势”这一假设，这意味着平行趋势假设在一定程度上的成立；另一方面，第6、7、9年均在95%的置信区间下显著，说明地区收入不平等确实有所缓解。

事实真的如此吗？上面我们画了处理时点图，有很多一直受处理的组群，这使得TWFE估计量的偏误极容易发生，所以我们先去掉这些坏控制组。这回结果就不是很好了，如右图所示：一方面，尽管放松管制前的系数均不显著，但我们在90%置信区间下可以拒绝原假设“没有处理前的趋势”，这可能表明平行趋势假设不满足；更为关键的是，放松管制后的动态处理效应不显著，并没有证据证明放松银行分支管制的收入平等效应。

B．稳健估计量

我们采用如下估计量重新估计。这些稳健估计量分别为Borusyak et al. （2021）、de Chaisemartin和D’ Haultfoeuille（2019）、Sun和Abraham（2021）、Gardner（2021）和Cengiz et al.（2019）等。

虽然，大部分稳健估计量的事件研究图显示，放松管制前的估计系数不显著，平行趋势满足，但放松管制后的估计量在95%的置信区间下也不显著，再次表明没有证据显示放松银行分支机构管制会降低地区不平等。

2、《国家级新区对经济增长的效应》（曹清峰，2020）

曹清峰（2020）研究了国家级新区对区域经济增长的带动作用。

国家级新区的发展历程大致可以划分为三个阶段：第一阶段是1992年设立了首个国家级新区——上海浦东新区；第二个阶段则是2006年设立了第二个国家级新区——天津滨海新区；第三个阶段则是国家级新区的扩容阶段，于2010年后相继设立了重庆两江新区、甘肃兰州新区等一系列国家级新区，基本上覆盖了中国主要经济板块。

曹清峰（2020）选取了中国 70 个大中城市作为研究样本，时间跨度为 2003-2017 年。样本中本来是存在一个always treated的地区，即 1992 年就已经设立浦东新区的上海，但由于上海的特殊性（详细论述见原文），作者将它剔除了，因此在我们的数据中并不存在always treated的组别。其他变量指标还有全市 GDP 实际增长率等。

本文的回归模型设定如下：

did是该城市当年及以后是否设立国家新区，gdpr是GDP增长率。由于城市可能提前知道是否设立国家新区而提前进行部署，因此处理变量did均提前一年，例如2006年天津滨海新区得到了国务院的批复，那么2005年天津的did就取1。

还是先画个处理时点图感受下：

相对于BLL（2010）的处理时点图，该文章的处理时点图友好了太多：几乎不存在绝大部分时间被处理的个体（除天津等）、几乎所有的处理都是在观测期间的后半段、受处理样本占比很小。这预示着即使存在TWFE偏误，影响也不会很大。

接下来是定量的偏误诊断：

（1）培根分解

由于曹清峰（2020）在实际操作中，用插值法补齐了缺失的所有数据，因此我们可以拿到一个平衡面板，这让Stata命令bacondecomp得以顺利工作。我们将总的DID估计量分解为三组：（1）“先设立国家级新区的城市vs后设立国家级新区的城市”；（2）“后设立国家级新区的城市vs先设立国家级新区的城市”；（3）“设立国家级新区的城市vs从未设立国家级新区的城市”。总的DID估计量等于每一组的平均DID估计量乘以各自权重之和，即1.163=0.057×1.571+0.031×1.659+0.912×1.120。从分解结果可以进一步看出，“后设立新区的城市vs先设立新区的城市”这一类坏对照组的2×2DID估计量所占权重仅为3.1%，比重并不大；这一类DD估计量为1.659与TWFE的估计量1.163相差不大，因此，这类2×2DID对总的TWFE估计量的影响也不大。对TWFE估计量影响最大的是“设立新区的城市与从未设立新区的城市”这样一个很好的组别，其权重为91.2%。因此，尽管曹清峰（2020）的研究中也存在“LaterT vs EarlierC”这样的坏对照组的影响（所有的交叠DID都会存在），但其对总TWFE估计量的影响不大。但是要注意的是，它会拉高TWFE估计量，即高估国家级新区对区域经济增长的拉动效应。

接下来是培根分解图，其中每一个点都是一个2*2的DID。横轴表示权重，纵轴表示单个 DD 估计量。红色水平线表示总的 TWFE估计量 1.163。因此，越靠近右边的点就表示其对 TWFE 估计量的影响越大。从图中可以看出，“后处理vs先处理”的黑色x权重非常小且估计量和红线偏差不大，很直观地就能发现这里TWFE估计量并没有太大偏误。

（2）稳健估计

A.事件研究

模型设定同前，这里不赘述。由下图可以看到，在设立国家级新区前，系数在95%的置信区间下均不显著，且不能拒绝“没有处理前的趋势”这一原假设，这意味着没有证据显示在设立了国家级新区的城市与未设立新区的城市之间存在非平行趋势。在设立国家级新区后的时期，国家级新区的经济拉动效应立即开始显现，但是在设立新区后的最初4年并不显著，直到第5-8年才开始显著拉动城市经济增长。

B.稳健估计量

从左到右，从上到下依次为Callaway和Sant‘Anna（2020）、Cengizetal.（2019）、Borusyaketal.（2021）、Gardner（2021）的估计量。图中的点线表示点估计量，阴影部分表示95%置信区间。

从这些稳健估计量结果来看，大部分的事件研究结果均显示了国家级新区的设立确实可以显著促进城市经济增长、具有持久的拉动作用，且平行趋势也可以得到较好的满足。

综上所示，可以得到结论，曹清峰（2020）利用双向固定效应估计量对国家级新区拉动城市经济增长的估计较为稳健，即使在考虑了最新的稳健DID估计量后，结果依然稳健。

交叠DID的建议动作

在时变处理时点下，如果存在异质性处理效应，那么，传统的双向固定效应估计量可能存在偏误，甚至得到完全相反的结论。在某些情形下，2×2DID估计量还存在不合意的权重。为此，近几年学者们提出了诊断偏误的方法，以及修正偏误的估计方法和稳健估计量。从经验研究的实践来看，可以采用下列的建议性步骤来推进经济学经验研究设计。

第一，画出处理时点图，可以获得更多关于“处理组与控制组”的可能信息。

第二，进行双向固定效应的估计。Wooldrige（2021）在他的工作论文“Two-Way Fixed Effects, the Two-Way Mundlak Regression, and Difference-in-Differences Estimators”中指出，只要恰当地实施双向固定效应模型，仍然可以使用它。值得注意的是，正如D. Powell（2021）指出，即使不存在交叠处理时点，一些控制变量也可能导致双向固定效应估计量存在偏误。因此，在进行双向固定效应回归时，既要汇报出不包括协变量的回归结果，也要汇报出包括协变量的结果。

第三，平行趋势假设检验。这是标准动作。

第四，诊断双向固定效应估计量是否存在偏误或者负的权重。可以采用的诊断方法有：（1）用余值化处理变量计算权重，检验处理组和控制组在总平均处理效应中各自的权重分布信息；（2）用余值化结果变量和余值化处理变量的回归来检验“同质性处理效应假设”；或者（3）培根分解。此外，其他方法如CD分解或静态效应检验都是可以的。

第五，稳健性检验。稳健性检验的目的在于对DID（尤其是交叠DID）的一些关键假设做更多的检验。通常可以从以下几个方面进行：（1）更多的平行趋势检验。（2）更多的“同质性处理效应假设”检验，例如，在同质处理效应假设下，舍弃一些处理个体-时期应该不会影响处理效应估计量的预期值（平行趋势假设满足），包括刀切法（jackknife）估计。还可以逐渐增加样本时期，看看处理效应和权重的变化，如果处理效应很稳定，意味着存在同质处理效应；改变每个个体处理后的时期数量；舍弃一些个体样本。（3）其它稳健性检验。

第六，事件研究设计和更多稳健性估计量。

第七，与研究主题相关的一些问题的扩展分析，例如，异质性分析。

第八，其它必要的分析。

延展讨论——连续DID的偏误与解决

交叠DID（Staggered DID）是我们非常熟悉的一种DID形式，受制于异质性处理效应等问题，交叠DID的TWFE估计量可能会产生非常明显的偏误。那么我们熟知的连续型DID（强度DID）就“清白”吗，又有哪种异质性处理效应会造成连续DID的偏误呢？

正如上文所述，每一个总ATT估计量都是由无数个2*2DID加权得来的。不加入复杂的数学表达，这里我们考虑两组个体a和c，他们分别受到了强度d2和强度d1的处理。在比较a和c两组ATT时，其表达式：

前一项“causal effect”就是我们熟悉的因果效应，即a组群在接受两种处理强度时的不同表现；后一项“selection bias”则是广义的选择偏误，在满足平行趋势假设的前提下，只有同时满足selection bias也是0才能得到精确的因果推断。这个selection bias理解起来也容易，就是不同组群接受相同处理强度时的表现差别，也是异质性处理效应的一种表现。

如何诊断偏误呢？我们知道，在连续DID的估计量中，TWFE估计量和一阶差分估计量在不存在偏误的情况下是完全等价的。其中，一阶差分估计量就是Y和D都作一阶差分，同时不加入时间和个体固定效应进行估计的普通OLS估计量。de Chaisemartin and d’Haultfoeuille(2018)认为，有两种方法可以对偏误问题进行诊断：

（1）检验TWFE估计量和一阶差分估计量是否有差异，若差异显著，则两个估计量至少一个有偏，只不过我们很难知道是哪个估计量有偏，这就需要第二个诊断方法了。

（2）我们在TWFE和一阶差分估计量两套框架下，用计算出来的权重和对应的处理变量回归（权重的计算上文有解释），若发现回归系数显著，那就说明对应的TWFE估计量或者一阶差分估计量是有偏估计量。

有偏误就要有解决，de Chaisemartin and d’Haultfoeuille(2018, 2019, 2020)陆续提出了一些连续DID的稳健估计量，过于详尽的解释亦或举例已经超过了本篇推文的范畴，因此这里只进行简要介绍：

（1）首先是“Wald-DID”估计量，处理效应的估计量等于结果变量的双重差分除以处理变量的双重差分，这一估计量的使用具备两点前提，即a.处理效应不随时间变化；b.当处理强度在处理组和控制组都加大时，两组的处理效应变化相同。条件b是尤其困难的，这是由于稳健估计量就是要解决异质性处理效应，这就使得两点前提极为严苛。接下来的一些估计量都是放宽了上述前提而进行的改良。

（2）第一个备择估计量为时间矫正 Wald 比率（Wald-TC）：在同一初始处理时间的子组群中，个体满足共同趋势假设。这一估计量主要放宽的是上述第一个前提，即不存在时间处理异质性的前提。

（3）第二个备择估计量为双重变分 Wald 比率（Wald-CIC）：是Athey and Imbens（2006）提出的 CIC 估计量的一种广义估计量——扩展至模糊处理研究设计。CIC也就是“change in change”，一个广为人知的名字是“双重变分”。CIC 模型与经典 DID 方法不同的是其假设控制组个体的结果变量满足非线性形式而不是简单的线性形式。

（4）第三个估计量局部分位数处理效应（LQTE），与 Wald-CIC的假设一致。大概思路是将连续变量分成若干组别，在每组中估计2*2DID估计量。如果说“Wald-TC”放宽了“Wald-DID”估计量中的时间异质性处理假设，那么LQTE则致力于解决组别处理效应异质性。

（5）此外，作者还建议使用安慰剂检验。安慰剂估计量将处理变化与前一期的结果变量联系起来。在共同趋势假设下，安慰剂估计量应该等于 0。如果不能拒绝这个假设，就说明有证据表明上述估计量的假设是有效的。

这里推荐一个Stata命令fuzzydid，其中不同参数的设置可以实施不同的稳健估计量。

写在后面

无论是传统交叠DID还是连续DID都可能存在严重的估计偏误，这会威胁到我们因果推断的可信性。在目前，我们很难在应用中完全解决这样那样的问题，但至少应该充分吸收现有成果，在前人的肩膀上尽量让我们的估计接近稳健。希望本推文可以为国内学者追踪DID前沿提供一点帮助。

Abstract

双重差分(DID)设计是 2021 年诺贝尔经济学奖的主要贡献——自然实验——最重要的因果识别⽅法。且越来越多的研究者使用交叠 DID 的设定，但最近的 DID 计量经济学理论⽂献表明，在交叠 DID 环境下使用双向固定效应(TWFE)估计量可能由于“负权重”使得处理效应产⽣偏误，甚⾄得到相反的因果效应。基于此，本⽂回顾了传统 DID 设计，简要阐述交叠 DID 估计量分解、偏误诊断、最新的异质性处理效应稳健估计量，然后用⼀套模拟数据和两篇已发表的经济学论⽂（Beck, Levine, and Levkov (2010,Journsl of Finance)；曹清峰(2020，中国⼯业经济)）来说明在实践中，交叠 DID 的⼀些必要/最佳元素。

声明：推文仅代表文章原作者观点，以及推文作者的评论观点，并不代表香樟经济学术圈公众号平台的观点。

香樟经济学术圈征稿

“分享”是一种学者的人文情怀，香樟经济学术圈欢迎广大订阅读者（“香粉”）向公众平台投稿，也诚邀您加入香樟推文team。生活处处皆经济，经济处处现生活。如果你或者身边的朋友看了有趣的学术论文，或者撰写了经济政策评论，愿意和大家分享，欢迎投稿（经济金融类），投稿邮箱：cectuiwen@163.com。如果高校、研究机构、媒体或者学者，愿意与平台合作，也请您通过邮箱联系我们。投稿前请在搜狗的微信搜索里搜索已有图文，避免重复。

香樟经济学术圈

本期小编：李鹏瑶

反向激励，在加速这个社会的黑化

聊几句重庆跳江的肥猫事件吧

老公经常嫖娼，老婆起诉离婚，法院判决：不能离！

指向自身的觉醒，只会导向新的困境

清华大学的113周年校庆：都这么创新了吗？

【香樟推文2505】交叠DID偏误的诊断、解决与应用——兼论连续DID的偏误

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

聊几句重庆跳江的肥猫事件吧

老公经常嫖娼，老婆起诉离婚，法院判决：不能离！

指向自身的觉醒，只会导向新的困境

清华大学的113周年校庆：都这么创新了吗？

生成图片，分享到微信朋友圈

【香樟推文2505】交叠DID偏误的诊断、解决与应用——兼论连续DID的偏误

您可能也对以下帖子感兴趣