查看原文
其他

弹性DID, DID的终极大法, 关于DID各方法总结太赞了!

计量经济圈 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于DID双重差分法,我们引荐了1.DID运用经典文献,强制性许可:来自对敌贸易法的证据2.连续DID经典文献, 土豆成就了旧世界的文明3.截面数据DID讲述, 截面做双重差分政策评估的范式4.RDD经典文献, RDD模型有效性稳健性检验5.事件研究法用于DID的经典文献"环境规制"论文数据和程序6.广义DID方法运用得非常经典的JHE文献7.DID的经典文献"强制许可"论文数据和do程序8.传销活动对经济发展影响, AER上截面数据分析经典文9.多期DID的经典文献big bad banks数据和do文件10.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章12.第二篇因果推断经典,工作中断对工人随后生产效率的影响?13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文14.AER上以DID, DDD为识别策略的劳动和健康经济学15.一个使用截面数据的政策评估方法, 也可以发AER16.多期DID模型的经典文献,big bad banks讲解",",17.多期DID的经典文献big bad banks数据和do文件18.非线性DID, 双重变换模型CIC, 分位数DID

19.模糊(Fuzzy)DID是什么?如何用数据实现呢?20.多期DID的big bad banks中文翻译版本及各细节讲解21.DID中行业/区域与时间趋势的交互项, 共同趋势检验, 动态政策效应检验等22.截面数据DID操作程序指南, 一步一步教你做23.DID的研究动态和政策评估中应用的文献综述24.连续DID经典文献, 土豆成就了旧世界的文明25.DID双重差分方法, 一些容易出错的地方26.连续DID, DDD和比例DID, 不可观测选择偏差27.加权DID, IPW-DID实证程序百科全书式的宝典28.DID和DDD, 一个简明介绍, 双重和三重差分模型29.DID过程中总结的地图展示技巧30.DID的平行趋势假定检验程序和coefplot的其他用法31.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理32.实践中双重差分法DID暗含的假设33.过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图34.计量院士首次用DID方法分析, 中国封城对新冠病毒扩散的影响!35.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理36.诺奖夫妇的中国学生, “DID小公主”的成名之作, 茶叶价格与中国失踪女性之谜!37.前沿: 反向DID, 反向双重差分法DDR全解析, 辅以实证示例!38.英诺丁汉大学校长为你讲解逐年PSM匹配-DID方法的操作, 并配上自己写的一篇范文!39.逐年PSM匹配后再DID识别因果的实证范文, 这就是逐年PSM-DID的操作范式!40.用事件研究法进行因果识别如何做? 有什么好处? 与DID结合起来潜力无穷!41.Abadie半参数双重差分DID估计量, 使你的平行趋势假设更加可信!等等。

正文

关于下方文字内容,作者:蒋泽鸿,英国南安普敦大学经济学,通信邮箱:jiangzehonguk@163.com

作者之前的文章:万能cmp程序, 有了他, 建议把其他程序全删掉!

Dettmann, Eva & Giebler, Alexander & Weyh, Antje, 2019. "flexpaneldid: A Stata command for causal analysis with varying treatment time and duration," IWH Discussion Papers 5/2019, Halle Institute for Economic Research (IWH).

The paper presents a modification of the matching and difference-in-differences approach of Heckman et al. (1998) and its Stata implementation, the command flexpaneldid. The approach is particularly useful for causal analysis of treatments with varying start dates and varying treatment durations (like investment grants or other subsidy schemes). Introducing more flexibility enables the user to consider individual treatment and outcome periods for the treated observations. The flexpaneldid command for panel data implements the developed flexible difference-in-differences approach and commonly used alternatives like CEM Matching and difference-in-differences models. The novelty of this tool is an extensive data preprocessing to include time information into the matching approach and the treatment effect estimation. The core of the paper gives two comprehensive examples to explain the use of flexpaneldid and its options on the basis of a publicly accessible data set.
一、研究内容
基于Heckman et al. (1998) 提出的匹配和双重差分方法,本文介绍了一种Stata工具对其进行修正,即flexpaneldid命令,用于评估面板数据集中干预的因果关系,尤其是以不同开始日期和不同干预期长为特征的个体干预。这种干预结构通常适用于补贴计划(例如,投资补贴),劳动力市场计划(例如,支持初创企业)和研究基金(例如,对科学家的资助)等领域的研究。该工具也与其他研究领域相关,例如教育经济学和健康经济学等。
flexpaneldid命令执行一种基于匹配、双重差分(DID)和一些常用替代方法(例如Coarsened Exact Matching)相结合的方法。这一命令的创新点在于,为了将时间信息包含到匹配方法和干预效应估计中,可以进行大量的数据处理。基于公开可访问的数据集,作者提供了两个综合示例,来解释flexpaneldid命令的使用及其选项。
二、研究对象的数据结构特征
本文关注的数据结构特征是有关已干预和未干预观察值的面板信息,其干预基本上可以在任意时间开始和结束。干预期由个体的预处理阶段、干预阶段和后干预阶段组成。
下图显示的是2004-2014年三家公司的面板数据,在观察期内,被干预公司1的干预阶段处于公司2的预处理阶段和企业3的后干预阶段。从干预开始到一年后的结果(用O1表示),或者从干预开始到干预结束后一年的结果(以O2表示)均不相同,这意味着必须观察到这三家公司不同的“子时期”。
图1. 典型的数据结构示意图
三、研究创新
该估计工具实施一种基于匹配、双重差分(DID)和一些常用替代方法相结合的方法。为了赋予该工具更大的灵活性,作者从三个方面修改了Heckman et al.(1998)的条件双重差分。第一,将来自面板的个体干预时间信息纳入匹配过程;第二,引入用于匹配的组合统计距离函数(combined statistical distance function);第三,将灵活的观察期长纳入双重差分估计。这种灵活的条件DID方法可以确保以适当的方式考虑不同的干预阶段,并且可以准确确定将个体与它的统计双胞胎(statistical twin)进行比较的时间点。
四、文献综述
下列文献综述来自劳动力市场经济学和健康经济学领域,以及对积极的劳动力市场政策和基于地域的政策的评估研究。所列三种方法是按照被学者广泛采纳的概念进行区分,即由于可观察和不可观察的异质性而产生的对选择进行组合控制。它们都基于DID估计量,并且依赖以下假设:影响结果的不可观察的个体特征不随时间变化(又被称为共同趋势假设或偏差稳定性假设)。
方法优点缺点作者+标题
传统DID+匹配这种非参数方法的优点在于,其在特征分布和对观测结果的影响方面的灵活性。-

Bandick, R., Görg, H. and Karpaty, P. (2014), “Foreign Acquisitions, Domestic Multinationals, and R&D”, The Scandinavian Journal of Economics 116(4), 1091–1115.


Bergemann, A., Fitzenberger, B. and Speckesser, S. (2009), ‘Evaluating the dynamic employment effects of training programs in East Germany using conditional differencein-differences’, Journal of Applied Econometrics 24(5), 797–823. 


Pellegrini, G. and Centra, M. (2006), Growth and efficiency in subsidized firms, in ‘Workshop ’The Evaluation of Labour Market, Welfare and Firms Incentive Programmes”, Istituto Veneto di Scienze, Lettere ed Arti, Venezia. 


Bernini, C. and Pellegrini, G. (2011), ‘How are growth and productivity in private firms affected by public subsidy? Evidence from a regional policy’, Regional Science and Urban Economics 41, 253–265. 


Caliendo, M. and Künn, S. (2011), ‘Start-up subsidies for the unemployed: Long-term evidence and effect heterogeneity’, Journal of Public Economics 95, 311–331.

DID模型(DID概念融入传统面板回归模型)这种参数方法的优点在于,通过固定效应来捕获个体的时不变特征,还包括附加的协变量和时间信息。除了估计平均干预效应外,还可以估计随时间变化该效应的发展。与传统DID中的情况一样,没有任何数据预处理,估计结果是基于整个样本的,所以对于样本中一个非常特殊的子组的被干预个体而言,可能没有太大意义。另一个问题是模型依赖性,即对于所使用的面板模型有相当严格的假设(均方差,无自相关等)。

Autor, D. H. (2003), “Outsourcing at Will: The Contribution of Unjust Dismissal Doctrine to the Growth of Employment Outsourcing”, Journal of Labor Economics 21(1), 1–42.


Bronzini, R. and de Blasio, G. (2006), ‘Evaluating the impact of investment incentives: The case of Italy’s Law 488/1992’, Journal of Urban Economics 60, 327–349. 


Ham, J. C., Swenson, C., İmrohoroğlu, A. and Song, H. (2011), ‘Government programs can improve local labor markets: Evidence from State Enterprise Zones, Federal Empowerment Zones and Federal Enterprise Community’, Journal of Public Economics 95, 779–797. 


Neumark, D. and Kolko, J. (2010), ‘Do enterprise zones create jobs? Evidence from California’s enterprise zone program’, Journal of Urban Economics 68, 1–19. 


Ham, J. C., Swenson, C., İmrohoroğlu, A. and Song, H. (2011), ‘Government programs can improve local labor markets: Evidence from State Enterprise Zones, Federal Empowerment Zones and Federal Enterprise Community’, Journal of Public Economics 95, 779–797.

面板回归模型+匹配(较新的文献)-

Heyman, F., Sjöholm, F. and Tingvall, P. G. (2007), ‘Is there really a foreign ownership wage premium? Evidence from matched employer–employee data’, Journal of International Economics 73, 355–376.

 

Greenaway, D., Gullstrand, J. and Kneller, R. (2005), ‘Exporting May Not Always Boost Firm Productivity’, Review of World Economics 141(4), 561–582. 


Gustafsson, A., Stephan, A., Hallman, A. and Karlsson, N. (2016), ‘The ’sugar rush’ from innovation subsidies: a robust political economy perspective’, Empirica 43, 729–756. 


Freier, R., Schumann, M. and Siedler, T. (2015), ‘The earnings returns to graduating with honors — Evidence from law graduates’, Labour Economics 34, 39–50.

五、灵活的条件DID解决的三个问题

Heckman et al. (1999)指出经济环境影响个人或企业的经济表现,并应在分析干预效果时加以考虑。如果忽略经济环境的影响,就可能产生时间偏差,例如比较经济危机前的企业到危机后的企业。另外,干预效果本身也会受到经济状况的影响,即效果异质性(Bergemann et al. 2009)。通过将个体“子时期”的信息包括到模型估计中,来考虑时间偏差和效果异质性,而本文介绍的灵活的条件DID方法能实现该功能。

还有一个现象被称为“Ashenfelter’s dip”(Ashenfelter, 1978)或“fallacy of alignment”(Heckman et al. 1999):如果对干预的预期导致研究对象行为的(短期)改变,则估计的效果将会失真。例如,在特定产业受到积极的暂时冲击的情况下,该产业的公司可能更愿意投资并申请补贴。在这种情况下,该产业的申请补贴概率和短期市场前景之间存在正相关关系,但估计量往往会高估政策干预的效果。作者坚信,灵活的条件DID有助于分析这类现象,因为它使用户可以在确定与干预开始有关的匹配和结果的观察时间时,考虑对“dip”持续时间的期望。

六、灵活的条件DID介绍

该方法是基于Heckman et. al(1998)提出的非参数条件双重差分法。另外,根据 Ho et. al (2007) 的研究,匹配过程可以看作是非参数数据预处理,通过减少偏差和方差获得更可靠的因果效应估计。而本文特别关注的是,排除因比较不同时间点的个体而导致的潜在时间偏差。这意味着必须将来自面板数据的观察值的时间信息整合到匹配过程中。

该方法的运行步骤如下。第一步是对大量的数据进行重组,以合并所有匹配量和结果的观察期。例如,一家公司在2020年1月接受投资补贴,为了分析它本月的特征,那么就需要指定另一家公司在2020年1月与这家公司有相同的特征。因此,作者将每个已干预个体的潜在伙伴的范围限制为,仅在个体匹配期观察到的伙伴。然后,匹配算法会在这些预先选择的公司中选择一个或多个统计双胞胎(statiscal twins)。

第二步是匹配。考虑到预选过程中的时间信息,使用Coarsened Exact Matching此精确匹配选项。本文在此的创新点是,基于组合的统计距离函数添加了最近邻匹配。该距离函数遵循Kaufmann and Pape (1996)的概念,可以描述为特定比例的距离函数的加权平均值。为了便于本文的分析,作者将连续变量的平均绝对差于分类变量的广义匹配系数相结合。


七、flexpaneldid命令简介
为了保障该命令的有效运行,必须先安装或更新Stata中的psmatch2, pstest和cem命令。
flexpaneldid命令是用于在面板数据中具有两次以上观察值,不同开始时期和不同干预时长的因果分析工具。该命令使用匹配方法和双重差分方法的不同组合,估计被干预对象的平均干预效应。它结合了大量数据的重新排列,可以在使用不同的条件DID方法进行效果估计时考虑干预的时间信息。
flexpaneldid命令包含许多相对时间定义。下图说明了干预开始和相关时间定义,干预结束和相对时间的关系。
图2. flexpaneldid中相对时间定义的示意图
flexpaneldid命令语法:
被强制执行的选项:
·    depvar:表示因变量  
·    id (varname):表示观察单位的个体识别
·    treatment (varname):包含定义干预的变量
·    time (varname):表示面板中的时间信息
为确定匹配方法和定义匹配变量选择下列两个选项之一:
·    cematching (varname1 [ (cutpoints1) ] [ varname2 [ (cutpoints2) ]…]) :表示Coarsened Exact Matching方法将被执行。详细说明参见Blackwell et al.(2009)。
·    statmatching (con (varlist) cat(varlist) ) :表示基于等式(1)的统计距离函数,具有替换的最近邻匹配方法将被执行。
下列两个选项之一必须被选择:
·    outcometimerelstart (integer) :表示相对时间概念,用于定义与干预开始相关的结果变化。例如,outcometimerelstart (3) 意味着,如果时间变量的单位为年,我们将观察到从个体干预开始到干预开始后3年的结果变化。
·    outcomtimerelend (integer) :表示相对时间概念,用于定义与干预结束相关的结果变化。例如,
下列选项按照研究需要自由选择:
·    matchvarsexact (varlist) :表示用于精准匹配的变量,此选项独立于所选的匹配算法。
·    matchtimerel (integer) :表示匹配时间的相对时间概念(与干预开始有关)。例如matchtimerel (-1),如果时间变量的单位是年,表示匹配过程是在干预开始前1年进行的。
·    outcomedev (integer) :考虑匹配过程中的预处理结果,在相对于干预开始定义的时间,选择结果值。例如outcomedev (-3),如果时间变量的单位是年,将干预开始前3年的结果值作为额外的匹配变量。
·    outcomedev (integer integer) :考虑匹配过程中的预处理结果,这两个整数给出与干预开始有关的结果值的开始和结束。例如outcomedev (-3 -1),如果时间变量的单位是年,表示将开始个体干预之前3年变化到1年的结果作为额外的匹配变量。
·    test:表示在匹配后进行质量测试。
八、简要评述
flexpaneldid命令是一种功能齐全的Stata工具,用于面板数据框架内因果关系的估计,对于分析个体干预效应具有重要意义,特别是针对补贴计划的研究(如投资或工资补贴等)。
另外,该命令的后续开发值得大家持续关注。作者的下一步目标是缩短数据预处理时间。再接下来的目标,除了实施具有替换的最近邻匹配法之外,还包括其它分配法,并赋予双重差分模型更多的灵活性。
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。



: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存