过去15年政策评估文献中最重要的创新--合成控制法
计量经济学服务中心专辑汇总!计量百科·资源·干货:
Stata |Python |Matlab |Eviews |R Geoda |ArcGis |GeodaSpace |SPSS 一文读懂 |数据资源 |回归方法 |网络爬虫 门限回归 |工具变量 |内生性 |空间计量 因果推断 |合成控制法 |倾向匹配得分 |断点回归 |双重差分 面板数据 | 动态面板数据
编者按:本文主要编译自Causal Inference: The Mixtape
合成控制法首次出现是在2003年的一篇文章中,该文章用于估计恐怖主义对经济活动的影响(Abadie和Gardeazabal, 2003年)。自那篇文章发表以来,它变得非常流行——特别是在与Abadie、Diamond和Hainmueller(2010)同时发布R和Stata包之后。在撰写本文时,谷歌学术搜索“合成控制”和“Abadie”的结果超过3500次。该估计的影响力如此之大,以致于Athey和Imbens (2017a)说,它“可以说是过去15年政策评估文献中最重要的创新”(第3页)。
为了理解使用合成控制的原因,让我们回到比较案例研究这个更广泛的概念上来。在定性案例研究中,如Alexis de Tocqueville的经典《Democracy in America》,其目标是利用逻辑和历史分析归纳出事件或单个单元的特征对某些结果的因果影响。但它可能不会给这些因果问题一个非常令人满意的答案,因为有时定性比较案例研究缺乏明确的反事实。因此,我们通常只能描述和猜测各种事件与结果之间的因果关系。
定量比较案例研究是更明确的因果设计。它们通常是自然实验,只适用于单个单位,如单个学校、企业、州或国家。这类定量比较案例研究将总体结果的演变与其他单个结果,或者更常见的情况是,将一组选择的类似单位作为对照组进行比较。
正如Athey和Imbens (2017a)所指出的,定量比较案例研究最重要的贡献之一是综合控制模型。综合控制法是Abadie和Gardeazabal(2003)在一项关于恐怖主义对总收入影响的研究中提出的,然后在更详尽的处理中进行了阐述(Abadie, Diamond, and Hainmueller 2010)。综合控制模型最优选择一组权重,当应用到一组相应的单位时,产生一个最优估计的反事实的单位,接受处理。这个反事实被称为“合成单元”,用来概述如果没有进行处理,聚合处理单元将会发生什么。这是对差异中的差异策略的一个强大而又惊人地简单的概括。
Abadie and Gardeazabal(2003)为了评估恐怖主义对西班牙巴斯克地区的影响,开发了综合控制估计器。但是Abadie, Diamond和Hainmueller(2010)通过使用加州的“99号提案”香烟税阐述了这种方法。他们的例子使用了一种基于安慰剂的方法进行推理,所以让我们更仔细地看看他们的论文。
1、加州香烟控制法案
1988年,加州通过了名为“99号提案”的全面烟草控制法案。第99号提案将香烟税提高了每包0.25美元,在全州范围内颁布了清洁空气法令,资助了反吸烟媒体宣传活动,将税收用于健康和反吸烟预算,每年在反烟草项目上产生了超过1亿美元的资金。其他州也有类似的控制项目,但它们被排除在分析之外。
图1显示了从1970年到2000年加州和美国其他地区每年香烟销售的变化。可以看出,在99号提案之后,香烟的销量下降了,但由于他们已经在下降,所以不清楚是否有任何影响——特别是因为全国其他地区的香烟销量同时也在下降。
然而,使用他们的方法,他们选择了一组最优的权重,当应用到全国其他地区时,产生如图2所示的图。注意,在处理前,这组权值产生的加州的时间路径与真实的加州本身几乎相同,但在处理后,这两个系列出现了分歧。乍一看,该计划似乎对香烟销售产生了影响。
加州香烟销售vs合成加州
图2:加州香烟销售vs合成香烟销售
表1列出了他们用于最小化距离的变量。请注意,这种分析产生了治疗组和对照组的值,便于对平衡进行简单的调查。这不是一个技术测试,因为每个治疗类别的每个变量只有一个值,但这是我们使用这种方法所能做的最好的。看起来两组中用于匹配的变量是相似的,特别是滞后的值。
表1: Balance table
变量 | 实际加州 | 合成加州 | 平均38个控制州 |
---|---|---|---|
Ln(人均GDP) | 10.08 | 9.86 | 9.86 |
15 - 24岁 | 17.40 | 17.40 | 17.29 |
零售价格 | 89.42 | 89.41 | 87.27 |
人均啤酒消费量 | 24.28 | 24.20 | 23.75 |
1988年人均卷烟销量 | 90.10 | 91.62 | 114.20 |
1980年人均香烟销量 | 120.20 | 120.43 | 136.58 |
1975年人均卷烟销量 | 127.10 | 126.99 | 132.81 |
除香烟销量量的滞后变量外,所有变量均为1980-1988年期间的平均值。啤酒的平均消费量是1984-1988年。
图3:处理前后估计的香烟销售差距
2、安慰剂检验
但到目前为止,我们只涉及到估计。我们如何确定两个系列之间观察到的差异是否具有统计学意义的差异?毕竟,我们每年只有两次观测。也许两个系列之间的分歧只不过是预测误差,任何选择的模型都会这样做,即使没有治疗效果。Abadie, Diamond和Hainmueller(2010)建议我们使用一种老式的方法来构建基于R. A. Fisher(1935)的精确的(p)值。Firpo和Possebom(2018)将本检验中使用的零假设称为“无论如何都没有治疗效果”,这是文献中最常见的零假设。尽管他们提出了一个替代的null用于推理,但我将重点关注Abadie、Diamond和Hainmueller(2010)在这个练习中提出的原始假设。如前一章所讨论的,随机化推理将处理分配给每个未处理的单元,重新计算模型的关键系数,并将它们收集到一个分布中,然后用于推理。Abadie、Diamond和Hainmueller(2010)建议计算一组处理前后的均方根预测误差(RMSPE)值,作为用于推断的检验统计量。我们的做法如下:
对donor pool中的每个国家/州反复应用综合控制方法,获得安慰剂效应的分布。
计算每个安慰剂治疗前的RMSPE: 公式为:
计算每个安慰剂在治疗后时期的RMSPE(类似的公式,但在治疗后时期)。
计算处理后和处理前的RMSPE的比率。
按从大到大的降序排序。
计算处理单元在分布中的比例为
换句话说,我们想知道的是加州的治疗效果是否极端,这是一个相对的概念,与donor pool
自身的安慰剂比例相比。
有几种不同的方式来表示它。第一种方法是使用Stata双向命令将所有安慰剂覆盖在加州,我稍后将展示这一点。图4显示了它的样子。我想你们也会同意,它讲述了一个很好的故事。显然,加州处于一些治疗效果分布的尾部。
图4:使用所有单位作为供体池的安慰剂分布
Abadie, Diamond和Hainmueller(2010)建议反复删除那些前处理RMSPE与加州相当不同的州,因为正如你所看到的,它们在某种程度上扩大了规模,使人们很难看到发生了什么。它们通过几个步骤来实现这一点,但我将直接跳到最后一步(图5)。在这张图中,他们去掉了任何一个预处理后的RMSPE超过加州两倍的州单位。因此,这就限制了图片的范围,只有模型匹配的单元,预处理的,非常好,就像加州的。
图5:Pre-Proposition 99 RMSPE 2 times Pre-Pop 99 RMSPE for CA
但是,最终,推断是基于那些精确的(p)-值。所以我们这样做的方法是我们简单地创建一个比率的直方图,或多或少地在分布中标记治疗组,以便读者可以看到与模型相关的确切的(p)值。我在图6中生成它。
可以看出,加州在38个州中排名第一这给出了一个精确的(p)-值0.026,这小于大多数期刊想要(任意)看到的统计显著性的常规5%。
图6:所有单位前/后RMSPE的直方图。