查看原文
其他

完整解读TOP5刊的"什么时候和如何对标准误做聚类调整?" 4位计量大佬的合作!

计量经济圈 计量经济圈 2022-11-16

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

 
计量经济圈公众号搜索功能及操作流程演示
4位计量领域的大佬(包括2021年诺贝尔经济学奖得主)在TOP5刊QJE上发表了“When Should You Adjust Standard Errors for Clustering?”,即关于聚类标准误的相关问题。前些日,我们推荐过该文展示时用到的slides,参看:4位计量领域大佬在TOP5上为聚类标准误问题提供了实证建议!
关于聚类标准误的使用及其聚类层级的问题,先前已经做出过相关解释:1.啥时候使用聚类标准误, 以及数据聚类的修正方法? 2.在什么级别上标准误聚类, 个体, 县, 省或行业, 时间?3.什么时候用双聚类稳健标准误? 在个体和时间层面上考虑依赖性问题!4.双重聚类cluster咋做? 线性, logit, tobit可以双聚类吗?
四位计量经济学领域的绝对大佬发表在TOP5刊上的文章的影响力自不必说,更关键的是这篇文章对实证研究中聚类标准误的使用能起到实际性指导作用。

正文

关于下方文字内容,作者:邵文焕, 华侨大学经济与金融学院,通信邮箱:2596093097@qq.com

Alberto Abadie, Susan Athey, Guido W Imbens, Jeffrey M Wooldridge, When Should You Adjust Standard Errors for Clustering?, The Quarterly Journal of Economics, 2022

Clustered standard errors, with clusters defined by factors such as geography, are widespread in empirical research in economics and many other disciplines. Formally, clustered standard errors adjust for the correlations induced by sampling the outcome variable from a data-generating process with unobserved cluster-level components. However, the standard econometric framework for clustering leaves important questions unanswered: (i) Why do we adjust standard errors for clustering in some ways but not others, e.g., by state but not by gender, and in observational studies, but not in completely randomized experiments? (ii) Why is conventional clustering an “all-or-nothing” adjustment, while within-cluster correlations can be strong or extremely weak? (iii) In what settings does the choice of whether and how to cluster make a difference? We address these and other questions using a novel framework for clustered inference on average treatment effects. In addition to the common sampling component, the new framework incorporates a design component that accounts for the variability induced on the estimator by the treatment assignment mechanism. We show that, when the number of clusters in the sample is a nonnegligible fraction of the number of clusters in the population, conventional cluster standard errors can be severely inflated, and propose new variance estimators that correct for this bias.

什么时候应该对标准误做聚类调整?
导读
这篇文章最早是17年发在NBER上,新版本与17年的相比谋篇布局和写作内容都有了很大的改变。新版本也可以看做是20年文章的延伸。这三篇文章讨论的都是怎么保证标准误差的估计是可靠的。本文集中在聚类标准误估计上面,并提供了标准误的解析公式(CCV估计)和自助法估计(TSCB估计)和在固定效应下的估计方法。同时文章利用美国大学入学对收入的影响的实证研究对不同场合下稳健标准误、聚类标准误、CCV和TSCB四种估计方法的优劣进行了比较。当聚类占总体的比例越高,同时在聚类层面处理效应具有异质性时CCV和TSCB估计会有更好的估计结果。
本文一共有八个部分,其中第一、七和八偏定性介绍。只看这三个部分的话,也能够理解文章的主要思想。第二至第六部分则是技术细节,在平均处理效应的框架下对四个不同的标准误估计方法进行详细的对比。第三和第四部分是本文的重点内容,推导了LS估计和CCV估计公式以及TSCB估计的程序。第五和第六部分是前面两个部分的应用。
摘要
聚类标准误,如按地理因素定义的聚类,在经济学的经验研究中得到广泛运用。形式上,聚类标准误对从未观察到的聚类水平上的数据生成过程中抽样结果变量所引起的相关性进行调整。然而,聚类的标准计量经济学框架还有一些重要的问题没有得到回答:(i)为什么我们要以这种方式调整聚类的标准误差,而不是以其他方式来调整,例如,根据州而不是根据性别。在观察性研究中,而不是在完全随机的实验中?(ii)为什么传统的聚类是一种“全有或全无”的调整,而在聚类内部的相关性可以是强的或极弱的?(iii) 聚类设定的不同是否以及导致了多大程度的差异?我们使用了一个在平均处理效应上的聚类推断新框架来解决这些问题。新的框架在常见的样本组件内还加入了一个设计组件来解释由处理分配机制引起的估计量的可变性。我们的研究表明,当样本中的聚类数量是总体中聚类数量的一个不可忽视的比例时,传统的聚类标准误差可能会严重膨胀,并提出了新的方差估计来纠正这种偏差。
I. INTRODUCTION 引言
作者们以在美国读大学对收入的影响为例,比较了常用的异方差-稳健标准误(heteroskedasticity-robust standard errors,下称稳健标准误差)和聚类稳健标准误(cluster-robust standard errors,下称聚类标准误差)与本文提出的新估计方法的差异。作者们还推导了最小二乘法和固定效应估计量下的大样本方差估计公式,并表明它们一般不同于稳健方差和聚类方差。本文还提出了大样本方差的两个估计量,一个是解析的,另一个是基于重复采样(自助)方法的。在对美国例子的实证研究中,作者们提出的新估计法产生的标准误差远远大于稳健的标准误差,但也大大小于传统版本的聚类标准误差(新方法估计的标准误差可以认为是这两者的凸组合)。
本文使用我们的框架来强调围绕聚类调整的三个常见的误解。第一个误解是,聚类的需要取决于属于同一聚类水平内个体的残差之间是否存在非零相关性。第二个误解是,当不需要聚类调整时,使用这些调整没有害处。这意味着如果聚类标准误会产生影响,就应该进行调整。第三个误解是,研究人员只有两种选择:要么完全调整聚类和使用聚类标准误差,要么根本不调整标准误差并使用稳健标准误差。
对于第一个误解,作者们认为组内残差相关性并不是聚类调整的充分条件也不是必要条件。对于第二个误解,作者们以随机抽样的例子表明与标准的抽样理论相反,如果回归结果在聚类里面是正相关的,那么聚类标准差将大于稳健标准差,因此会导致置信区间估计的错误。对于第三个误解作者们提出使用稳健和聚类方差估计的组合可以得到更合意的结果。
因此本文的主要贡献在于分析了什么时候应该调整聚类标准误,以及在什么层面上进行聚类?在传统的基于模型的例子中,考虑一个在州层面的随机效应模型。按照随机抽样的思想得到随机效应的分布,然后利用样本的平均值来估计总体的平均值。即使这是一个随机抽样的实验,这时候也需要在州层面进行聚类。这要求实验人员需要对模型误差的结构有一个先验的认识。
另外聚类本质上是一个抽样设计或者实验设计的问题。首先从无限的总体中随机抽出聚类的层级,最后再从聚类层级中随机抽取个体样本。作者们认为当研究人员可以观察到所有他们感兴趣的样本时(如可以观察到美国所有州的情况),此时就不适合这样从无限总体抽取小样本的情况。
从中可以看到这两类传统的聚类推断思想都没有完全吸收设计的视角。正因为缺少设计的视角,所以这两类方法不适合对处理效应进行推断。本文的一大创新就是在传统的方法上面增加了一个设计组件。
本文的贡献主要有三个:第一提出了一个新的聚类的方法;第二本文推导了平均处理效应的最小二乘估计量和固定效应估计量的中心极限定理和大样本方差估计式,它们同时考虑了抽样和分配的变化;第三本文提供了新的方差公式和自助法程序。
本文涉及的几个术语:因果聚类方差(Causal Cluster Variance,CCV)表示方差解析式,两阶段聚类自助法(Two-Stage Cluster Bootstrap,TSCB)。本文的数据来源于2000年美国普查数据,一共包括2632838人,然后根据在50个州、波多黎各和哥伦比亚特区的居住情况定义了52个聚类。本文分析了考虑两个对数线性个人收入在一个处理变量上的回归,该变量对大学的信息进行编码。第一种处理效应是州层面的平均水平,第二种处理效应是个体层面读的大学。
在表I的A组中,其中唯一的解释变量是一个0-1二元变量,1表示如果至少有一些居住在该州的大学的个人比例为0.55或更高,反之则为0(我们选择0.55以确保在52个聚类中有足够的变化)。此时处理效应在州层面是固定的。我们报告了普通最小二乘(OLS)估计,以及稳健和聚类标准误。此时聚类标准误的大小大约是稳健标准误的26倍。

在表一的B组中,唯一的回归因子是至少一些大学的个人水平指标。除了OLS,我们还报告了固定效应(FE)估计(包括50个州的固定效应),以及稳健、聚类、CCV和TSCB的标准误差。与第一个面板的回归一样,在州水平上的聚类对标准误差有显著的影响。对于OLS和FE回归,聚类标准误差大约是稳健标准误差的23倍。在OLS和FE回归中CCV和TSCB的标准误差大小都介于稳健标准误差和聚类标准误差中。

注:注:本表使用2000年十年一次人口普查中5%的PUMS作为基础样本,并添加了波多黎各。劳动收入的对数是年收入的对数。样本包括所有年龄在20到50岁之间的人有正收入的年龄。上过大学被定义为接受了13年或以上教育的个人。括号里面对应的是标准误。
II. A FRAMEWORK FOR CLUSTERING 聚类的框架
一般来说,量化参数估计的不确定性需要描述总体,并阐明描述如何从该总体中生成样本的假设(即,为数据生成过程建立一个模型)。本文的框架包括三个步骤:总体的序列、抽样过程和分配过程。

在我们的框架中,抽样过程中会有三个不同的变化导致最终估计的不同。首先,在每个聚类中观察到的单位的样本之间存在差异。其次,在观察到的聚类中存在潜在的变化(这导致被观察到的单位不同)。第三,不同单位的处理分配(treatment assignment)存在差异。聚类的标准框架只关注前两个(抽样)不确定性来源,而我们提出的框架允许分析所有这三个来源。这三个成分对平均处理效果的最小二乘估计和固定效应估计量的方差有多大的影响,这取决于(i)抽样过程,(ii)分配过程(assignment process),以及(iii)聚类间处理效应(treatment effects)的异质性。因此要得到一个有效的近似估计需要对这三个方面进行控制。

III. THE LEAST-SQUARES ESTIMATOR AND ITS VARIANCE 最小二乘估计量及其方差

IV. TWO NEW VARIANCE ESTIMATORS 两种新的方差估计
由(7)式可以看到当聚类的比例比较大并且聚类之间的处理效应具有实质性的差异时,方差的估计便会有很大的偏误。为此本文提供了两种方法来减少方差估计的误差。一种方法是对聚类方差估计量进行调整,一种是通过再抽样方法进行调整。还有一种方法是直接估计(7)中的偏差项,并从聚类方差中减去它。这种方法的一个挑战是,调整项的估计误差很大(通常导致负方差估计),因为修正的数量级本身很大,而且这种方法在我们的模拟中不能很好地工作。对于后一种方法我们在本文中没有报告方差估计的正式结果,而是在第六节的模拟中演示了它们的性能。
对于qk<1的情况,在这种情况下,我们需要考虑到我们在总体中只观察到的聚类的一小部分的事实。我们遵循Chao和Lo(1985)提出的方法。对于qk=1/2的情况,我们观察到总体中一半的聚类。此时的自助程序首先创建一个包括聚类的原始种群的伪总体样本,同时加上每个聚类的一个额外复制。然后,为了得到一个自助样本,我们从这个伪总体中的聚类中没有替换地进行随机抽样。对于给定自助样本中的聚类,我们像前面一样继续进行,并最终计算自助方差作为自助样本上的估计量的方差。Chao和Lo(1985)对qk=1/2的情况的详细的说明。具体的算法如下表所示:
V. THE FIXED-EFFECTS ESTIMATOR 固定效应的估计
在本节中,我们报告了在经济学的实证研究中常用的固定效应估计量的结果。Arellano (1987), Bertrand, Duflo, and Mullainathan (2004), Cameron and Miller(2015) and MacKinnon, Ørregaard Nielsen, and Webb (2022)都指出,在固定效应回归中,聚类调整可能仍然是必要的。然而,基于具有聚类特定方差成分的模型的聚类观点在对具有聚类固定效应的估计量的聚类标准误差作用存在着模糊性:哪些用来吸收聚类水平上的方差?
我们首先刻画了固定效应估计量,并推导了它的大样本k下的分布。然后,讨论了两种传统方差估计量的稳健方差估计和聚类稳健方差估计的性质。在最小二乘的情况下,我们发现稳健标准误差可能太小,聚类标准误差可能不必要的大,特别是在每个聚类的观测数很大的情况下。我们提出了CCV和TSCB的方差估计量。固定效应的CCV估计量与第四节中的最小二乘估计量有不同的形式。
固定效应估计量是基于对处理指标和样本中每个集群指标结果的回归。它可以写成处理结果回归的最小二乘估计,两个变量都偏离聚类平均值。

VI. SIMULATIONS 模拟

我们接下来报告了模拟结果,说明了所提出的方差估计器相对于现有的替代方案的性能。为了在与经验相关的环境下运作,我们基于介绍中简要描述的人口普查数据创建了一个人工总体,其中包括对数收入信息、大学录取率(college attendance)指标和2,632,838人的居住状态指标。

对于基准回归,最小二乘估计量的归一化标准差为5.91。这可以很好地近似于渐近标准误差5.90。稳健标准误差平均为1.90,小于LS归一化标准差的三分之一。聚类标准误差太大,平均为44.86,是归一化标准差的7倍多。CCV比稳健和聚类估计改进了很多。平均CCV标准误差为6.32,比归一化标准差高出约7%。TSCB标准误差最为准确,平均等于5.80。对于固定效应估计量,渐近标准误差同样是准确的。稳健标准误差估计比基准回归估计小了约为16%,导致表3中名义95%置信区间为0.89。聚类标准误差估计则变成太大了,相差20倍。CCV和TSCB的标准误差与归一化的标准误差非常接近。
考虑在重复样本上的不同方差估计量相对于估计量的标准偏差的真实值的变化也是很有趣的。在基准回归中,归一化标准差为5.91。稳健标准误差是非常精确的,在10,000次模拟中的标准化稳健标准误差的标准偏差等于0.005。聚类标准误差的标准差要大得多,为1.48。对于CCV标准误差,标准差为1.21,而对于基于自助采样的TSCB,标准差相当低,为0.69。

VII. IMPLICATIONS FOR PRACTICE 实践中的应用
本文的应用主要体现在各种经验设定下不同标准误差的计算和解释。有些设定很清晰,有些则更为微妙。首先,我们讨论了没有聚类抽样的情况。如果一个人从一个大的总体中抽取一个随机的个体样本,并且有随机处理分配的个体样本,就没有理由将最小二乘估计量的标准误差聚类。这样做可能是有害的,会导致不必要的过宽的置信区间估计。在这种情况下,即使结果中存在聚类内相关性,即使聚类对标准误差的大小也有显著差异,聚类也是不合适的。例如,如果工人从一些感兴趣的人群中被随机抽样,然后随机分配到一个职业培训项目,在行业、县或州一级的标准误差可能会导致不必要的保守标准误差,通常幅度很大。类似地,在法官宽大的设计中(judge-leniency design)——被告被随机分配给法官——标准误差不应该聚集在法官的级别(Chyn, Frandsen, and Leslie, 2022)。如果样本代表了总体的很大一部分,并且处理效果在不同单位间是异质性的,那么稳健的标准误差也是保守的。如果数据中包含与个体层面处理效果相关的个体属性信息,则可以采用Abadie等人(2020)中的方法来获得较少保守的标准误差。
接下来,考虑聚类分配的情况,我们要么随机抽样,要么观察到整个总体。这是一种使聚类变得相关的情况,传统的聚类标准可能非常保守。如果分配是完全聚类的,因此属于同一聚类的个体具有相同的处理分配,那么使用CCV方差就没有任何改进,而且TSCB方差估计也不适用。如果分配是部分聚类的——因此聚类内部的处理分配存在变化——并且聚类规模很大,则可以应用CCV和TSCB,并且可以产生比通常的聚类标准误差要小得多的标准误差。
聚类标准误差的另一个原因是聚类抽样。qk接近于零的情况有时是相关的,特别是当样本是一个关于个体的面板数据或家庭的横截面数据,而样本中的个体或家庭只占总体的一小部分时。然后,无论是否聚类,LS的渐近方差估计都是正确的。当聚类层面很大(例如州层面的聚类)时,同样的结果也成立,qk是总体中聚类的很大一部分,但pk很小——所以样本只包含来自每个聚类的少量样本。在其他情况下,聚类标准误可能会变得极大。如果聚类的规模(cluster sizes)很大,且聚类内部存在处理效应的异质性,那么CCV和TSCB可以大大降低标准误差的大小。
这篇文章中的见解与其他常见的经验经济学的设定是相关的。考虑一个个体水平的面板数据的设定,其中处理组都在同一时期受到处理。在这种情况下,DID估计量与在个体水平平均结果变化的横断面回归中的处理组的系数是相同的。此时处理变量的系数在处理后和预处理期间之间单位个体水平平均结果变化的一个常数上,如果单位属于处理组,处理指标取值为1。如果处理分配在个体间是随机的,并且样本包含总体或整个总体的随机子集,那么如果样本相对于总体较大,并且处理效应是异质性的,那么稳健标准误差提供的推断通常是保守的。在这里,Abadie等人(2020)中的方法也可以用于校正稳健标准误差的偏差。通过聚类分配,应该在分配级别对标准误差进行聚类——例如,如果所有农民被分配相同的处理状态,则在村级进行聚类。在这种回归中添加组水平(group-level)的固定效应允许在潜在潜在结果系列中出现特定于组的线性趋势,但不会改变是否需要调整聚类问题的答案。在部分聚类分配下,CCV和TSCB的标准误差估计能够继续为固定效应估计提供比传统聚类标准误差的实质性改进。
VIII. CONCLUSION 结论
本文提出了一个研究框架,旨在解决实证实践的中心相关性问题:我们应该何时以及如何进行聚类标准误估计。就像Abadie等人(2020)一样,我们将注意力从对数据生成过程(即无限超种群)特征的估计转移到对手头有限种群的平均处理效应的估计上。我们表明,在这个框架中,关于何时以及如何聚类标准误差的决定仅取决于采样和分配过程的性质,而不是结果变量中聚类内总误差成分的存在。我们推导了具有聚类抽样设置的平均处理效应的OLS和FE估计量的大样本方差的表达式,其中分配在集群内是随机的,分配概率可能在不同的集群中有所不同。对于这种设置,我们证明了稳健标准误差可能太小,而传统的聚类标准误差可能不必要地大。我们提出了两种新的方法,CCV和TSCB,它们可以用于计算在具有大样本聚类的设定中更精确的标准误差,同时在聚类内部的处理分配有足够的差异(以便可以精确地估计聚类内总的平均处理效应)。虽然CCV和TSCB是为这个特定的设定而设计的,但是该框架的一般原则对于其他设定和估计仍然有效。如果抽样不是聚类的,标准误差应该在处理分配水平上聚类,因为感兴趣的估计取决于潜在的结果,而潜在结果的抽样仅由分配机制决定。当抽样聚类的比例不可忽略,且不同聚类之间的平均处理效果存在变化时,传统的聚类标准误差可能会偏离。我们提供了一个分析框架,可用于推导适当的标准误差估计。当抽样和分配是随机的,无论结果的协方差结构如何,聚类标准误差都是不合适的。在这种情况下,如果存在实质性的处理效应的异质性,并且样本代表了感兴趣的总体的很大一部分。在大样本中稳健标准误的估计是保守的。
这种偏差可以使用Abadie等人(2020)的方法进行纠正。本文所介绍的抽样和分配过程的标准误差公式是未来研究的一个重要途径。Rambachan 和 Roth (2022)在这个方向上有了最新贡献。此外,在本文中,我们将分析限制在线性估计量(最小二乘和固定效应)上。Xu(2019)扩展了本文的思想和框架来分析非线性估计量的分布。
Supplementary Material
补充资料可在 Quarterly Journal of Economics上找到。
Data Availability
本文中表的数据和代码可以在Harvard Dataverse中Abadie等人(2022)获取,https://doi.org/10.7910/DVN/27VMOT

关于因果推断,可参看关于各种因果识别方法的120份经典实证文献汇总”,21年诺奖得主那些年关于教育的研究, 学习其中的因果推断方法!因果推断的统计方法总结, 177份文献政策评估的计量方法综述, 包括最新因果推断方法在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献,看完顶级期刊文章后, 整理了内生性处理小册子工具变量精辟解释, 保证你一辈子都忘不了DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征关于双重差分法DID的32篇精选Articles专辑!关于(模糊)断点回归设计的100篇精选Articles专辑!匹配方法(matching)操作指南, 值得收藏的16篇文章等,MIT广为流传的政策"处理效应"读本DID的研究动态和政策评估中应用的文献综述最新政策效应评估的四种方法政策效应评估的基本问题等。
1.用"因果关系图"来进行因果推断的新技能2.因果推断专题:因果图3.因果推断专题:有向无环图DAG4.confounder与collider啥区别? 混淆 vs 对撞5.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系6.中介效应检验流程, 示意图公布, 不再畏惧中介分析7.图灵奖得主Pearl的因果推断新科学,Book of Why?  8.前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑!因果关系研究的图形工具!9.前沿: 卫星数据在实证研究中的应用, 用其开展因果推断的好处!10.7大因果推断大法精选实证论文, 可用于中国本土博士课堂教学!11.随机分配是什么, 为什么重要, 对因果关系影响几何?12.应用计量经济学现状: 因果推断与政策评估最全综述13.疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用14.Python做因果推断的方法示例, 解读与code15.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS16.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献等等。

关于因果推断书籍:哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code!图灵奖得主Pearl的因果推断新科学, Why?计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用(慕课上有不少免费课程,建议年轻学者好好使用),④你应该阅读哪本因果推断书籍: 一份进阶流程图和简短书评列表
下这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

4年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存