查看原文
其他

什么时候以及如何使用聚类标准误?在什么层级上进行聚类呢?

计量经济圈 计量经济圈 2022-11-16

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

一些发表Top期刊的独特数据,受到圈友强烈推荐。

(1)

在经济学的实证研究中,报告标准误差的时候常常需要考虑到数据聚类问题(clustering)。通常,调整聚类数据的动机是集群内各个体中未观察到的组成部分是相关的。然而,因为相关性可能发生在多个维度上,这种动机难以证明为什么研究人员在某些方面使用聚类,例如地理(州、省),但不在其他方面进行聚类,如年龄组或性别。


Abadie, Athey, Imbens & Wooldridge(2017)认为聚类本质上是一个设计问题,其中包括抽样设计和实验设计问题。如果采用两阶段过程抽样,那么这是一个抽样设计问题,从一个总体集群中随机抽样得到一个样本集群,而在在第二阶段,从集群样本数据中随机抽取一些个体。在这种情况下聚类调整是合理的,因为在总体数据里有在样本中没有看到的聚类。


如果政策项目的发生是与聚类相关的,则集群内相互关联的现象是一个实验设计问题。他们认为这第二个是最适合经济学中使用聚类调整的典型现象。这个观点让咱们对三个问题有了新的认识:(i)何时应该考虑到聚类问题从而调整标准误差,(ii)何时应当使用常规的聚类标准误,以及(iii)何时使用常规的聚类标准误显得非常重要。


他们的这篇文章实质上在某一个方面挑战Cameron在什么级别上标准误聚类, 个体, 县, 省或行业, 时间?挑选关键部分阅读,咱们可以更好地了解为什么实验设计中的问题更需要使用聚类标准误进行调整。

(2)

以下讲的是“cluster dependence”,即在同一集群下的个体是相关的,这是不是有点像经常碰到的多层线性模型hierachical linear model, multilevel model, 嵌套模型nested model, 随机系数模型random coefficients model。这与OLS回归要求的i.i.d独立同分布假设是矛盾的,因此咱们不再能使用传统的OLS方法估计参数。


如何修正这种cluster dependence?


注意,以下进行的修正主要考虑了回归中的截距项,即给每一个类别分配一个不同cluster-specific intercept。而对于回归中的斜率项,那个一般是多层线性模型(HLM)或者随机系数模型(RCM)要做的。就是说,更一般化的修正是HLM和RCM模型——允许不同截距和斜率都随着cluster发生变动。


1.Including a dummy variable for each cluster (fixed effects),固定效应模型,这个就是within estimators。固定效应方法指的是这些因素不可观测,但是又与咱们的解释变量相关因此会有内生性问题,那需要通过差分、去均值或添加虚拟变量等方式消除他们。


2. Random effects models模型,随机效应,假设的是那个cluster specific effects 与解释变量不相关,然后只需要通过广义最小二乘法GLS调整一下方差协方差矩阵就好。


3. Cluster-robust (“clustered”) standard errors,聚类稳健标准误,可以看这个在什么级别上标准误聚类, 个体, 县, 省或行业, 时间?有点像OLS+vce(cluster id)。


4. Aggregate data to the cluster-level and use OLS,把个体数据归并成为类别数据,即下面的取均值。这个就是between estimators。

如果每个类别下的个体数据不一样,那么类别层面的误差会有异方差性,此时咱们可以使用加权最小二乘法回归,而cluster size作为权重。


random effect estimators实际上介于within estimators与between estimators,更确切地说,它是within estimators和between estimators的平均值。从这里想到,有时候做面板数据的分析时,也可以采用between estimators的方式,对样本中的time或这cluster求均值,然后采用截面数据的方式做回归


举例:

①OLS。我们对语言智商与语言测试中的分数之间的关系感兴趣。OLS给出如下回归结果:


②随机效应模型。我们认为观察结果可能在每所学校内是相关的,因为存在一些不可观测的影响语言成绩的学校特征(例如优秀的语言教师)。random effects模型给出如下回归结果:

从上面的结果中,我们还了解到,语言分数在学校内是相关的,事实上,语言智商影响语言分数的88.7%%可归因于学校(其余部分归因于学生)。组类内相关性非常显著,正如其检验统计数3556.19所示。


③固定效应。我们现在考虑一种固定效应模型,它允许在未观察到的学校特征和语言智商之间建立关联(学校与优秀的老师吸引更聪明的学生)within estimators如下


④between estimators。如果你没有被生态谬误所吓倒,你可以分析群体的均值。Stata使用be选项, 在这里我们还使用wls来按照学生人数的比例来对学校加权。

关于生态谬误,请参看计量方法导致失真的社科研究, 谁之过


Note: 红线为between estimators,蓝线为within estimators,绿线为random effect estimators。


(3)

到底在什么级别上进行聚类,即如何获得合理的聚类稳健标准误—clustered robust standard errors。到底是在个体、县、市、省还是行业、时间聚类?有没有一个统一的标准或者指导准则?看一下这下面的黄色标注,即采取保守策略,先倾向于在一个更大层面进行聚类,然后比较聚类稳健标准误和原始的标准误的差异,可以在进一步的聚类稳健标准误变化很小的时候停止。


下面也有一些例外,咱们不需要去通过聚类修正标准误,比如,解释变量在一个更高层面中是随机分配的(如,学生的“什么什么”相对于学校是随机分配的),这样可以降低不同个体在该层面中的相关度;又比如,咱们认为不同个体在某个层面的误差相关性来自于外部共同冲击过程(因为此时可以通过聚类固定效应吸收掉外部共同冲击)。尽管如此,咱们依然建议使用聚类稳健标准误差,然后与原来的标准误进行比较,若有明显的差异则选择聚类稳健标准误。


下面主要说的是,就算一个模型中的标准误只为异方差型(因为异方差问题主要引起标准误的变化),但聚类稳健标准误总是一致估计的,因此凡是能够用聚类稳健标准误的尽量用它。除此之外,咱们可以使用随机效应模型来处理聚类相关问题(这与面板里的随机效应相似),然后通过广义最小二乘法来获得标准误,此时的标准误近似于聚类稳健标准误。

Stata最需要掌握的操作程序和技能

在Stata中如何执行聚类稳健标准误呢?尤其是在处理普通最小二乘法(OLS)和广义最小二乘法(GLS)方面有何不同?因为随机效应的估计方法就是GLS,可以在Stata软件上试一试xtreg y x, pa corr(exch)和xtreg y x, re。注:咱们经常使用的xtreg程序,其中xtreg y x, vce(robust)就相当于xtreg y x, vce(cluster panelid)


如果有些程序不给出聚类稳健标准误,那可以通过自助法去求聚类稳健标准误。


把聚类当作面板数据去理解有一定好处。千万不要狭隘地认为,“面板”数据仅仅是由不同个体在一段时间里的观测值所生成。如果把固定效应和随机效应这些估计方法放在传统面板数据之外理解,很多事情都会变得简单明了得多。比如,考察学生的学习性格与学习成绩的关系,一般都会在不同学校抽样调查一定比例学生,那咱们很多时候都需要控制个体、学校层面固定效应。


这里聚类固定效应与前面通常使用的聚类随机效应是对应的,所谓固定效应与随机效应,其区别就在于如何确立其error terms与解释变量的关系。当然,这会涉及到著名的Hausman检验,在这里主要是通过xtoverid这个程序进行操作的。一旦发现,不可观测的error terms(主要是cluster-specific terms)与解释变量是相关的,那么就需要通过demeaned(去均值)方法消除cluster-specific terms。


不过,聚类固定效应只能够控制一部分within cluster相关性,因此聚类稳健标准误仍然需要被使用。在Stata中可以尝试如下程序:xtreg y x, fe cluster(idcode)。

相关文章资料已放在社群, 有需要的可以下载参看, 有问题的到社群交流探讨。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存