查看原文
其他

什么时候用双聚类稳健标准误? 在个体和时间层面上考虑依赖性问题!

计量经济圈 计量经济圈 2022-11-16
凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

前不久,社群讨论了1.“显著不显著的后背是什么, 非(半)参估计里解决内生性”,2.“计量社群里关于使用交互项还是中介效应分析开展机制研究的讨论”,3.“为啥面板数据回归中, 即使X对Y的解释程度很大, 但R-square一般都很小?”,4.多期DID中使用双向固定效应可能有问题! 又如何做平行趋势检验? 多期DID方法的最新进展如何?,5.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?6.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗?7.回归中常数项显著说明模型中有遗漏变量问题?8.审稿人有义务告诉你回归中可能的遗漏变量么?9.针对很多实证问题的讨论, 随手保存的部分内容以飨学者,10.未引入交互项主效应为正, 引入后变为负, 解释出来的故事特别好, 主效应符号确实增强了故事性,11.双向固定效应多期DID最新进展和代码汇总, 关于控制变量和固定效应选取的讨论,12.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器,13.多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等,14.针对经济学领域中介效应模型问题的回应和理性讨论,15.讨论a(b)对b(a)的新方向论文, 经济学期刊分区问题, 3个机制存在时计量模型设计问题,16.如果解决了内生性, 那么是否意味着证实了变量之间的因果关系呢?17.解释变量提升一个标准差,被解释变量提升几个百分比呢?18.关于DID中对照组与处理组的比例问题?19.双重差分法和事件研究法的区别主要在哪里?20.双重差分法和事件研究法的区别主要在哪里?21.统计上不显著的变量表明该变量对结果变量没有影响吗?22.IV与Y在理论上无直接关系, 但用Y对IV做回归发现IV是显著的, 这是咋回事?23.Heckman模型和工具变量IV之间的差异?24.X与Y负相关但回归系数却为正? OLS不显著但2SLS却显著?等等。这些讨论中有很多非常高质量的内容值得被记录起来,因此后面会形成一个计量圈社群讨论专栏。

感谢社群群友的讨论,此处没有列出讨论群友。

今天,分享一下计量社群里关于“双聚类稳健标准误”的问题的讨论。

正文

众所周知,当误差项独立同分布 (iid) 时,OLS 标准误差是正确的。然而,在面板数据中,感兴趣的变量通常在横截面上和序列上是相关的。例如,特定行业的冲击可能会导致特定行业中的公司之间产生相关性。特定于公司的冲击可能是持久的,并会随着时间的推移而产生相关性。
此外,一些冲击可能在企业中持续存在且普遍存在:商业周期将导致不同企业在不同年份之间存在相关性。如果是这种情况,在面板数据中用OLS进行估计所产生的误差项更可能在公司之间相互关联,因此公司 i 在 t 年的误差项与公司 j 在 t 年的误差项会相关。同时,误差项更可能从一个时期到下一个时期相关,这样,公司 i 在 t 年的误差项与公司 i 在 t + 1 年的误差项会相关。
因此,OLS 假设回归误差项的独立性,通常被截面和时间序列依赖性的存在所违反。此外,要使 OLS 达到最优,重要的是所有误差都具有相同的方差(同方差性)。然而,在混合时间截面数据集中,存在产生异方差统计回归的风险,因为它假定因变量在企业和时间段之间是同质的,而在面板数据的情况下,因变量在企业之间可能不同。事实上,属于同一组的个别公司的误差可能是相关的,即具有异方差和相关性。
因此,在回归分析中使用面板数据时,OLS 标准误会产生偏差。计量经济学者已经为这个问题制定了几种解决方案。
首先,可以使用固定效应来考虑未观察到的不随时变的异质性,固定效应方法主要用于检验在公司内部随时间变化的变量。它侧重于公司内部时间的变化,而忽略了公司之间的变化。他们建议,当固定效应可能无法完全控制集群内部和集群之间的相关性时,误差项独立同分布的假设就是无效的。聚类稳健标准误确实考虑了所有维度的相关性,因为双向聚类方法分别从公司维度、时间维度以及公司与时间的交互获得三个不同的聚类稳健方差矩阵。
其次,最简单的方法是为每个集群设定一个虚拟变量,例如,使用公司虚拟变量和年份虚拟变量来解释横截面依赖和时间序列依赖性。
第三,使用单向聚类稳健标准误差(也称为 Rogers 或 Huber-White 标准误差)来调整横截面维度或时间序列维度内的可能相关性,具体取决于聚类的维度。
第四,使用 Fama-MacBeth 程序调整同一年不同公司的观察值之间可能的相关性,但没有考虑同一公司不同年份的观察值之间的相关性。
最后,Newey-West 程序传统上用于解释单个时间序列残差中未知形式的序列相关性。现在,通过估计同一聚类中滞后残差之间的相关性,它已被修改用于混合截面时间序列数据。
尽管上述程序在一定程度上纠正了横截面或序列相关性,但没有一个程序旨在处理二维(跨公司和跨时间)的相关性。这是因为这些方法通常按公司聚类并假设随着时间的推移呈现独立性,或按时间聚类并假设跨公司独立。不幸的是,在面板数据结构中,相关性更可能出现在企业效应和时间效应两个维度上。
因此,学者们提出用双聚类乃至多聚类标准误解决上述多维度的依赖性问题。
我们仍然以之前“一定要控制时间固定效应吗?”引荐的文章为例,它给出了双聚类稳健标准误,在个体和时间层面上都进行了聚类。这种方法允许同一年份不同公司之间,以及同一公司不同年份之间存在相关性。关于聚类问题,参看:1.什么时候以及如何使用聚类标准误?在什么层级上进行聚类呢?2.双重聚类cluster咋做? 线性, logit, tobit可以双聚类吗?

Standard errors are clustered at bank and time level. The clustering at bank level accounts for autocorrelation, including that introduced by interpolation of the data. The clustering at time level allows error terms to be correlated across banks in all countries, which is important in light of several countries experiencing asset price bubbles at similar times. Because the precise timing of asset price booms and busts differs across countries, the bubble indicators show, however, variation in the cross-sectional dimension even for those countries that experience asset price bubbles in similar periods.
标准误差在银行和时间层面上进行双聚类。银行层面的聚类在于缓解自相关性,包括数据插值引入的自相关性。而时间层面的聚类,允许误差项在所有国家的银行之间相互关联(鉴于几个国家在类似时间经历资产价格泡沫,这一点显得很重要)。
由于资产价格繁荣和萧条的确切时间因国家而异,因此泡沫指标显示,即使对于那些在相似时期经历资产价格泡沫的国家,其横截面维度也存在差异。


关于面板数据,参看:1.面板数据政策评估方法(DID等)的最新进展与相关应用, 包括机器学习和因子估计法,2.面板数据中的倾向得分匹配PSM, 附详细程序和操作思路,3.面板数据中变量的单位根与模型协整检验,4.动态面板数据模型及其运用, 差分广义矩和系统广义矩估计,5.为啥面板数据回归中, 即使X对Y的解释程度很大, 但R-square一般都很小? 6.面板数据中的格兰杰因果关系检验如何实现? 附上代码和相关数据! 7.面板数据方法免费课程, 文章, 数据和代码全在这里, 优秀学人好好收藏学习!8.面板数据中标准误的估计方法, 你确定用对了吗? 我们来比较一番!9.面板数据中多项logit模型如何估计?各位看过来,10.空间面板数据模型估计数据, 程序和解读,11.用Stata做面板数据分析, 操作代码应有尽有,12.面板数据为什么好?读了这篇你才会明白,13.面板数据聚类, 因子分析和主成分分析咋做? 14.中国工企数据库各年份指标解释, 面板数据构建地基,15.面板数据模型操作指南, 不得不看的16篇文章,16.省级面板数据很不妥, 省级空间计量更荒谬,17.面板数据中去中心化的交互项回归什么情况,18.面板数据是怎样处理内生性的,一篇让人豁然明朗的文章,19.面板数据密度图和时间趋势图韩城攻略和常见操作,20.面板数据计量方法全局脉络和程序使用指南篇,21.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性,22.面板数据、工具变量选择和HAUSMAN检验的若干问题,23.面板数据的DID估计,透彻解读,24.reg3, 多元回归, 面板数据, 方差分析, 异方差和自相关检验和修正的Stata程序Handbook

关于固定效应,参看:1.公司和个体固定效应总是更好吗? 关于固定效应使用和解释的最全指南!2.使用固定效应FE时良好做法对应的检查清单,3.双向固定效应多期DID最新进展和代码汇总, 关于控制变量和固定效应选取的讨论,4.Top: 终身制教授是更好的老师吗? 基于分组回归, 控制固定效应的方法实证,5.快速估计带有高维固定效应的泊松模型, 这计算速度真快, 真实用!6.不能直接控制某个固定效应时, 我们能尽量做些什么呢?7.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理,8.时间固定效应和时间趋势项的区别, 可以同时加?9.省份/行业固定效应与年份固定效应的交乘项固定效应,10.面板交互固定效应是什么, 白聚山教授推动了最前沿的研究,11.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性,12.双重固定效应因果推断经典文献,新农保对所有农民都好吗?

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存