固定效应还是随机效应?
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会 · 效率分析专题
作者:韩杰 (暨南大学)
邮箱:han_ovetk@foxmail.com
编者按:本文主要摘译自下文,特此致谢!
Source:Clark T S, Linzer D A. Should I use fixed or random effects?[J]. Political science research and methods, 2015, 3(2): 399-408. -PDF-
目录
1. 引言
2. 主要问题
3. 固定效应和随机效应
4. 如何选择
4.1 高方差问题
4.2 偏差问题
4.3 实际考虑
5. 相关推文
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
在社会科学中,实证分析经常面对的是聚类或分组的定量数据。为了解释群体水平的变化并改善模型的拟合优度,学者们通常会选择一个固定或随机效应模型。但是,目前关于在什么条件下应该选择哪种方法的建议仍然含糊不清,有时甚至是相互矛盾的。
1. 引言
本文为学者们在固定效应和随机效应模型之间的选择提供了实用指导。这两个模型都包含了一系列假设,这些假设在任何给定的数据中都可能被违背。在某些条件下,随机效应模型可以引入偏差,但减少了对关注系数估计的方差。固定效应估计将是无偏的,但可能受样本依赖性的影响。
我们认为,研究者不应该过分重视最小化偏差或方差,而应该考虑在任何一个模型中两者之间的权衡。如果协变量与组效应相关,随机效应模型在系数估计中可能存在偏差,但这并不意味着协变量与组效应之间的任何相关,就认为固定效应是首选的。相反,应该判断的是产生了多少偏差,以及使用固定效应会引入多少方差。
2. 主要问题
考虑线性模型,观测值 可分成组 ,
假设每个组的 是相同的。组效应 表示在已知 的情况下,组 中 的预测必须向上或向下调整的量。 表示组 中的观测值 。由于组效应是除 之外的所有其他预测 的未知系统因素,如果这些因素是已知的,他们可以作为协变量,来解释 的额外变动,以及消除 的组间变异性。
由于这些变量不包括在模型中,我们用 来代替他们。如果不考虑 组间变化的可能性,则会导致对 的偏差估计。假设组效应都是等价的,即对于所有 和 ,,那么上述模型可简化为混合模型:
如果组效应不同,但与 不相关,则混合模型在估计 时也不会产生偏差。然而,在大多数应用中,组效应在一定程度上与 有关,因此必须对 的变化进行建模,以避免对 的错误估计。
3. 固定效应和随机效应
有两种标准的方法来模拟 的变化:固定效应和随机效应。固定效应模型是 对 的线性回归,它为每个组增加了一系列指示变量 ,如果观测值 在组 内,则 ,否则 。
在随机效应模型中, 被假设遵循一个概率分布。这种分布是典型的正态分布,平均组效应为 和方差为 ,它描述了其他单位效应在平均值周围的变化。
当我们假设 而不是 时,随机效应估计量等价于固定效应估计量 (Gelman 和 Hill,2007)。实际上,两种模型下 系数的估计是数学相关的。设 、 表示 组的 个观测值。根据 Greene (2012),随机效应模型 的广义最小二乘估计为:
令 为 的单位矩阵, 是 的列,
其中,
当 或 时,随机效应估计量 将简化为固定效应估计量 (Greene,2012)。
4. 如何选择
在某些情况下,固定效应和随机效应模型之间的选择遵循研究人员的理论模型。然而,理论模型往往没有一个特定的规范,以及理论模型并不适合经验依据。此时,两种模型并不存在明显的区分。
4.1 高方差问题
在特定条件下,固定效应模型中的 估计可能高度依赖于样本——即对给定数据中的随机误差过于敏感。假设组内观测值很少,或者相对于 的变化量,组内 的变化很小。那么 对 的组内效应估计可能会由于偶然因素,与真实效应产生相当大的偏差。固定效应模型的一个缺点是需要估计每组指示变量的系数。这大大降低了模型的效率,增加了系数估计的标准误差。当组内样本量很小时,问题就更严重了,因为仅是组效应就可以解释因变量的大部分变化。
随机效应模型通过跨组部分汇集信息,使 的估计具有较低的可变性 (Gelman 和 Hill,2007)。随机效应估计量在固定效应模型和混合模型之间形成了折中,对于偏离的组别,将其 向平均值 收缩。这使得 的估计值远离不稳定的固定效应估计值,而接近于更稳定 (尽管可能存在偏差) 的估计值。
4.2 偏差问题
随机效应模型最严重的缺点是在估计 时引入偏差问题。为了消除这种偏差,随机效应估计量要求协变量 和组效应 之间不相关。
假设有一个变量 可以预测 ,但没有作为协变量包含在随机效应模型中。由于在模型中遗漏了 ,组 中 的更高或更低水平被组效应 代替。为了在系数的估计中没有偏差, 和 之间必须没有相关性。由于随机效应模型不估计单独的组效应, 和 之间的任何相关性都可能意味着在估计 时产生偏差。 和 之间的相关性越大,估计 的偏差越大。
有学者建议使用 Hausman (1978) 规范检验来检测是否违反了解释变量与组效应正交的随机效应模型假设。当检验结果显著时,表明 与 之间存在相关性,这意味着应该摒弃随机效应模型,而采用固定效应模型。然而,在大多数应用中,协变量和组效应之间的真正相关性并不完全为零。
因此,如果 Hausman 检验不能拒绝正交性的零假设,很可能不是因为真正的相关性是零,相反,该检验很可能缺乏足够的统计能力来可靠的区分小相关性和零相关性。当使用随机效应模型时,即使 Hausman 检验没有发现显著的结果,在 的估计中仍然会有偏差。当然,在许多情况下,如果有偏 (随机效应) 估计量比无偏 (固定效应) 估计量提供足够的方差收缩,则有偏估计量可能比无偏估计量更可取。
4.3 实际考虑
除了这些理论考虑之外,研究人员在决定固定效应和随机效应估计值时,还可能考虑一些实际和技术问题。例如,研究人员通常希望在模型中包含一个重要的、在组内不变化的协变量。在这种情况下,组内不变估计量将与组指示变量完全共线,使其不可能估计该变量的独特影响,或者,自变量可能在每个组内表现出极小的变化。
在时间序列截面数据中,随时间变化非常缓慢的自变量通常被称为 slow moving or sluggish。如果 sluggish 和组效应之间的相关性足够高,则可以破坏对自变量效应的估计。当使用固定效应估计量时,进行样本外预测是不可能的,因为未观察到的组效应是未知的。在随机效应模型中,使用模型对总体中组效应潜在分布的估计作为样本外预测是可行的。
5. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 固定效应 随机效应, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:计量专题 主成分分析-交互固定效应基础:协方差矩阵的几何意义 专题:面板数据 Stata:如何处理固定效应模型中的单期数据-xtfesing Stata:固定效应分析新命令-sumhdfe xtheckmanfe:面板Heckman模型的固定效应估计 regife:面板交互固定效应模型-Interactive Fixed Effect 引力模型-高维固定效应面板泊松模型 ocmt:高维固定效应模型的变量筛选问题 Stata新命令:ppmlhdfe-面板计数模型-多维固定效应泊松估计 Stata:非对称固定效应模型 reghdfe:多维面板固定效应估计 专题:倍分法DID DID最新进展:异质性处理条件下的双向固定效应DID估计量 (TWFEDD) Stata:双重差分的固定效应模型-(DID) 专题:内生性-因果推断 用FE-固定效应模型能做因果推断吗? 专题:Probit-Logit feologit:固定效应有序Logit模型
课程推荐:因果推断实用计量方法
主讲老师:丘嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【**百度一下:**连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。