查看原文
其他

公司和个体固定效应总是更好吗? 关于固定效应使用和解释的最全指南!

计量经济圈 计量经济圈 2022-10-02

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于固定效应,参看:1.不能直接控制某个固定效应时, 我们能尽量做些什么呢?2.快速估计带有高维固定效应的泊松模型, 这计算速度真快, 真实用!3.Top: 终身制教授是更好的老师吗? 基于分组回归, 控制固定效应的方法实证,4.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理,5.时间固定效应和时间趋势项的区别, 可以同时加?6.省份/行业固定效应与年份固定效应的交乘项固定效应,7.广义合成控制法gsynth, 基于交互固定效应的因果推断,8.面板交互固定效应是什么, 白聚山教授推动了最前沿的研究,9.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性,10.双重固定效应因果推断经典文献,新农保对所有农民都好吗?11.使用固定效应FE时良好做法对应的检查清单

正文

关于下方文字内容,作者:周宁哲, 武汉大学经济与管理学院,通信邮箱:inze_zhou@foxmail.com作者之前的文章:1.Top金融,经济与会计期刊中的文本分析, 一项长达2万字的综述性调查,2.前沿: 解决内生性问题的无工具变量推断法,3.断点回归设计RDD的原理和实证指南, 年龄, 地理, 分数等断点应有尽有,4.AER, 中国大运河上的叛乱: 262年间的证据, 运用DID, CIC, SCM等方法!5.诚实双重差分法DID, 面板事件研究法和Bacon分解的经典应用文!6.平衡回归, 面板事件研究法和Bacon分解方法学习与应用前沿案例

文章出自如下:

目录

一、 引言

固定效应(FE)在经济学研究中无处不在,其主要起到对相关遗漏变量的控制作用。虽然技术的进步令这一操作简单易实现,但不少研究者对其内在机理了解有限。
为便于说明,文章把讨论的重点放在对企业和年份实施FE上。一般而言,带有FE的回归通常是看起来像下面这样:

Y为被解释变量;X是研究感兴趣的解释变量;Controls是一系列控制变量。Firm和Year是企业和年份的固定效应,也可以视为识别每家企业和每个年份的指标变量。企业层面的FE控制不可观察的企业层面特征,这些特征在一段时间内是不变的,如果不加以控制,可能会干扰的估计。年份层面的FE目的类似,为控制对某一年内所有公司相同的不可观察到的特征。
余文将基于此展开对FE的详细讨论。
文章旨在向新入门的研究者介绍FE,填补知识空白,但此文章也有其局限性。首先,文章用通俗易懂的解释代替了许多计量经济学和统计学上的细节和特殊情况,把重点放在基本直觉上。其次,文章省略了在设计实验时应该考虑的许多其他计量经济学问题,如测量误差的影响(the effects of measurement error)、对OLS假设的违背(violations of OLS assumptions),以及控制变量的选择(selecting appropriate controls)。第三,文章对于非线性模型中的FE只进行了简单讨论,事实上,比如Logit模型,它的问题比OLS要复杂得多。

二、 FE消解遗漏变量偏误的机制

首先考虑,以下普通最小二乘法(OLS)模型:

这时,FE就派上用场了。

(一) FE对不可观测变量Z的处理

下表中Panel A中的非平衡面板数据,展示了四家企业、两年间的数据。构建企业FE后,数据结构变为Panel B中样式。

一种直观的回归方程写法是:

(二) 对FE“组内变换”的理解

由于添加指示变量形成FE在计算中会产生一个复杂的大型变量矩阵,因此在实践中,处理FE往往并不采用这一方法。
相应的,实践中一般会按公司计算每个变量的平均值,然后从每个观察值中减去平均值,即去平均化(de-mean),如前表中Panel C所示。然后,可以构建如下回归:

其中变量对面板数据的每条观察而言都等于0。因此,这种做法避免了对Z的直接观测,有时被称为FE的“吸收(absorbing)”过程。
且这一模型带来的系数应该与前文中添加指示变量的模型的系数相同,标准误也可以通过一些(有关自由度的)调整达到一致。但,为便于说明,此后文章仍采用带指示变量的模型,虽然这两个模型在很大程度上是等价的。

(三) 多组FE

研究者在使用FE通常设置不止一个FE,如,对企业研究中常控制每家企业和每个年份的FE。

需要注意的一点是,在同时控制多组FE时,任何分组都不能是任何其他分组的子集。比如,同时使用年月FE(年度-月份,如202001、202002……)和年份FE(年度,如2020),前者将构成后者的线性组合,这将与OLS估计的前提假定相违背。

(四) 考虑控制变量

控制变量的加入对FE的操作方式影响不大。实践中,Controls也会如X一般在去均值后纳入回归。
值得注意的是,Controls是以f和t为下标的,因为任何只以f或t为下标的控制变量已经被两组FE消除了。例如,国家年度GDP这样的在一年内都不发生变化的变量,就不必放入Controls中,因为其影响已被年份FE吸收了。

(五) 创建更精细的FE

研究者经常对FE组进行细分或组合,以形成更精细的分组。例如,年份FE可以被细分为年月FE。或者,如果一年内对每个企业都有许多观察结果,研究者可能会构建企业-年FE,而不是有单独的企业FE和年FE。
需要注意的是,“交互的FE(FE interactions)”与回归中常用的“两变量交乘”并非相同,而是为每种FE组合赋予一个唯一标记(如企业-年FE,可视为对每家企业每年作出唯一标识)。

(六) DID模型中的FE

双重差分模型(DID)在此文中的企业面板语境下,可简单写为以下形式:

(七) 关注斜率系数的差异时的FE

研究中,有时会考察Y和X之间关系的斜率是否随第三个变量Treat而变化。例如,研究“收益反应系数(earnings response coefficients, ERCs)”是否因企业的某个特征而变化,将回报(return,即Y)对收入(earning,即X)及其交互项进行回归。
但,如果Y和X之间的关系会随变化而变化(例如,科技公司有更大的ERCs),且Z与Treat相关,那么必须同时控制Z和以消除Z的混杂影响。
在使用FE时,则需要包括,用以吸收在家企业中不变的影响。
在实践中,包含高频FE的交互往往不可行(因为它们会夸大标准误并产生不可信的系数估计)。因此,可以考虑使用较低频率的FE,如 。有时,不放置也是合理的,但注意,说明固定效应时,不应该简单的认为“控制能吸收所有使系数产生偏差的因素”。

三、 FE对标准误(Standard Errors)的影响

(一) 存在相关遗漏变量时

(二) 不存在相关遗漏变量时

上一节中,文章假设Z能解释Y,且与X相关,所以Z是一个回归的相关遗漏变量,应该被设法控制。

(三) 多组FE且有控制变量时

当控制多个FE时,关于FE对标准误差的影响在方向上大概是不变的,而其潜在损益通常会加剧。

(四) FE与聚类标准误

标准误计算基于的系列假设中,一个相当重要的是回归残差独立。但在实践中,这个假设对于一个公司-时段层面的面板数据来说往往难以成立。而FE在使用去均值法进行估计时,客观上会使残差相关(哪怕它们原本不相关)。
使用聚类标准误(clustered standard errors)可以减轻非独立残差引起的偏差,但其需要是FE分组从属于聚类分组。如,“企业”FE从属于“行业”标准误差群中。

四、 对变量X无组内变化的FE

经济学研究中,有时X变量在公司(或其他FE组)内部不随时间变化。如,企业是否发布季度盈利预测,这一变量粘性较高,可能在一个大样本中,只有极小一部分企业出现披露方面的变化。
由于FE将分析限制在组内变化上,没有任何X变化的FE组在估计时作用有限,且会带来一些问题,以下内容将绕此展开。

(一) 情形一:单观测

回顾前文提到的简单数据表(即下表),其中Panel A中的Firm 4,常被称为“单观测值(singleton)”情况。易见,Panel C中,对各企业去平均化后,Firm 4中各变量值均为0,这表明“单观测值”在估计含FE的模型的系数时不起作用(在有多组FE的模型中也是如此)。

因此,“单观测值”会使标准误差产生偏差,最好在运行FE回归之前剔除它们。迭代删除这些单观测数据是麻烦的,幸运的是,许多计量软件都能自动实现这一功能。
更重要的是,如果研究样本中包括大量的“单观测值”,那么所选择的FE层级对研究数据而言可能过精细了。例如,若Firm FE将产生大量“单观测值”,也许可以考虑使用一个Industry FE来消除一个行业内所有企业共同的不可观察(遗漏)变量。

(二) 情形二:多条组内无变化的观察值

另一个相对较难应对的情况如Panel A中的Firm 1,其(在Firm FE组别中)虽具有多条观察值,但所有观察的X值都一样。
这一特征(non-singleton no-variation)带来的影响与模型中是否有额外的控制变量和FE组别有关。

1. 低频FE中的组内无变化数据
低频FE中有时也会有许多无X组内变异数据。
例如,对“多德-弗兰克法案(Dodd-Frank Act)”中一项规定(该规定从2010年7月1日开始影响到所有公司)进行的研究中,研究者构建了一个2005-14年的季度数据面,并设定以下方程,其中Post是以2010年7月1日为界的虚拟变量:

虽然年份只有10组,是相对低频的。然而,“X变量”即在2010年以外的任何一年都没有年内变化,且大约90%的样本由无变化的企业组成。
由于前述提到的潜在问题,在这个数据中估计可能有问题(也可能问题不大)。但无论如何,对X变异产生的原因作深入了解都是有必要的。
2. DID中的组内无变化数据
基础DID模型是一个特例,无X组内变异数据对获得无偏的是有帮助的。考虑以下模型:

3. 组内无变化数据的处理
首先,应该检查样本中有多少组内无变化数据。一种方法是按企业(即FE的层次)计算X的标准差,然后识别标准差为零的企业。
如果样本中有很多企业的X不存在组内变化(这个“很多”,没有明确定义,几个百分点也许不算多,25%则可定不算少),就需要请仔细考虑这些企业与X有变化的企业是否有系统性差别。
如果X的变化确实是随机分配的,那么保留组内无变化数据将不怎么会影响对X的估计,且将有助于组内无变化数据。
当X的变化不是随机分配的(这可能更常见),那么研究者必须深入思考是什么会产生了X的变化。虽然判断组内无变化企业和有变化企业彼此是否足够相似是很困难,但有几个检验可能能够提供帮助。
第一,检验两组企业间关键变量的差异。这种分析类似于对“协变量平衡(covariate balance)”的检验(一种在使用匹配来选择处理和控制公司样本的研究中常见的检验)。值得注意,“关键变量”会因研究处理的具体问题不同而不同,重要的是不必考察那些可能受X本身变化影响的变量。
第二,对控制因素和FE(不包括X)进行(分有组内变异、无组内变异两组分别)回归,若其系数差异较大,则可能存在问题。
对此,可以尝试只保留那些看起来与有组内变异企业(系数值)相似的无组内变异企业数据,技术上可以参考一些匹配方法。无论如何,当数据中有大量无组内变异数据时,有必要检查研究结果在有无这些数据的情况下是否有所不同。

五、 对变量X组内变化较小的FE

即使X在大多数FE组内有变化,也常出现,X的组内变化远小于组间变化,而可能会改变对大小的解释。

(一) 检查和报告X的组内变化

有时,研究者需要检查计划使用的FE结构中,X和其他关键变量存在多少变化,并将组内变化与整体样本的变化进行比较。
X的变化可以使用标准差衡量,计算X组内标准差的一个简单方法是将X回归到所有的FE上,并保留残差。即,运行回归,然后保存残差,以度量X的组内变化。

(二) FE对X变化的消减产生的问题

一个潜在的问题是,观察到的FE内部变化根本没有经济意义。此时应考虑一个过精细的FE控制是否必要。对此,可以采用更宽松的FE或者移除FE直接考虑跨样本(across-sample variation)变化。
另一个问题是,较小的X内部变化会严重加剧测量误差(measurement error)的影响。如果真实的X在企业内部具有相当大粘性,但测量误差在不同时期是不同的,那么Firm FE将保持X的真实变化不变,并放大测量误差的影响。在最简单的情况下,X的测量误差会使偏低,但现实应用中,的偏移方向是不确定的。
第三个问题是,如果少数FE组的X的内部变化远远大于其他组,在这种情况下,这些FE组的观测值可能会成为“异常值(outliers)”,进而影响回归系数。而且,当X本身无异常值时(比如缩尾(winsorizing)后),仍可能存在异常值。对此,重要的建议是,研究者要对样本中X和其他关键变量在FE中的变化足够了解,并且要意识到消除大部分变化的FE结构可能会有问题。

(三) 解释系数时的问题

回归方程中的估计了X一个单位变化带来的影响,但“一单位”变化的含义往往并不明显或直观(比如,可能不清楚单位是1美元还是100万美元,是否取对数等)。
为了使结果更直观,研究者可能会用样本标准差(sample standard deviations)或其他一些分布统计学(如四分位数(interquartile range))来衡量影响。这个想法是基于以下认识:相对于X的分布而言,X的“一标准差(one standard deviation)”的变化是相对温和的(modest)。
然而,在包含FE的情况下,X的样本标准差不再是描述效应大小的变化单位。是在各企业内部变异估计所得,而此时X的变异量将(远)小于在整体样本中观察到的变异量。因此,若需使用这类描述方法,则最好是用X的内部标准差来衡量。

六、 其他问题和说明

(一) 当变量Z在FE组中并非常数

实践中,很少有Z在FE组内实际是“固定”的。幸运的是,FE控制难观测变量Z的能力并非全有或全无的。当Z在每个FE组中存在不太的波动时,FE仍然可以大大减少Z的混杂影响。
这里的重要建议是,不要过分依赖诸如“Firm FE控制了时间不变的公司特征,Year FE保持了所有企业共同的宏观经济条件不变”这样的说法。仔细思考在FE分组中潜在的相关遗漏变量仍然是很重要的。

(二) FE可能会改变X的结构

有时,FE(有意或无意中)会改变X所反映的结构。
例如,考虑使用月度面板数据研究企业的原始股票回报(raw stock returns),即X变量,是否影响Y。使用包含Year-Month FE的模型会吸收掉按月计算的回报,这将使X从原始股票回报转变为经市场调整的异常回报(market-adjusted abnormal return)。
原始回报和异常回报很可能具有不同结构,所以包不包含Year-Month FE实际上处理了不同的研究问题。如果该研究问题是关注原始回报,那么包括Year-Month FE可能是不合适的。

(三) 含FE的回归中的R方

FE可以解释Y的大量变化,因此会导致调整后的R方大幅增加。对此,一些计量软件会报告“组内R方(Within R square)”,即由FE以外的解释变量产生的调整后R方的部分。
在实践中,研究者很少报告组内R方,但也许应该养成(报告这一R方)的习惯。

(四) 当Y不存在FE组内变化

在OLS中,没有Y变化的FE组对的估计确有作用。对于在Y中没有变化的群体,Y对任何X的回归将产生=0,而在有变化的群体中可能≠0,那么使用整体样本的结果将是两个的加权平均。
是否要剔除没有Y变化的样本数据,取决于研究问题的性质。注意,如果剔除了这些样本,那么估计结果将无法推广到这些样本中。
对于离散的结果,Y无组内变化是常见的。非线性模型(如logit或Poisson)可能更适合此类数据(尽管它们在使用高频FE时有缺陷,且通常不将Y无变化的样本纳入计算)。

(五) FE和前视偏差

在一些研究中,特别是那些涉及交易策略的研究,“前视偏差(look-ahead bias)”问题值得重视,即,回归模型不能使用在所研究的样本期内没有的数据。
FE很容易诱发前视偏差。例如,公司内部贬值的计算需要两年的数据,但一个投资者在第一年的最后一天不会有第二年的数据,也难以实时进行企业内的去均值化计算,所以使用Frim FE会诱发前视偏差。时间固定效应也会有类似的问题。

(六) FE与一阶差分

“一阶差分(First-differencing)”能够将数据集转化为所有变量的企业内部跨期变化,可以视作消除企业内不变的未观察变量Z的另一种方法。
如果每个企业只有两个观测值,一阶差分模型和含有Firm FE的模型产生相同的系数估计值,但在较长的面板上则系数不同。虽然FE模型在研究中比较常见,但第一差分法在某些情况下确实有优势。

七、 结论

文章为使用和解释FE模型提供了一个易懂的入门指引,并强调了几个即使是有经验的研究者也未必能完全理解的问题。
对于更深入研究,Wooldridge(2010)是一个很好的起点,Grieser & Hadlock(2019)挖掘了此文没有涉及的严格外生性假设(strict exogeneity assumption)。此外,Roberts & Whited(2013)对解决内生性问题的方法进行了通俗易懂的讨论,Angrist & Pishke(2008)作为中级计量经济学教科书相当适用。

附表:FE使用指南

使用固定效应FE时良好做法对应的检查清单


下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存