查看原文
其他

固定效应模型+测量误差=有问题, 如何解决这问题呢?

计量经济圈 计量经济圈 2023-03-13

凡是搞计量经济的,都关注这个号了
稿件:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于固定效应,参看:1.交互项! 交互项! 固定效应回归模型中的交互项!2.在Stata中如何做2SLS, DID, DEA, SFA, 面板PSM, 二值选择, 固定效应和时间序列?3.一定要控制时间固定效应吗?4.公司和个体固定效应总是更好吗? 关于固定效应使用和解释的最全指南!5.使用固定效应FE时良好做法对应的检查清单,6.双向固定效应多期DID最新进展和代码汇总, 关于控制变量和固定效应选取的讨论,7.快速估计带有高维固定效应的泊松模型, 这计算速度真快, 真实用!8.不能直接控制某个固定效应时, 我们能尽量做些什么呢?9.时间固定效应和时间趋势项的区别, 可以同时加?10.省份/行业固定效应与年份固定效应的交乘项固定效应,11.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理,12.广义合成控制法gsynth, 基于交互固定效应的因果推断

《实证研究中的测量误差、固定效应和误报》
关于下方文字内容,作者:赵智旭,香港城市大学金融数学与统计,通信邮箱:zhixuzhao4-c@my.city.edu.hk.
Jennings, Jared N. and Kim, Jung Min and Lee, Joshua A. and Taylor, Daniel, Measurement Error, Fixed Effects, and False Positives in Accounting Research (2023). Review of Accounting Studies, forthcoming
We show theoretically and empirically that measurement error can bias in favor of falsely rejecting a true null hypothesis (i.e., a “false positive”) and that regression models with high-dimensional fixed effects can exacerbate measurement error bias and increase the likelihood of false positives. We replicate inferences from prior work in a setting where we can directly observe the amount of measurement error and show that the combination of measurement error and fixed effects materially inflates coefficients and distorts inferences. We provide researchers with a simple diagnostic tool to assess the possibility that the combination of measurement error and fixed effects might give rise to a false positive, and encourage researchers to triangulate inferences across multiple empirical

实证研究中的测量误差、固定效应和误报

一、摘要

该文发现从理论和实证上来看,测量误差的存在会使得回归结果与正确的结果之间形成偏差,而且,包含多维固定效应的回归方程会夸大测量误差的这种影响偏差并增加获得错误显著性的可能性。该文在某种背景下复现了前人的推导,它可以让作者直接观察到测量误差并直观的展示了测量误差与固定效应的结合可以夸大系数扭曲推断。该文还提供了一个简单的诊断工具来评定测量误差与固定效应的结合带来错误显著性的可能性。除此之外,该文鼓励研究者在构建回归方程时,如果自变量存在测量误差,应当使用不同结构的固定效应来验证结果的稳健性。

二、引言

该文调查了近十年来发表在The Accounting Review, Journal of Accounting and Economics, Journal of Accounting Research, Review of Accounting Studies等期刊上的研究成果,发现随着准实验设计的流行,越来越多的学者在找寻变量之间的因果关系,但大家对测量误差的关注却在逐步降低,为了重新引起学者们对测量误差的重视,作者使用了一系列的模拟和实证分析的例子来阐述测量误差对刻画变量之间因果关系所起的作用。
在该文中,作者一共设置了三组模拟,在第一组模拟中,因变量Y反映了在自变量X中的经典测量误差,并展示了学术界对测量误差的传统观点——测量误差会有偏的接受原假设。在第二组模拟中,作者允许X中的测量误差与控制变量Z相关。这组模拟表明了,当X中的测量误差与控制变量Z相关时,测量误差会使得回归方程中自变量的系数出现偏差,呈现错误的显著性。在第三组模拟中,高维度的固定效应可以夸大测量误差的这种影响偏差并导致研究者估计出错误的因果关系。出现这种结果的原因从直觉上可以解释为固定效应吸收了自变量中“好的方差”(比如,不是由于测量误差引起的方差部分)。随后,测量误差占据了自变量剩余方差更大的部分。
后续的分析表明测量误差与高维固定效应的“方差吸收”可以导致错误的显著性。幸运的是,该文提供了一种简单的诊断工具可以帮助研究者初步评估自变量方差中被固定效应所吸收的数额——以自变量X作为新回归方程的自变量以构建的固定效应结构作为因变量,用该回归方程的R2作为方差吸收率的估计值。当固定效应作为控制变量存在于原回归方程中时,该指标(R2)代表了自变量方差被固定效应吸收的部分。然而该文并没有办法给出一个明确的标准说吸收率是多少的时候回归模型的构建才是合理的,但是当吸收率超过90%的时候就有足够的理由怀疑自变量系数与方程中呈现的因果关系的正确性。
在该文中,作者主要研究错误数据所引起的测量误差,理论构建和实证代理变量之间的不匹配所引起的测量误差因为有较大的主观性,所以其并不属于该文的研究范畴之中。作者研究发现,有大量的文献借以公司总部在美国州之间的位置变动去评估州邦监管和税收的因果关系,在作者研究的文献中,有大约80%的文献从Compustat获得公司总部的州数据,然而Compustat仅报道当前的关于公司总部的位置数据并借此填充所有之前年度的观测值。例如,如果一家公司总部在2019年从德克萨斯州移到加利福尼亚州,Compustat会将加利福尼亚州作为该公司的总部所在州并借此填充所有之前的年份。所幸的是作者能够获得在EDGAR上关于公司总部包括之前年份的真实所在地,并与Compustat的数据做对比获得测量误差。
为了说明测量误差偏差对文献中推断结果的影响,作者跟随之前的文献研究各州禁止竞争法对自愿披露和盈余管理的因果关系。因为此次的测量误差是与公司规模、市值面值比、资产回报、杠杆和其他的常规控制变量相关联的,所以此次的实证设计符合上述理论验证的要求。
该文的实证结果与作者所料一致,当作者采用带有误差的Compustat总部所在地数据时,禁止竞争法对自愿披露(管理预测,8-Kfilings和报道发布)显著负相关,对盈余管理显著正相关,但是当作者采用真实的公司所在地数据时,这些系数的显著性会消失。而一旦回归模型中的固定效应被剔除,测量误差对回归结果的影响即变的有限。所以,至今为止仍然没有证据表明禁止竞争法和其他四个结果变量之间任何的相关关系。因此作者建议学者在往模型里在填加固定效应时要秉持审慎的态度,并鼓励大家在报告研究结果时应使用不同的测量方法构建自变量并引入不同的固定效应结构。

三、模拟

本节一共有三次模拟过程,贯穿于所有的模拟过程,作者使用了100个横截面单元(也可以称为“企业”)的平衡面板和30个时间单元(也可以称为“年”)。每一次模拟,作者都构建数据生成过程(DGP),估计回归方程并将该过程重复1000次。

3.1 在自变量中的经典测量误差

3.2 当自变量与控制变量具有相关性

3.3 测量误差和固定效应

3.3.1固定效应吸收率

3.3.2错误显著性

由以上的分析我们可以看出,测量误差与固定效应的结合有可能会带来错误的显著性。在本小节中,作者使用双边5%的置信水平将错误显著率展示如表5所示:

表5的第一行是基准结果,从表中我们可以看出,无论是测量误差还是方差吸收率的增加都会导致错误显著率的增加。而表5的结果无疑是令人吃惊的,一个轻微的相关测量误差(ρ=0.1)也会使得错误显著率由5%增加到60%。

3.3.3诊断性检验

在本小节中,作者引入了一个简单的诊断工具来评定固定效应吸收自变量方差的数额——以固定效应结构作为因变量,原方程中的自变量当作新方程的自变量构建回归方程,所得的R2即为该方差吸收率的估计量。在全文中,作者并没有提到该吸收率要达到多少才是可以或不能接受的,但是当固定效应吸收了90%以上的自变量方差时,即便是及其微弱的测量误差也可能产生巨大的偏误并造成错误的显著性。

四、实证分析

在该部分中,作者跟随之前的文献研究各州禁止竞争法对自愿披露和盈余管理的因果关系。因为此次的测量误差是与公司规模、市值面值比、资产回报、杠杆和其他的常规控制变量相关联的,所以此次的实证设计符合上述理论验证的要求。

回归模型设定:

其中,Outcome代表管理预测、8-Kfilings、报道发布(初次发布)和重申(对于欺诈、不实描述、SEC调查等的指示变量)。NonCompete是NonCompete^或NonCompete,其中NonCompete^是从Compustat中获得的禁止竞争指数(非准确),NonCompete是从10-K中获得的禁止竞争指数(准确)。NonCompete^- NonCompete*等于测量误差。Controls是用于先前研究人员发表在期刊中所用的控制变量,Firm和Year分别代表企业固定效应和年固定效应。

测量误差的来源:
作者研究发现,有大量的文献借以公司总部在美国州之间的位置变动去评估州邦监管和税收的因果关系,在作者研究的文献中,有大约80%的文献从Compustat获得公司总部的州数据,然而Compustat仅报道当前的关于公司总部的位置数据并借此填充所有之前年度的观测值。例如,如果一家公司总部在2019年从德克萨斯州移到加利福尼亚州,Compustat会将加利福尼亚州作为该公司的总部所在州并借此填充所有之前的年份。所幸的是作者能够获得在10-K上获得关于公司总部包括之前年份的真实所在地,并与Compustat的数据做对比获得测量误差。
测量误差与固定效应的相关关系:
如表8所示,自变量中的测量误差与Size,Roa,NumEst负相关,与Mtb正相关。

回归结果:

如表9所示,使用Compustat数据的回归结果表明禁止竞争指数与管理预测、8-K filings和报道发布负相关,与重申正相关。但当使用真实的数据之后,四项系数都不再显著。

4.1州禁止竞争法和吸收率

在本小节中,作者引入了不同的固定效应结构,计算并报告了固定效应吸收率,结果如表10所示:

对于表10的A部分,作者引入了四个不同的固定效应结构并将管理预测作为因变量。从表中我们可以看出,年固定效应的吸收率只有0.05%,行业和年固定效应的吸收率是3.62%,企业Í年固定效应的吸收率为3.72%,企业和年固定效应的吸收率却达到了99.49%。表10的B部分也展示了对于8-Kfilings作为因变量相似的情况。

五、总结

(i)测量误差并不总是会对研究结果有偏差,但会导致研究人员在不存在因果关系时错误地估计因果关系。
(ii)高维度的固定效应可以夸大测量误差所引起的偏差并会增大错误获得显著性的可能。
(iii)目前期刊所发表的文献中存在着很多由测量误差所引起的错误的因果关系。
(iv)本文为读者提供了一个简单的诊断固定效应吸收率的工具——R2。
(v)作者建议研究者在构建回归方程时采用多种结构构建固定效应。

1.用"因果关系图"来进行因果推断的新技能2.因果推断专题:因果图3.因果推断专题:有向无环图DAG4.confounder与collider啥区别? 混淆 vs 对撞5.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系6.中介效应检验流程, 示意图公布, 不再畏惧中介分析7.图灵奖得主Pearl的因果推断新科学,Book of Why?8.前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑!因果关系研究的图形工具!9.前沿: 卫星数据在实证研究中的应用, 用其开展因果推断的好处!10.7大因果推断大法精选实证论文, 可用于中国本土博士课堂教学!11.随机分配是什么, 为什么重要, 对因果关系影响几何?12.应用计量经济学现状: 因果推断与政策评估最全综述13.疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用14.Python做因果推断的方法示例, 解读与code15.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS16.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献等等。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

4年,计量经济圈近1500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存