查看原文
其他

老姚专栏丨伪相关、FWL定理与偏相关系数

姚耀军 数据Seminar 2021-06-03

全文共2986个字,阅读大约需要8分钟


伪相关是一个常见的统计学陷阱。本文从解决伪相关问题的两种方法切入,对Frisch-Waugh-Lovell Theorem(简称FWL定理)进行了简明的介绍。区分简单相关系数与偏相关系数是理解伪相关问题的关键,而掌握FWL定理十分有助于厘清这两种相关系数的异同。根据FWL定理,一个多元线性回归模型的OLS估计结果最终可以通过简单线性回归模型导出。因此,该定理体现了“还原论”思想,具有科学哲学之美感。




#01
伪相关及解决方法
所谓伪相关,是指两个没有任何因果关系的变量会因第三个变量的存在而呈现出相关性。例如,在对一些含有时间趋势或者季节性因素的变量进行统计分析时,就很容易出现伪相关现象。一个经典的例子是,冰淇淋销售量与溺水事故数量存在伪相关关系,因为两者均会随着气温的上升而增加。

有两种方法可用来解决伪相关问题:

方法一非常简洁,那就是建立一个多元线性回归模型,其中我们感兴趣的两个变量充当被解释变量与核心解释变量,而第三个变量充当控制变量。在这里,核心解释变量所对应的估计系数反映了我们感兴趣的两个变量在第三个变量得到控制的情况下的相关性。

方法二比较麻烦,但比方法一直观得多。其具体步骤是:首先将我们感兴趣的两个变量分别对第三个变量回归,获得两个残差序列。由于残差再也不包括第三个变量的影响,接下来我们可以基于两个残差序列进行回归分析,而相应的斜率估计系数就是我们感兴趣的估计系数。

那么,上述两种方法会产生不同的结论吗?答案是不会,而这正是FWL定理将要阐明的事实。




#02
FWL定理
虽然标准的伪相关问题仅涉及三个变量,但我们完全可以基于一个更具一般性的框架来介绍FWL定理。具体来说,我们假设在一个多元线性回归模型中,Y是被解释变量,是核心解释变量,是控制变量。模型的OLS估计结果如式(1)所示:

在式(1)中,是我们感兴趣的估计系数。其实,该估计系数也可通过如下“三步回归法”而获得:

[Step 1将Y对控制变量进行回归,结果为:

[Step 2对控制变量进行回归,结果为:

[Step 3进行无截距回归,结果为:

在Step1-3中,我们用上标(1)、(2)与(3)分别表示相应的步骤。Step3中,鉴于的均值均为零,若进行有截距回归,则截距估计系数一定为零。可以证明:此结论就是FWL定理的内容




#03
基于特例的验证
证明FWL定理需要利用矩阵代数,在此从略。不过我们可以基于一个最简单的特例,来验证FWL定理是否成立。考虑如下一个简单线性回归模型的估计结果:

其中,

鉴于简单线性回归模型是多元线性回归模型的特例,FWL定理也应该适用于式(5)。为了验证这一点,接下来我们考察“三步回归法”的结果:

[Step 1由于没有控制变量,回归结果很简单:

很容易证明,,故有:

[Step 2同理可记回归结果为:

其中,,故有:

[Step 3进行无截距回归,记回归结果为:

根据无截距回归公式有:

我们将代入式(11),可证:。最后,根据式(10),并代入相应的结果,可证

有趣的是,由于式(6)与式(13)等价:

这似乎暗示,我们可以省略Step1,将“三步回归法”简化为“两部步回归法”。令人高兴的是,可以证明,即使在更一般的框架中进行了这种简化,最后一步无截距回归所获得的斜率估计系数仍然等于多元线性回归中我们感兴趣的估计系数。然而,FWL定理关于残差相等的结论此时再也不成立了。




#04
偏相关系数
伪相关问题会使得两个变量的简单相关系数具有误导性。作为对伪相关问题的回应,我们可以考虑计算两个变量的偏相关系数。什么是偏相关系数呢?回到本文第二节,如果我们计算的简单相关系数,那么计算结果就是变量Y与的偏相关系数。

定义偏相关系数最方便的方法是,首先将所有变量进行标准化处理,然后基于这些标准化变量建立多元线性回归模型,即进行所谓的标准化回归,而偏相关系数就是标准化回归系数。例如,记所对应的标准化变量分别为,标准化回归结果为:

在这里,标准化回归系数是Y与这两个变量的偏相关系数,此系数已经剔除了等变量对这两个变量的影响;是Y与这两个变量的偏相关系数,此系数已经剔除了等变量对这两个变量的影响。对其他标准化回归系数可作类似解释。

为便于获得一些有用的结论,现在我们考虑三变量情形下的标准化回归结果:

其中是我们感兴趣的偏相关系数。我们现在的任务是,利用“三步回归法”并基于FWL定理,获得OLS估计量的解析式:   

[Step 1y对回归,结果为:

很容易证明,斜率估计系数就是y与(或者Y与)的简单相关系数。

[Step 2回归,结果为:

其中斜率估计系数就是(或者)的简单相关系数。

[Step 3进行无截距回归,结果为:

根据无截距回归公式有:

进一步对式(19)化简,并注意到对于标准化变量有:

在这里,N是样本容量。故有:

根据FWL定理,有:

由式(21)可知:

第一,若Y与[_^smallImg:564a80ce!]的偏相关系数等于零,则有:。显然,只要Y和均与相关(即均不等于零),Y就会与相关(即不等于零),而这正是典型的伪相关现象。

第二,若完全相关(即等于1),分母为零,OLS估计方法失效。在计量经济学中,我们称完全共线。第三,即使Y与相关,相关(即均不等于零),也并不一定意味着Y与相关。这表明,相关关系不具有传递性。




#05
低估抑或高估
一个颇有启示性的问题是,在三变量情形下,简单相关系数究竟低估还是高估了偏相关系数?为了回答该问题,我们不妨首先根据式(21)进行类推:  

由式(22)可知:

将式(23)代入式(21)并化简,有:

由式(24)可知:

第一,当任意一个取值为零时,Y与的偏相关系数与简单相关系数等价。这也表明,当不相关(即等于零)时,即使我们将多元回归模型中的遗漏,也不会改变的OLS估计结果。

第二,当异号时,简单相关系数低估偏相关系数;当同号时,简单相关系数高估偏相关系数
为了更好地理解上述第二个结论,我们不妨将分别视为关于成绩、学习时间、个人能力的标准化变量。在这里,根据常识应该大于零,不过的符号需视情况而定:

在“笨鸟先飞”情况下,学习时间与个人能力负相关。此时,异号,会低估。这表明,观察到学习时间增加而成绩仍无起色(亦即很小),并不意味着学习时间真的不重要。如果没有个人能力“拖后腿”(亦即在个人能力得到控制的条件下),那么学习时间与成绩将具有更强的关系(亦即更大)。

在“因擅长而喜欢、而学习”情况下,学习时间与个人能力正相关。此时,同号,会高估。这表明,观察到成绩随着学习时间增加而突飞猛进(亦即很大),并不意味着“一分耕耘”真有“一分收获”。如果没有个人能力“加持”(亦即在个人能力得到控制的条件下),那么学习时间与成绩将具有更弱的关系(亦即更小)。




#06
一道练习题
为巩固对FWL定理的学习效果,本文在此给出一道练习题。假设有二元线性回归模型:

请利用“三步回归法”或者“两步回归法”获得OLS估计量的解析式。

我们当然可以循规蹈矩地获得答案,但这个答案其实可以根据式(21)直接导出。为什么呢?原来,与标准化回归系数具有如下换算关系:

其中分别表示变量Y与的标准差。

标准化回归系数的含义是,保持其他因素不变,变化一个标准差,Y将变化个标准差。这意味着,保持其他因素不变,变化一个单位,Y将变化个标准差,变化个单位。因此,式(23)所表示的换算关系是很容易被我们理解记忆的。








企研学术顾问 · 耀军

姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。



►一周热文

统计计量丨一文读懂11个常见的多变量分析方法

数据呈现丨Pandas可视化综合指南:手把手从零教你绘制数据图表

统计计量丨计量经济学中的“条件”与“无条件”

老姚专栏丨与标准误有关的那些事

统计计量丨Back to Basics: OLS与内生性

数据呈现丨R语言可视化学习笔记之ggridges包

统计计量丨To Take Log, or Not to Take Log (取对数,还是不取对数)








数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:姚耀军推荐:杨奇明编辑:青酱







    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存