老姚专栏丨伪相关、FWL定理与偏相关系数
全文共2986个字,阅读大约需要8分钟
伪相关是一个常见的统计学陷阱。本文从解决伪相关问题的两种方法切入,对Frisch-Waugh-Lovell Theorem(简称FWL定理)进行了简明的介绍。区分简单相关系数与偏相关系数是理解伪相关问题的关键,而掌握FWL定理十分有助于厘清这两种相关系数的异同。根据FWL定理,一个多元线性回归模型的OLS估计结果最终可以通过简单线性回归模型导出。因此,该定理体现了“还原论”思想,具有科学哲学之美感。
有两种方法可用来解决伪相关问题:
方法一非常简洁,那就是建立一个多元线性回归模型,其中我们感兴趣的两个变量充当被解释变量与核心解释变量,而第三个变量充当控制变量。在这里,核心解释变量所对应的估计系数反映了我们感兴趣的两个变量在第三个变量得到控制的情况下的相关性。
方法二比较麻烦,但比方法一直观得多。其具体步骤是:首先将我们感兴趣的两个变量分别对第三个变量回归,获得两个残差序列。由于残差再也不包括第三个变量的影响,接下来我们可以基于两个残差序列进行回归分析,而相应的斜率估计系数就是我们感兴趣的估计系数。那么,上述两种方法会产生不同的结论吗?答案是不会,而这正是FWL定理将要阐明的事实。
在式(1)中,
[Step 1] 将Y对控制变量
其中,
鉴于简单线性回归模型是多元线性回归模型的特例,FWL定理也应该适用于式(5)。为了验证这一点,接下来我们考察“三步回归法”的结果:
[Step 1] 由于没有控制变量,回归结果很简单:
[Step 2] 同理可记回归结果为:
[Step 3] 将
我们将
有趣的是,由于式(6)与式(13)等价:
这似乎暗示,我们可以省略Step1,将“三步回归法”简化为“两部步回归法”。令人高兴的是,可以证明,即使在更一般的框架中进行了这种简化,最后一步无截距回归所获得的斜率估计系数仍然等于多元线性回归中我们感兴趣的估计系数。然而,FWL定理关于残差相等的结论此时再也不成立了。
定义偏相关系数最方便的方法是,首先将所有变量进行标准化处理,然后基于这些标准化变量建立多元线性回归模型,即进行所谓的标准化回归,而偏相关系数就是标准化回归系数。例如,记
在这里,标准化回归系数
为便于获得一些有用的结论,现在我们考虑三变量情形下的标准化回归结果:
其中
[Step 1] y对
很容易证明,斜率估计系数
其中斜率估计系数
根据无截距回归公式有:
进一步对式(19)化简,并注意到对于标准化变量有:
在这里,N是样本容量。故有:
根据FWL定理,有:
由式(21)可知:
第一,若Y与[_^smallImg:564a80ce!]的偏相关系数
由式(22)可知:
将式(23)代入式(21)并化简,有:
由式(24)可知:
第一,当
在“笨鸟先飞”情况下,学习时间与个人能力负相关。此时,
请利用“三步回归法”或者“两步回归法”获得OLS估计量
我们当然可以循规蹈矩地获得答案,但这个答案其实可以根据式(21)直接导出。为什么呢?原来,
其中
标准化回归系数
企研学术顾问 · 姚耀军
姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。
►一周热文
数据呈现丨Pandas可视化综合指南:手把手从零教你绘制数据图表
统计计量丨To Take Log, or Not to Take Log (取对数,还是不取对数)
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注