查看原文
其他

实证分析中多重共线性问题

杯中鸟911 经管定量笔记 2022-12-31



在实证分析中,我们经常会遇到多重共线性问题,尤其是当多元回归分析模型引入一些极其相关的变量时,这种多重共线性问题更会容易会出现。

 

然而,多重共线性问题的出现,其所产生的较为严重的后果在于引致你所研究的结论产生偏误,这就需要大家在论文写作中极为关注和重视的地方。

 

那么,在多元回归分析中,我们该如何去判断自己所构建的模型会存在多重共线性问题呢?如果存在多重共线性问题,我们的处理解决方案是什么呢?

 

1、如何去发现问题?

 

一般而言,在实证分析过程中,我们通常通过两种方法去观察模型是否存在多重共线性问题,如下:

 

(1)经验判断

 

经验是实证分析研究中的宝贵财富,很多审稿专家经验丰富,在审稿过程中很了解变量的设计构成、变量之间的内涵及其对模型结论的影响和意义。譬如,在宏中观主题研究中,变量之间相互影响可能性较大,很多因素变量的度量存在内涵重叠的问题。

 

如地区的人均GDP与地区对外开放程度两个变量间,这两者都能很好地展示地区的经济发达程度,人均GDP水平越高,地区发展程度越高,此时这也意味着地区对外开放程度越大。

相反来讲,地区对外开放程度越高,往往预示着地区经济越发达,此时人均GDP水平也越高。

 

显然,这种经验上的直觉会告诉我们,这会不会存在潜在的多重共线性问题?当然,这至少会引起审稿专家的质疑。

 

此外,更为常见的是,实证分析中的调节变量产生的交叉项,也是引起多重共线性问题的关键源头,这主要是指交叉项与各子变量间存在多重共线性问题,需要大家引起注意。

 

(2)相关性分析

 

这种方法指导我们,根据模型自变量与控制变量、控制变量之间的相关性系数的大小来判断。一般而言,相关性系数越小,模型中潜在的多重共线性问题会较弱。

 

通常来讲,相关性系数处于0~0.5之间,是可以接受的,这意味着模型中存在较为严重的多重共线性问题的可能性较小;相关性系数处于0.5~1之间,是难以接受的,这意味着模型中存在较为严重的多重共线性问题的可能性较大,但也不能完全确认,需要膨胀因子法(VIF)予以确认,这也要求在后续的实证分析过程中予以重视和解决。

 

其中,变量间的相关性分析的命令代码如:

 

方法一:pwcorr Y  X1  X2  X3  X4 , sig star(.05)

 

方法二:asdoc corr Y  X1  X2  X3  X4 

 

(3)膨胀因子分析法(VIF)

 

当然,判断多重共线性问题的最为有效方法是膨胀因子分析法(VIF),这种方法是通过识别模型各变量的膨胀因子大小来予以判断。

 

使用VIF进行检验的方法主要为,对某一因子和其余因子进行回归,计算VIF,剔除因子中VIF高的因子,保留VIF较低的因子,以此类推,直到得到一个相关性较低的因子组合来增强模型的解释能力。

 

其中,模型变量膨胀因子分析法的命令代码如:

 

步骤1: quietly reg  X1  X2  X3  X4

 

步骤2: estat VIF

 

通过上述两步命令就可以得到模型各变量的膨胀因子。

 

一般以容忍度、膨胀因子(VIF,容忍度的倒数)作为共线性诊断指标。一般来说,容忍度的值介于复0和1之间,如值太小,说明这个自变量与其它自变量间存在共线制性问题;VIF值越大,则共线性问题越明显,一般以小于10为判断依据。

 


2、知道问题后,该如何去解决问题?

 

(1)逐步回归法

 

逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。


这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

 

在spss中,逐步回归法是比较方便的一种方法,经常用到的一个回归方法是stepwise,也就是逐步回归,它指的是每次只纳入或者移除一个变量进入模型, 这个方法虽然好用,但是最后可能出现几个模型都比较合适,你就要比较这几个模型的优劣。


在stata中,逐步回归法的基本命令是:stepwise。


(2)交叉项容易引起多重共线性问题,采用中心化处理方案


在日常的论文写作中,为了提高文章的内容质量和充实性,我们通常会运用到调节变量及其形成的交叉项,这也是引致多重共线性问题的原因之一。

 

当遇到这方面源头所引致的多重共线性问题时,我们最为常见的解决方案是“中心化”。

 

其中,中心化的处理命令代码如下:

 

步骤1:求出各自变量的均值,Su  X1  X2
步骤2:对其中一个变量进行中心化,gen cX1=X1-r(mean)
步骤3:对其中另一个变量进行中心化,gen cX2=X2-r(mean)
步骤4:生存交叉项变量X1X2(调剂效应):gen X1X2=cX1*cX2
 

以前相关推文导读:
1、分样本检验的思路有哪些?
2、实证论文中“稳健性检验”的思路有哪些?
3、你的论文为何会被拒稿?
4、您真的懂得如何运用Heckman模型检验吗?
 



文章作者:杯中鸟911,经管学院Ph.D,现清华学习;

微信公众号:社经研究社;

知乎用户名:络腮胡点经;

个人专注学术心得感想、社会与经济。

如有益处,请点击下方的“在看”!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存