实证分析中多重共线性问题

Original 杯中鸟911 经管定量笔记 2022-12-31

收录于合集 #学术经验 284个

在实证分析中，我们经常会遇到多重共线性问题，尤其是当多元回归分析模型引入一些极其相关的变量时，这种多重共线性问题更会容易会出现。

然而，多重共线性问题的出现，其所产生的较为严重的后果在于引致你所研究的结论产生偏误，这就需要大家在论文写作中极为关注和重视的地方。

那么，在多元回归分析中，我们该如何去判断自己所构建的模型会存在多重共线性问题呢？如果存在多重共线性问题，我们的处理解决方案是什么呢？

1、如何去发现问题？

一般而言，在实证分析过程中，我们通常通过两种方法去观察模型是否存在多重共线性问题，如下：

（1）经验判断

经验是实证分析研究中的宝贵财富，很多审稿专家经验丰富，在审稿过程中很了解变量的设计构成、变量之间的内涵及其对模型结论的影响和意义。譬如，在宏中观主题研究中，变量之间相互影响可能性较大，很多因素变量的度量存在内涵重叠的问题。

如地区的人均GDP与地区对外开放程度两个变量间，这两者都能很好地展示地区的经济发达程度，人均GDP水平越高，地区发展程度越高，此时这也意味着地区对外开放程度越大。

相反来讲，地区对外开放程度越高，往往预示着地区经济越发达，此时人均GDP水平也越高。

显然，这种经验上的直觉会告诉我们，这会不会存在潜在的多重共线性问题？当然，这至少会引起审稿专家的质疑。

此外，更为常见的是，实证分析中的调节变量产生的交叉项，也是引起多重共线性问题的关键源头，这主要是指交叉项与各子变量间存在多重共线性问题，需要大家引起注意。

（2）相关性分析

这种方法指导我们，根据模型自变量与控制变量、控制变量之间的相关性系数的大小来判断。一般而言，相关性系数越小，模型中潜在的多重共线性问题会较弱。

通常来讲，相关性系数处于0～0.5之间，是可以接受的，这意味着模型中存在较为严重的多重共线性问题的可能性较小；相关性系数处于0.5～1之间，是难以接受的，这意味着模型中存在较为严重的多重共线性问题的可能性较大，但也不能完全确认，需要膨胀因子法（VIF）予以确认，这也要求在后续的实证分析过程中予以重视和解决。

其中，变量间的相关性分析的命令代码如：

方法一：pwcorr Y X1 X2 X3 X4 , sig star(.05)

方法二：asdoc corr Y X1 X2 X3 X4

（3）膨胀因子分析法（VIF）

当然，判断多重共线性问题的最为有效方法是膨胀因子分析法（VIF），这种方法是通过识别模型各变量的膨胀因子大小来予以判断。

使用VIF进行检验的方法主要为，对某一因子和其余因子进行回归，计算VIF，剔除因子中VIF高的因子，保留VIF较低的因子，以此类推，直到得到一个相关性较低的因子组合来增强模型的解释能力。

其中，模型变量膨胀因子分析法的命令代码如：

步骤1: quietly reg X1 X2 X3 X4

步骤2: estat VIF

通过上述两步命令就可以得到模型各变量的膨胀因子。

一般以容忍度、膨胀因子（VIF，容忍度的倒数）作为共线性诊断指标。一般来说，容忍度的值介于复0和1之间，如值太小，说明这个自变量与其它自变量间存在共线制性问题；VIF值越大，则共线性问题越明显，一般以小于10为判断依据。

2、知道问题后，该如何去解决问题？

（1）逐步回归法

逐步回归的基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。

这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

在spss中，逐步回归法是比较方便的一种方法，经常用到的一个回归方法是stepwise，也就是逐步回归，它指的是每次只纳入或者移除一个变量进入模型，这个方法虽然好用，但是最后可能出现几个模型都比较合适，你就要比较这几个模型的优劣。

在stata中，逐步回归法的基本命令是：stepwise。

（2）交叉项容易引起多重共线性问题，采用中心化处理方案

在日常的论文写作中，为了提高文章的内容质量和充实性，我们通常会运用到调节变量及其形成的交叉项，这也是引致多重共线性问题的原因之一。

当遇到这方面源头所引致的多重共线性问题时，我们最为常见的解决方案是“中心化”。

其中，中心化的处理命令代码如下：

步骤1：求出各自变量的均值，Su X1 X2

步骤2：对其中一个变量进行中心化，gen cX1=X1-r(mean)

步骤3：对其中另一个变量进行中心化，gen cX2=X2-r(mean)

步骤4：生存交叉项变量X1X2（调剂效应）：gen X1X2=cX1*cX2

以前相关推文导读：

1、分样本检验的思路有哪些？

2、实证论文中“稳健性检验”的思路有哪些？

3、你的论文为何会被拒稿？

4、您真的懂得如何运用Heckman模型检验吗？

文章作者：杯中鸟911，经管学院Ph.D，现清华学习；

微信公众号：社经研究社；

知乎用户名：络腮胡点经；

个人专注学术心得感想、社会与经济。

如有益处，请点击下方的“在看”！

中美友好合作故事——十万名中国弃婴长大了

不仅要看已抓谁，还须一直抓到没

因为家暴终身挂着粪袋的她，在等一个死刑！

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

实证分析中多重共线性问题

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

不仅要看已抓谁，还须一直抓到没

因为家暴终身挂着粪袋的她，在等一个死刑！

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

生成图片，分享到微信朋友圈

实证分析中多重共线性问题

您可能也对以下帖子感兴趣