回归中的多重共线性

MarTechCareer 学术无界 2021-09-20

点击蓝字

关注我们

多重共线性（Multicollinearity）是指两个（或多个）要素相互关联，即“共线性”。这通常发生在真实的数据集中，因为一个变量（例如家庭收入）可能与另一个变量（例如学校成绩）相关联，如此一来会对模型结果产生影响，当你要检查模型或分析的结果时，除了要检查R sqr，Error Rate，P Value等等，多重共线性也是一个我们不可忽视的问题。

以这个数据库为例，该数据库试图用一些因素来预测学生的入学机会，比如托福、GRE成绩，GPA和你学校的排名情况等等。我们希望实现一个静态的状态，例如，“科研能使你被录取的机会增加x％”，或 “托福每增加一份，就可以使入学的机会增加y％”。我们首先想到的方法是训练线性回归模型并解释系数。多元回归模型的平均绝对误差约为4.5％，这是相当准确的。系数的分析很有趣，GRE分数的系数是0.002，而GPA的系数是0.1135，我们可以这样说：“ 你的GRE每增加一分，你被录取的机会增加了0.2％，而GPA的每增加一分，你被录取的机会增加了11.4％。”让我们看一下相关系数矩阵，来确定哪些变量是相互关联的。总的来说，该数据充满了高度相关的特征，但是GPA通常与其他特征变量高度相关。由于TOEFL分数与GRE分数高度相关，因此让我们将托福成绩这个特征变量从模型中剔除，然后重新训练线性回归模型。令人惊讶的是，平均绝对误差降低到4.3％。系数的变化也很有趣: 大学排名的重要性降低了近一半（从0.0097下降到0.0052），研究的重要性提高了一倍（从0.0132上升到0.0259）。如下图：
从这个例子中我们可以了解到：

（1）就像任何其他变量一样，TOEFL分数可以被认为具有两个组成部分：可以用来解释因变量的有用信息和“噪音”。

（2）其有用信息部分已经用其他变量表示出来了，比如GPA很高说明他的学习能力很强，GRE分数很高说明他的英语水平非常出色等等，因此它没有提供任何新的有用信息。

（3）托福分数这个变量会带来很多“噪音”，为了获得最小的信息增益而保持该变量，不值得将它引入模型。

换句话说，托福成绩与许多其它变量是高度相关的（具有共线性）。从根本来说，模型的性能受到了损害，但更重要的是，它会对每个变量的系数造成影响，导致我们对模型结果的解读也会发生变化。

如何

识别多重共线性

（1）在回归模型上使用VIF（方差膨胀系数/方差扩大因子）得分来确定数据集中是否存在多重共线性。

（2）如果模型的标准差过高，则也可能表明由于信息重叠，一个错误正在重复传播。

（3）添加或删除新特征变量时，参数的过大变化表示信息有很多重复。

（4）创建一个相关系数矩阵。值始终高于0.4的要素表示与其他变量具有很强的多重共线性。

如何

解决多重共线性

（1）获取更多数据。更多数据可以使模型保留当前足够的信息量，同时为数据中存在的”噪音“提供更多维度的考量。

（2）使用那些不太受多重共线性影响的算法。岭回归，主成分回归，决策树或偏最小二乘回归都是很好的回归选择。

（3）使用PCA可以减少数据集的维数，并且仅保留对于维持数据结构非常重要的变量。如果数据集总体上存在非常多共线性，这将是有益的。

（4）使用特征选择方法剔除高度相关的特征。

资料来源于MarTechCareer，结合资料稍做修改。资源仅供学术交流使用，不得用于商业用途！如有侵权，请联系小编微信xyr1011

推文期数：2020221

责任编辑：徐亚茹张聪

推文审核：骆丹云林晓峰

总审核：学术无界顾问团队

下期预告：什么？距离2021考研只剩90天了？

往期回顾：

招贤纳士！临沂大学资源环境学院2020年高层次人才招聘启事

2020~终于等到你~Globe30

【直播】搞定GIS商业智能，我的职业之路居然能这么宽！丨城市数据派

学术讲坛 | 全国地研联求索讲坛第2期—“空间计量模型的应用范式与几个需要注意的问题”

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

反向激励，在加速这个社会的黑化

俄乌打仗，中国损失惨重，高达数千亿美元，未来损失不可估量

重磅突发！中国银行，中国工商银行、建设银行、中信银行、兴业银行，停止接受来自俄罗斯的人民币付款！

强制购买公墓，湖北随州太随意

聊几句重庆跳江的肥猫事件吧

回归中的多重共线性

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

俄乌打仗，中国损失惨重，高达数千亿美元，未来损失不可估量

重磅突发！中国银行，中国工商银行、建设银行、中信银行、兴业银行，停止接受来自俄罗斯的人民币付款！

强制购买公墓，湖北随州太随意

聊几句重庆跳江的肥猫事件吧

生成图片，分享到微信朋友圈

回归中的多重共线性

您可能也对以下帖子感兴趣