查看原文
其他

回归中的多重共线性

MarTechCareer 学术无界 2021-09-20

点击蓝字

关注我们

多重共线性(Multicollinearity)是指两个(或多个)要素相互关联,即“共线性”。这通常发生在真实的数据集中,因为一个变量(例如家庭收入)可能与另一个变量(例如学校成绩)相关联,如此一来会对模型结果产生影响,当你要检查模型或分析的结果时,除了要检查R sqr,Error Rate,P Value等等,多重共线性也是一个我们不可忽视的问题。

以这个数据库为例,该数据库试图用一些因素来预测学生的入学机会,比如托福、GRE成绩,GPA和你学校的排名情况等等。我们希望实现一个静态的状态,例如,“科研能使你被录取的机会增加x%”,或 “托福每增加一份,就可以使入学的机会增加y%”。我们首先想到的方法是训练线性回归模型并解释系数。多元回归模型的平均绝对误差约为4.5%,这是相当准确的。系数的分析很有趣,GRE分数的系数是0.002,而GPA的系数是0.1135,我们可以这样说:“ 你的GRE每增加一分,你被录取的机会增加了0.2%,而GPA的每增加一分,你被录取的机会增加了11.4%。”让我们看一下相关系数矩阵,来确定哪些变量是相互关联的。总的来说,该数据充满了高度相关的特征,但是GPA通常与其他特征变量高度相关。由于TOEFL分数与GRE分数高度相关,因此让我们将托福成绩这个特征变量从模型中剔除,然后重新训练线性回归模型。令人惊讶的是,平均绝对误差降低到4.3%。系数的变化也很有趣: 大学排名的重要性降低了近一半(从0.0097下降到0.0052),研究的重要性提高了一倍(从0.0132上升到0.0259)。如下图:
从这个例子中我们可以了解到:

(1)就像任何其他变量一样,TOEFL分数可以被认为具有两个组成部分:可以用来解释因变量的有用信息和“噪音”。

(2)其有用信息部分已经用其他变量表示出来了,比如GPA很高说明他的学习能力很强,GRE分数很高说明他的英语水平非常出色等等,因此它没有提供任何新的有用信息。

(3)托福分数这个变量会带来很多“噪音”,为了获得最小的信息增益而保持该变量,不值得将它引入模型。

换句话说,托福成绩与许多其它变量是高度相关的(具有共线性)。从根本来说,模型的性能受到了损害,但更重要的是,它会对每个变量的系数造成影响,导致我们对模型结果的解读也会发生变化。

如何

识别多重共线性

(1)在回归模型上使用VIF(方差膨胀系数/方差扩大因子)得分来确定数据集中是否存在多重共线性。

(2)如果模型的标准差过高,则也可能表明由于信息重叠,一个错误正在重复传播。

(3)添加或删除新特征变量时,参数的过大变化表示信息有很多重复。

(4)创建一个相关系数矩阵。值始终高于0.4的要素表示与其他变量具有很强的多重共线性。

如何

解决多重共线性

(1)获取更多数据。更多数据可以使模型保留当前足够的信息量,同时为数据中存在的”噪音“提供更多维度的考量。

(2)使用那些不太受多重共线性影响的算法。岭回归,主成分回归,决策树或偏最小二乘回归都是很好的回归选择。

(3)使用PCA可以减少数据集的维数,并且仅保留对于维持数据结构非常重要的变量。如果数据集总体上存在非常多共线性,这将是有益的。

(4)使用特征选择方法剔除高度相关的特征。

资料来源于MarTechCareer,结合资料稍做修改。资源仅供学术交流使用,不得用于商业用途!如有侵权,请联系小编微信xyr1011

推文期数:2020221

责任编辑:徐亚茹 张聪

推文审核:骆丹云 林晓峰

总审核:学术无界顾问团队

下期预告:什么?距离2021考研只剩90天了?

往期回顾:

招贤纳士!临沂大学资源环境学院2020年高层次人才招聘启事

2020~终于等到你~Globe30

【直播】搞定GIS商业智能,我的职业之路居然能这么宽!丨城市数据派

学术讲坛 | 全国地研联求索讲坛第2期—“空间计量模型的应用范式与几个需要注意的问题”


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存