其他
回归中的多重共线性
点击蓝字
关注我们
以这个数据库为例,该数据库试图用一些因素来预测学生的入学机会,比如托福、GRE成绩,GPA和你学校的排名情况等等。
(1)就像任何其他变量一样,TOEFL分数可以被认为具有两个组成部分:可以用来解释因变量的有用信息和“噪音”。
(2)其有用信息部分已经用其他变量表示出来了,比如GPA很高说明他的学习能力很强,GRE分数很高说明他的英语水平非常出色等等,因此它没有提供任何新的有用信息。
(3)托福分数这个变量会带来很多“噪音”,为了获得最小的信息增益而保持该变量,不值得将它引入模型。
换句话说,托福成绩与许多其它变量是高度相关的(具有共线性)。从根本来说,模型的性能受到了损害,但更重要的是,它会对每个变量的系数造成影响,导致我们对模型结果的解读也会发生变化。如何
识别多重共线性
(1)在回归模型上使用VIF(方差膨胀系数/方差扩大因子)得分来确定数据集中是否存在多重共线性。
(2)如果模型的标准差过高,则也可能表明由于信息重叠,一个错误正在重复传播。
(3)添加或删除新特征变量时,参数的过大变化表示信息有很多重复。
(4)创建一个相关系数矩阵。值始终高于0.4的要素表示与其他变量具有很强的多重共线性。
如何
解决多重共线性
(1)获取更多数据。更多数据可以使模型保留当前足够的信息量,同时为数据中存在的”噪音“提供更多维度的考量。
(2)使用那些不太受多重共线性影响的算法。岭回归,主成分回归,决策树或偏最小二乘回归都是很好的回归选择。
(3)使用PCA可以减少数据集的维数,并且仅保留对于维持数据结构非常重要的变量。如果数据集总体上存在非常多共线性,这将是有益的。
(4)使用特征选择方法剔除高度相关的特征。
资料来源于MarTechCareer,结合资料稍做修改。资源仅供学术交流使用,不得用于商业用途!如有侵权,请联系小编微信xyr1011
推文期数:2020221
责任编辑:徐亚茹 张聪
推文审核:骆丹云 林晓峰
总审核:学术无界顾问团队
下期预告:什么?距离2021考研只剩90天了?
往期回顾: