Points of Significance: Regression diagnostics
本文系NGSHotpot原创,欢迎分享,公众号转载须授权!
Points of Significance: Regression diagnostics
简介
Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。
前言
前文介绍了线性回归和多元线性回归,可以通过某一个自变量或者多个自变量预测因变量的值,在多元线性回归的分析中,我们解释了,若是当自变量之间是相关的,那么单独使用某个自变量对因变量进行预测的时候会有较大差异,甚至有些时候正负性都会有改变,并且介绍了异常值(outlier)对回归模型的影响,本文将讨论衡量模型的稳定性及可信性。
基本概念
线性回归模型:使用多个自变量对因变量进行回归,回归模型如下:
其中Y是因变量,X1,X2,…,Xp为自变量,a0,a1,…,ap为需要估计的回归系数,最后一项为误差,一般为均值零的正态分布。
残差:残差为因变量真实值和预测值之差:
残差的方差用以下公式进行估计:
残差图
最流行的衡量线性回归模型的方法就是画残差图,一般情况下以残差为Y轴,自变量为X轴画图或者以因变量的预测值做横坐标。下面就是一个残差图
上图a为三个不同的模型产生的数据身高体重数据,然后使用线性回归去进行回归。上图a从做到右的三个模型分别为
从上面的公式可以看出,上图a的最左边的图就是标准的线性回归的模型,中间的图是在线性模型的基础上加了上二次项的模型,右边的图 表示的是方差不稳定,方差随着身高的增加而增大(大于160的时候)。
对上图a的简单说明,蓝色的曲线表示公式代表的模型,黑色的直线为线性回归拟合的直线,散点代表真实数据分布情况,中间较黑的阴影部分为真实均值的95%置信区间,较浅的阴影预测均值的95%置信区间。
上图b中的三个图分别为对应上面模型的三个残差图。在理想状态下,残差均值为0且是随机分布(如上图b最左边的图)。若是当残差图呈现比较明显的趋势,比如图b中间的图在165附近高,两边低,虽然残差的均值也是0,但是这代表有着非线性特征。在实际拟合数据时,可以考虑引入二次项或者更高次项。上图b最右边的图画的是残差的绝对值,若是当残差随机分布时,残差绝对值均值应该比较固定,不会出现趋势性。若出现上图一样的越来越大或者越来越小的趋势,那么可能意味着残差的方差在改变。
残差方差估计
刚才说到了一般使用以下公式估计残差的方差:
但是这需要在残差正态性的时候使用,在这之前,我们需要估计残差是否基本固定。通常可以使用上图b最后的那个图来衡量。若是残差方差不固定,使用上述公式估计残差方差会有问题。
比如还是上图的例子,残差的方差随着身高的增大而增大,此时若对方差进行估计,那么就会高估身高低的人的残差方差,且会低估身高高的人的残差方差。
残差方差的估计除了受到方差是否固定的影响外,还受到outlier的影响。Outlier影响残差方差有两种方式:若是该outlier有较低的杠杆效应值,即该outlier的自变量离自变量均值较近,那么该outlier会对残差方差产生直接的影响,因为它增大了该点残差。若该outlier有较高的杠杆效应值,即该outlier的自变量距离自变量均值较远,那么该outlier主要是通过间接影响残差方差。从上一篇我们知道,在较高杠杆效应值地方的outlier会较大的影响模型,从而影响其他点的准确度,进而影响残差方差。
方差膨胀因子
最后介绍方差膨胀因子,之前我们说到,在做多元线性回归时,自变量间的相关性对回归模型有较大的影响。这里介绍如何衡量某个自变量与其他自变量间的相关性的一种方法。定义为方差膨胀因子(variance inflation factor)。较为严重的方差膨胀因子会会增大回归系数的方差,从而使得方差不稳定或者难以估计。
假如总共有m个自变量,分别为X1,X2,…,Xm,那么对每一个自变量都可以计算一个方差膨胀因子,对于每一个自变量,将其看为因变量,然后使用其他的自变量对该因变量进行回归,回归的R方,即其他的自变量对新的自变量方差解释的百分比。
比如,所示想要计算X1的方差膨胀因子,首先使用以下回归模型进行回归:
然后使用模型的R方定义方差膨胀因子:
其他自变量的因子膨胀因子可以类似进行计算。
若是VIF的值等于1代表该因子不会影响模型方差,若是VIF在1到5之间,那么该因子对模型有中等影响,若是VIF在10之上,此时就有较大的影响了。
系列文章
1. Points of Significance: Importance of being uncertain
2. Points of Significance: Error bars
3. Points of Significance: Significance, P values and t-tests
4. Points of Significance: Power and sample size
5. Points of Significance: Visualizing samples with box plots
6. Points of Significance: Comparing samples part I
7. Points of Significance: Comparing samples part II
8. Points of Significance: Nonparametric tests
9. Points of Significance: Designing comparative experiments
10. Points of Significance: Analysis of variance and blocking
11. Points of Significance: Bayes’ theorem
12. Points of Significance: Bayesian statistics
13. Points of Significance: Bayesian network
14. Points of Significance: Association, correlation and causation
15. Points of Significance: Simple linear regression
16. Points of Significance: Multiple linear regression
17. Points of Significance: Analyzing outliers: influential or nuisance?
扫描或者识别文末的二维码关注NGSHotpot公众号,查看该系列上述文章。
参考文献
1. Altman N, Krzywinski M. Points of Significance: Regression diagnostics. Nature methods. 2016;13(5):385-6.
声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com,感谢您指出。
扫描或识别下方二维码关注NGSHotpot