Points of Significance: Regression diagnostics

Original NGSHotpot NGSHotpot机器深度学习生信 2022-06-07

本文系NGSHotpot原创，欢迎分享，公众号转载须授权！

简介

Nature methods从2013年9月开始发表月刊Points of Significance系列，该系列主要介绍统计在生物学中的应用，让读者可以更正确的理解及使用统计。有研究发现，在医学类期刊上发表的文章中，有接近半数的统计方法的使用都是不正确的，所以Nature methods推出该系列统计文章，以实用易懂的方式来介绍统计中的一些基本概念。

前言

前文介绍了线性回归和多元线性回归，可以通过某一个自变量或者多个自变量预测因变量的值，在多元线性回归的分析中，我们解释了，若是当自变量之间是相关的，那么单独使用某个自变量对因变量进行预测的时候会有较大差异，甚至有些时候正负性都会有改变，并且介绍了异常值（outlier）对回归模型的影响，本文将讨论衡量模型的稳定性及可信性。

基本概念

线性回归模型：使用多个自变量对因变量进行回归，回归模型如下：

其中Y是因变量，X1，X2，…，Xp为自变量，a0，a1，…，ap为需要估计的回归系数，最后一项为误差，一般为均值零的正态分布。

残差：残差为因变量真实值和预测值之差：

残差的方差用以下公式进行估计：

残差图

最流行的衡量线性回归模型的方法就是画残差图，一般情况下以残差为Y轴，自变量为X轴画图或者以因变量的预测值做横坐标。下面就是一个残差图

上图a为三个不同的模型产生的数据身高体重数据，然后使用线性回归去进行回归。上图a从做到右的三个模型分别为

从上面的公式可以看出，上图a的最左边的图就是标准的线性回归的模型，中间的图是在线性模型的基础上加了上二次项的模型，右边的图表示的是方差不稳定，方差随着身高的增加而增大（大于160的时候）。

对上图a的简单说明，蓝色的曲线表示公式代表的模型，黑色的直线为线性回归拟合的直线，散点代表真实数据分布情况，中间较黑的阴影部分为真实均值的95%置信区间，较浅的阴影预测均值的95%置信区间。

上图b中的三个图分别为对应上面模型的三个残差图。在理想状态下，残差均值为0且是随机分布（如上图b最左边的图）。若是当残差图呈现比较明显的趋势，比如图b中间的图在165附近高，两边低，虽然残差的均值也是0，但是这代表有着非线性特征。在实际拟合数据时，可以考虑引入二次项或者更高次项。上图b最右边的图画的是残差的绝对值，若是当残差随机分布时，残差绝对值均值应该比较固定，不会出现趋势性。若出现上图一样的越来越大或者越来越小的趋势，那么可能意味着残差的方差在改变。

残差方差估计

刚才说到了一般使用以下公式估计残差的方差：

但是这需要在残差正态性的时候使用，在这之前，我们需要估计残差是否基本固定。通常可以使用上图b最后的那个图来衡量。若是残差方差不固定，使用上述公式估计残差方差会有问题。

比如还是上图的例子，残差的方差随着身高的增大而增大，此时若对方差进行估计，那么就会高估身高低的人的残差方差，且会低估身高高的人的残差方差。

残差方差的估计除了受到方差是否固定的影响外，还受到outlier的影响。Outlier影响残差方差有两种方式：若是该outlier有较低的杠杆效应值，即该outlier的自变量离自变量均值较近，那么该outlier会对残差方差产生直接的影响，因为它增大了该点残差。若该outlier有较高的杠杆效应值，即该outlier的自变量距离自变量均值较远，那么该outlier主要是通过间接影响残差方差。从上一篇我们知道，在较高杠杆效应值地方的outlier会较大的影响模型，从而影响其他点的准确度，进而影响残差方差。

方差膨胀因子

最后介绍方差膨胀因子，之前我们说到，在做多元线性回归时，自变量间的相关性对回归模型有较大的影响。这里介绍如何衡量某个自变量与其他自变量间的相关性的一种方法。定义为方差膨胀因子（variance inflation factor）。较为严重的方差膨胀因子会会增大回归系数的方差，从而使得方差不稳定或者难以估计。

假如总共有m个自变量，分别为X1，X2，…，Xm，那么对每一个自变量都可以计算一个方差膨胀因子，对于每一个自变量，将其看为因变量，然后使用其他的自变量对该因变量进行回归，回归的R方，即其他的自变量对新的自变量方差解释的百分比。

比如，所示想要计算X1的方差膨胀因子，首先使用以下回归模型进行回归：

然后使用模型的R方定义方差膨胀因子：

其他自变量的因子膨胀因子可以类似进行计算。

若是VIF的值等于1代表该因子不会影响模型方差，若是VIF在1到5之间，那么该因子对模型有中等影响，若是VIF在10之上，此时就有较大的影响了。

系列文章

1. Points of Significance: Importance of being uncertain

2. Points of Significance: Error bars

3. Points of Significance: Significance, P values and t-tests

4. Points of Significance: Power and sample size

5. Points of Significance: Visualizing samples with box plots

6. Points of Significance: Comparing samples part I

7. Points of Significance: Comparing samples part II

8. Points of Significance: Nonparametric tests

9. Points of Significance: Designing comparative experiments

10. Points of Significance: Analysis of variance and blocking

11. Points of Significance: Bayes’ theorem

12. Points of Significance: Bayesian statistics

13. Points of Significance: Bayesian network

14. Points of Significance: Association, correlation and causation

15. Points of Significance: Simple linear regression

16. Points of Significance: Multiple linear regression

17. Points of Significance: Analyzing outliers: influential or nuisance?

扫描或者识别文末的二维码关注NGSHotpot公众号，查看该系列上述文章。

参考文献

1. Altman N, Krzywinski M. Points of Significance: Regression diagnostics. Nature methods. 2016;13(5):385-6.

声明：上述内容为NGSHotpot读文献整理写出，若有遗漏或错误若有任何意见、建议、或对上述内容有疑问请发送邮件到：ngshotpot@126.com，感谢您指出。

扫描或识别下方二维码关注NGSHotpot

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天

Points of Significance: Regression diagnostics

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天

生成图片，分享到微信朋友圈

Points of Significance: Regression diagnostics

您可能也对以下帖子感兴趣