Points of Significance: 多元线性回归
本文系NGSHotpot原创,欢迎分享,公众号转载须授权!
Points of Significance: 多元线性回归
简介
Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。
前言
在前一篇的Points of Significance系列中(Points of Significance: 一元线性回归)介绍了一元线性回归,在一元线性回归中,关注的只有一个自变量,另外一个是因变量。但是若是自变量有多个的时候呢?这就是我们将要处理的多元线性回归问题。
多元线性回归
在一元线性回归中,若是有自变量X和应变量Y,可以使用X的值预测Y的均值:
若是有p个变量X1,X2,X3,…,Xp时,同样可以使用线性回归进行预测:
对于因变量和自变量的数据,利用多元线性回归进行预测之后,可以计算预测的残差平方和:
残差平方和可以计算预测值与真实的相似程度,预测越准确,残差平方和越小,预测越不准,残差平方和越大。同时可以计算回归的相差的平方和,计算方式如下:
有了残差平方和及回归平方和之后,就可以定义多元线性回归对因变量的方差解释度了,方差解释度就是我们通常说的R方。
多元回归的参数估计
多元回归的参数估计和一元线性回归的方式一样,利用最小二乘法就行估计。
自变量间相关性
对于多元线性回归来说,各个自变量间的相关性对于每个自变量对于因变量的影响的大小会有影响。下面还是使用身高体重的线性回归关系进行举例说明,但是需要多加一个自变量:跳高的最大高度。将体重Weight看成因变量,身高Height和跳高的最大高度Jump看成自变量进行多元线性回归的说明。
身高和体重肯定是正相关的,比较好理解,然后认为跳高的最大高度与体重有微弱的负相关关系,因为我们可以认为体重越大的人跳得更矮一些。
实例
为了说明多个自变量间的相关性对多元线性回归的影响,所以需要仿真一些身高体重及跳高的数据。身高取165cm为均值且3cm为标准差的正态分布数据,跳高取50cm为均值,12.5为标准差的正态分布数据。数据保证以下回归方程:
后面采取不同的方式进行抽样,第一种方式保证Height和Jump没有相关性。也就是说Height和Jump之间的皮尔森相关系数等于0。如下图所示:
如上图a所示,身高和跳高之间的相关性为0,在此基础上,分别用身高和跳高对体重进行回归,得到上图b的左右两个图。
可以发现单独使用身高对体重进行回归得到以下回归方程:
回归的R方为0.66,如上图b左边的图所示。
若是单独使用跳高对体重进行回归,得到以下回归方程:
回归的R方为0.19,如上图b右边的图所示。
若是同时使用这两个自变量进行回归,得到以下回归方程:
回归的R方为0.985,刚好是单独对两个变量进行回归的R方之和。
同样,若是抽样得到的身高和体重的相关性较高,如果0.9,如上图c所示,那么回归的情况是怎么样的呢?
可以发现单独使用身高对体重进行回归得到以下回归方程:
回归的R方为0.64,如上图b左边的图所示。
若是单独使用跳高对体重进行回归,得到以下回归方程:
回归的R方为0.42,如上图b右边的图所示。
若是同时使用这两个自变量进行回归,得到以下回归方程:
回归的R方为0.67,此时就R方远比两个变量单独回归之和小。
自变量相关性回归结果
对于上述实验,为了方便结果展示,可以详见下面表格
自变量间相关性大小的影响
下图中展示了身高和跳高之间的相关性大小从-1变到1时,使用身高对体重进行预测时身高的权重、截距的大小、R方,以及使用跳高对体重进行预测时跳高的权重、截距的大小、R方,以及同时使用身高和跳高对体重进行预测时身高的权重、跳高的权重、截距的大小、R方的结果。
系列文章
1. Points of Significance: Importance of being uncertain
2. Points of Significance: Error bars
3. Points of Significance: Significance, P values and t-tests
4. Points of Significance: Power and sample size
5. Points of Significance: Visualizing samples with box plots
6. Points of Significance: Comparing samples part I
7. Points of Significance: Comparing samples part II
8. Points of Significance: Nonparametric tests
9. Points of Significance: Designing comparative experiments
10. Points of Significance: Analysis of variance and blocking
11. Points of Significance: Bayes’ theorem
12. Points of Significance: Bayesian statistics
13. Points of Significance: Bayesian network
14. Points of Significance: Association, correlation and causation
15. Points of Significance: Simple linear regression
扫描或者识别文末的二维码关注NGSHotpot公众号,查看该系列上述文章。
参考文献
1. Krzywinski M, Altman N. Multiple linear regression. Nature methods. 2015;12(12):1103-4.
声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com,感谢您指出。
扫描或识别下方二维码关注NGSHotpot