多重线性回归的结果解读和报告(SPSS实例教程)
昨天,我们推送了“多重线性回归的SPSS详细操作步骤”,介绍了在应用多重线性回归模型之前所需要满足的8个适用条件,简单概括如下:
(1) 自变量与因变量存在线性关系;
(2) 残差间相互独立;
(3) 残差服从正态分布;
(4) 残差具有方差齐性;
(5) 因变量为连续变量;
(6) 自变量为连续变量或分类变量;
(7) 自变量间不存在多重共线性;
(8) 样本量应为自变量的20倍以上。
同时我们也结合实际的研究数据,介绍了如何在SPSS中进行多重线性回归的操作。面对SPSS结果输出中众多的表格,很多时候会感觉一头雾水,不知所云,接下来我们将对多重线性回归的输出结果进行详细的解读。
一、模型条件验证
首先我们需要对上述的8个条件进行验证,来确保最终建立的回归模型有效。在上一期的内容里,我们通过观察数据结构进行了初步的判断,数据已经基本满足了条件(5) (6) (8)的要求,下面我们将对其他条件来进行一一验证。
1. 验证各个自变量与因变量存在线性关系
在结果输出的Charts部分,Partial Regression Plot输出了每个自变量与因变量之间形成的散点图,由散点图可以判断自变量age,weight及heart_rate与因变量VO2 max之间均呈现一定的线性关系,满足条件(1)。由于自变量gender为二分类变量,因此可以不用考察其与因变量VO2 max的线性关系。
注意:散点图是建立多重线性回归分析之前的一个很有必要且非常重要的步骤,不能随意省略。如果因变量与某个自变量之间呈现出非线性趋势,可以尝试通过变量转换予以修正。如果进行了变量转换,则应当重新绘制散点图,以保证线性趋势在变换后仍然存在。
2. 验证残差独立
在结果输出的Model Summary表格中,Durbin-Watson值为1.910。该统计值的取值范围为0 ~ 4之间,如果残差间相互独立,则该值≈ 2。若Durbin-Watson值偏离2,向0或者4的方向接近,则提示残差不独立。本例中该值大小为1.910,非常接近于2,表明残差间没有明显的相关性,即残差独立,满足条件(2)。
3. 验证残差服从正态分布
在结果输出的Charts部分,通过标准化残差的直方图(Histogram)可以直观的看出,标准化残差服从均值为0,标准差为1的正态分布。同时从正态概率图(P-P图)也可以看出,散点基本围绕在第一象限对角线上散布,从而判断残差基本服从正态分布,满足条件(3)。
4. 验证残差方差齐性
在结果输出的Charts部分,通过对标准化残差和标准化预测值绘制的散点图可以看出,标准化残差的散点波动范围基本保持稳定,不随标准化预测值的变化而变化,可以认为基本满足方差齐性,满足条件(4)。
5. 验证自变量是否存在共线性
在结果输出的Correlations表格中,显示了所有变量两两之间的Pearson相关系数及其对应的P值,一般认为相关系数 > 0.7可考虑变量间存在共线性。在本例中结果显示自变量之间相关系数均 < 0.7,且P值均 > 0.05,表明自变量间相关性较弱,可认为不存在共线性,满足条件(7)。由于自变量gender为二分类变量,不适宜用Pearson相关系数进行考察。
同时在结果输出的Coefficients表格中,显示了共线性诊断的两个统计量,即Tolerance(容忍度)和VIF(方差膨胀因子)。一般认为如果Tolerance < 0.2或VIF > 10,则提示要考虑自变量之间存在多重共线性的问题。本例中各自变量的Tolerance均 > 0.2,VIF均 < 10,提示不存在共线性。
二、模型结果解读
通过以上结果分析得知,本例中的研究数据符合多重线性回归的各项适用条件,下面终于要正式对回归模型的结果进行解读了。
1. 评价回归模型的优劣
在结果输出的Model Summary表格中显示了模型的拟合情况,其中复相关系数R为0.760,反映了所有自变量x与因变量y之间的线性相关程度,其值越大说明线性相关越密切。决定系数R Square (R2)为0.577,说明VO2 max变异的57.7%可由年龄,体重,心率的变化及性别来解释。R2越接近于1,说明模型对数据的拟合程度越好。校正的R2(Adjusted R Square)为0.559,其意义与R2相似,也是衡量模型好坏的重要指标之一,其值越大,表示模型拟合效果越好。
2. 整体回归效应的检验
在结果输出的ANOVA表格中显示了检验回归模型整体意义的方差分析结果,其中F统计量为32.393,P < 0.001,在α=0.05的检验水准下,可认为所拟合的多重线性回归方程具有统计学意义。
3. 偏回归系数的检验
在结果输出的Coefficients表格中列出了回归模型的偏回归系数(B)及其标准误(Std.Error),标准化偏回归系数(Beta),回归系数检验的t统计量及其P值(Sig.),偏回归系数B的95%可信区间(95% CI)。
结果显示age,weight,heart_rate,gender以及常数项(Constant)的偏回归系数检验的P值均 < 0.05,在α=0.05的检验水准下,可认为其偏回归系数均不为0,有统计学显著性,均可纳入到最终的回归模型中。
同时结果中还输出了标准化偏回归系数,其意义在于通过对偏回归系数进行标准化,从而可以比较不同自变量对因变量的作用大小。
注意:偏回归系数更大的自变量,其标准化偏回归系数不一定更大。例如本例中,age的偏回归系数绝对值为0.165,大于heart_rate的偏回归系数绝对值0.118,但是heart_rate的标准化偏回归系数绝对值为0.252,却大于age的标准化偏回归系数绝对值0.176,说明heart_rate对于VO2 max的影响较age更大。
4. 回归模型的结果解释
根据对以上结果的分析,最终的多重线性回归方程可写为:
VO2 max = 87.83 – 0.165 * age – 0.385 * weight – 0.118 * heart_rate + 13.208 * gender
以年龄为例,其偏回归系数为-0.165,95% CI为(-0.290,-0.041),说明在其他因素不变的情况下,年龄每增加1岁,VO2 max下降0.165 ml/min/kg。
三、结果报告
本研究通过应用多重线性回归的方法,探讨了年龄,体重,心率和性别对VO2 max的影响,最终构建的多重线性回归模型具有统计学意义(F = 32.393,P < 0.001),因变量VO2 max变异的55.9%可由年龄,体重,心率的变化及性别来解释(校正的R2 = 0.559),各个自变量的偏回归系数β及95% CI如下表所示:
四、问题思考
我们在介绍多重线性回归的一开始就介绍了多重线性回归的作用,一方面是用来探索对因变量具有影响作用的因素,以及效应大小,这一点通过我们的实例已经得以实现。
多重线性回归另一方面的作用就是根据构建的回归模型,来估计和预测因变量的值及其变化,结合我们的实例,在不易直接测得VO2 max的情况下,如何通过一个人的年龄,体重,心率及性别,来预测其VO2 max及可信区间呢,是否可以通过SPSS操作实现呢,我们将在接下来的内容中进行详细的介绍。
(如果你想使用文中数据进行练习,请随时给小咖(微信:xys2016ykf)发消息,小咖将原始数据发给你。)
统计学精彩教程回顾
关注医咖会,轻松学习统计学!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),加入医咖会统计讨论群,和小伙伴们一起交流学习吧。我们诚邀各位小伙伴加入我们,一起创作有价值的内容,将知识共享给更多人!
点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。还可以到医咖会公众号下方的自定义菜单,点击“直接搜索”,查找你想了解的内容。