查看原文
其他

超详细SPSS操作:多重线性回归(完整版)

2017-07-26 李桐桐 医咖会

小咖有话说经常关注医咖会的小伙伴可能知道,我们之前已经推送过多篇关于“多重线性回归”的文章。这次推送的版本呢,有些内容在之前讲到过,有些内容是新添加进去的。对多重线性回归感兴趣或者未来有可能用到的伙伴,这篇文章请务必收藏,因为讲解实在是太详细了。

一、问题与数据

最大携氧能力(maximal aerobic capacity,VO2max)是评价人体健康的关键指标,但因测量方法复杂,不易实现。具体原因在于,它不仅需要昂贵的试验设备,还需要受试者运动到个人承受能力的极限,无法测量那些没有运动意愿或患有高危疾病无法运动的受试者。


因此,某研究者拟通过一些方便、易得的指标建立受试者最大携氧能力的预测模型。该研究者共招募100位受试者,分别测量他们的最大携氧能力(VO2max),并收集年龄(age)、体重(weight)、心率(heart_rate)和性别(gender)等变量信息,部分数据如下:


 

注:心率(heart_rate)测量的是受试者进行20分钟低强度踏板试验中,最后5分钟的平均心率。

二、问题的分析

研究者想根据一些变量(age、weight、heart_rate和gender)预测另一个变量(VO2max)。针对这种情况,我们可以使用多重线性回归分析,但需要先满足以下8项假设:

  • 假设1:因变量是连续变量

  • 假设2:自变量不少于2个(连续变量或分类变量都可以)

  • 假设3:具有相互独立的观测值

  • 假设4:自变量和因变量之间存在线性关系

  • 假设5:等方差性

  • 假设6:不存在多重共线性

  • 假设7:不存在显著的异常值

  • 假设8:残差近似正态分布


那么,进行多重线性回归分析时,如何考虑和处理这8项假设呢?

三、思维导图

(点击图片可查看大图)

四、对假设的判断

1. 假设1-2


假设1和假设2分别要求因变量是连续变量、自变量不少于2个。这与研究设计有关,需根据实际情况判断。


2. 假设3-8


为了检验假设3-8,我们需要在SPSS中运行多重线性回归,并对结果进行一一分析。


(1) 点击Analyze→Regression→Linear


 

出现下图:


 

(2) 将因变量(VO2max)放入Dependent栏,再将自变量(age,weight, heart_rate和gender)放入Independent栏


 

解释:Previous和Next按钮是针对层次回归(sequential/hierarchical multiple regression)的,在本次回归中可以忽略。同时,Method栏应设置为“Enter”,一般是SPSS自动设置的;如果不是,也应人工设置为“Enter”。


(3) 点击Statistics,弹出下图:


 

(4) 在Regression Coefficient框内点选Confidence intervals,设置Level(%)为95%。在Residuals框内点选Durbin-Watson和Casewise diagnosis,并在主对话框内点选Model Fit,Descriptive,Part and partial correlations和Collinearity diagnosis


 

(5) 点击Continue,回到主界面


(6) 点击Plots,弹出下图:


 

(7) 在Standardized Residual Plots对话框中点选Histogram和Normal probability,并点选Produce all partial plots


 

(8) 点击Continue回到主对话框


(9) 点击Save


 

(10) 在Predicted Values框内点选Unstandardized,在Distance框内点选Cook’s和Leverage values,在Residuals框内点选Studentized和Studentized deleted


 

(11) 点击Continue→OK


经过这些操作,Variable View 和Data View对话框中会增加5个变量:


 

 

这5个变量分别是未标化预测值(unstandardized predicted values,PRE_1),学生化残差(studentized residuals,SRE_1),学生化删除残差(studentized deleted residuals,SDR_1),Cook距离(Cook's Distance values,COO_1)以及杠杆值(leverage values,LEV_1)。


根据这5个新增变量和其他结果,我们将逐一对假设3-8进行检验。


假设3:具有相互独立的观测值


观测值之间相互独立是多重线性回归的基本假设之一,主要检验的是1st-order autocorrelation,即邻近的观测值之间没有相关性。SPSS中的Durbin-Watson检验,刚好可以实现这一目的。


举例来说,我们一般按照调查顺序录入数据,将第一位受试者录入到第一行,再将第二位受试者录入到第二行。在这种情况下,Durbin-Watson检验可以检测出第一位受试者和第二位受试者之间的相关性。但是如果我们乱序录入数据,将第一位受试者和可能与他存在自相关的第二位受试者离得很远,Durbin-Watson检验的结果就不准确了。


其实,观测值是否相互独立与研究设计有关。如果研究者确信观测值不会相互影响,我们甚至可以不进行Durbin-Watson检验,直接认定研究满足假设3。

在本研究中,我们假设观测值之间可能存在相关性,即需要进行Durbin-Watson检验。


经过上述操作,SPSS输出Durbin-Watson检验结果为:


 

本研究Durbin-Watson检验值为1.910。一般来说,Durbin-Watson检验值分布在0-4之间,越接近2,观测值相互独立的可能性越大。即,本研究中多重线性回归的观测值具有相互独立性,满足假设3


假设4:自变量和因变量之间存在线性关系


多重线性回归不仅要求因变量与所有自变量存在线性关系,还要求因变量与每一个自变量之间存在线性关系。应该如何检验这个假设呢?


  • 检验因变量与所有自变量之间是否存在线性关系


经上述SPSS操作,我们得到未标化预测值(PRE_1)和学生化残差(SRE_1)两个新增变量。为检验因变量与所有自变量之间是否存在线性关系,我们需要绘制这两个变量的散点图。


(1) 在主菜单点击Graphs→Chart Builder


 

出现下图:


 

(2) 在Chart Builder对话框下,点击Choose from栏内的Scatter/Dot


 

(3) 在中下部的8种图形中,选择左上角的那一种(如果点击这个图标会出现“Simple Scatter”字样),并拖拽到主对话框中


 

(4) 主对话框中会出现标记“Y-Axis?”和“X-Axis?”的方框


 

(5) 将Variables框内的未标化预测值(PRE_1)和学生化残差(SRE_1)变量分别拖拽到“X-Axis?”和“Y-Axis?”方框内


 

(6) 点击OK,完成散点图

 


一般来说,如果未标化预测值(PRE_1)和学生化残差(SRE_1)的散点图呈水平带状,就说明多重线性回归中因变量与所有自变量之间存在线性关系。结果提示,本研究满足因变量与所有自变量之间存在线性关系的假设。


为了方便大家理解,我们举一个因变量与所有自变量之间不存在线性关系的例子,如下:


 

  • 检验因变量与每一个自变量之间是否存在线性关系


为检验因变量与每一个自变量之间是否存在线性关系,我们需要分别绘制每个自变量与因变量的散点图。当然,这是针对连续型自变量而言的,我们可以忽略分类型自变量(如性别)与因变量之间的线性关系。


点选Linear Regression:Plots对话框中的Produce all partial plots,SPSS可以自动输出每个自变量与因变量的散点图,如下:


年龄:最大携氧能力(VO2max)与年龄(age)之间存在近似线性关系


 

体重:最大携氧能力(VO2max)与体重(weight)之间存在线性关系


 

心率:最大携氧能力(VO2max)与心率(hear_rate)之间存在近似线性关系


 

综上,我们认为本研究满足因变量与每一个自变量之间存在线性关系的假设。


大家可能对如何根据散点图判断线性关系存在疑问,我们举例如下:


 

在多重线性回归分析中,如果因变量与某一自变量的散点图呈水平分布,即斜率为0,我们就认为该二者之间不存在线性关系。但如果散点分布近似直线,且斜率不为0,我们就认为该数据满足假设4


假设5:等方差性


等方差性也可以通过学生化残差(SRE_1)与未标化预测值(PRE_1)之间的散点图进行检验,“假设4”中绘制散点图如下:


 

如果存在等方差性,不同预测值对应的残差应大致相同。即图中各点均匀分布,不会出现特殊的分布形状。如果散点图分布不均匀,形成漏斗或者扇形,那么回归就不具有等方差性,如下:


increasing funnel上升漏斗;decreasing funnel下降漏斗;fan shaped扇形


本研究中学生化残差与未标化预测值散点图的各点均匀分布,提示该数据符合等方差性,即满足假设5


当然,如果研究结果提示不满足等方差性假设,我们也可以通过一些统计手段进行矫正。比如,采用加权最小二乘法回归方程,改用更加稳健的回归或者有稳健标准差结果的回归以及对自变量进行转换等。


假设6:不存在多重共线性


当回归中存在2个或多个自变量高度相关时,就会出现多重共线。它不仅可以影响自变量对因变量变异的解释能力,还可以影响整个多重线性回归模型的拟合。为了检验假设6,我们主要关注相关系数(correlation coefficients)和容忍度/方差膨胀因子(Tolerance/VIF )两类指标。


  • 相关系数


点击 Linear Regression: Statistics 对话框中的Descriptive,SPSS可以输出Correlation结果,如下:


 

一般来说,如果自变量之间的相关系数大于0.7,我们就会怀疑可能存在多重共线性。本研究中,任意两个自变量的相关系数都小于0.7,提示数据中不存在多重共线性。


  • 容忍度/方差膨胀因子


为了检验假设6,我们需要根据容忍度(Tolerance)和方差膨胀因子(VIF)进一步判断。


 

实际上,方差膨胀因子是容忍度的倒数(1/容忍度),我们只需要判断其中一个指标即可。如果容忍度小于0.1,方差膨胀因子大于10,提示数据存在多重共线性。在本研究中,所有容忍度值都大于0.1(最小值为0.765),说明数据满足假设6


假设7:不存在显著的异常值


根据作用方式的不同,多重线性回归异常值主要分为离群值(outliers)、强杠杆点(leverage points)和影响点(influential points)3类。异常的观测值可以符合其中一类或几类。但无论是哪一种都对多重线性回归的拟合与推论有着严重的负面影响。好在我们可以通过SPSS检测这些异常值。


  • 离群值


离群值是指实际值与预测值相差较大的数据,可以通过标化残差、学生化残差以及学生化删除残进行检测。在这里,我们主要向大家介绍标化残差(Casewise Diagnostics检验)和学生化删除残差两种方法。 


Casewise Diagnostics检验标准是上下3倍标准差,并标记超出此范围的数据为离群值。本研究中,SPSS输出的Casewise Diagnostics检验结果如下:


注:如果研究中没有标化残差超出3倍标准差的离群值,SPSS就不会输出该表格。


本研究中没有标化残差超出3倍标准差的离群值,SPSS也未输出Casewise Diagnostics检验结果。为了更好地向大家展示多重线性回归的过程,我们将检验标准改为2倍标准差,SPSS才输出上述结果。但是值得注意的是,在没有特殊要求的情况下,我们认为以3倍标准差检验离群值比较合理,当然也有一些研究是以2.5倍标准差为检验标准的,这需要大家根据实际研究具体决定。


从上表可以看出,本研究中最严重的离群值是第28例数据:


 

第28例数据的标化残差值为2.969,实际值为49.87 ml/min/kg,预测值为32.97 ml/min/kg,差值(残差值)为16.90 ml/min/kg。如果您认为这是一例离群值,您需要考虑出现它出现的原因(如录入错误),并进行相应的调整。


本研究以标化残差的3倍标准差Casewise Diagnostics检验为标准,提示该数据没有离群值。


SPSS提供的另一种检测方法,学生化删除残差(Studentized deleted residuals),比Casewise Diagnostics检验更加稳定。在运行多重线性回归时,我们的新增变量(SDR_1)就是学生化删除残差。


(1) 右击SDR_1数据栏


 

(2) 选择“Sort Descending”


 

学生化删除残差会按照由大到小排序,如下:


 

根据学生化删除残差排序,大家可以在数据栏的最上方和最下方检查是否存在超过3倍标准差的离群值。如果存在,就应进行相应的调整或剔除。


 

  • 强杠杆点


我们主要通过数据的杠杆值检测强杠杆点。在运行多重线性回归时,我们的新增变量(LEV_1)就是杠杆值。


(1) 右击LEV_1数据栏


 

(2) 选择“Sort Descending”



杠杆值会按照由大到小排序,如下:


 

一般来说,如果杠杆值小于0.2,我们就认为数据安全。但如果杠杆值位于0.2-0.5之间,我们就认为对应数据可能是强杠杆点;若杠杆值大于0.5,数据就很可能是强杠杆点了。在本研究中,数据的杠杆值都小于0.2,即不存在强杠杆点。


  • 强影响点


强影响点主要通过Cook距离进行检测,多重线性回归的新增变量(COO_1)就是Cook距离。


(1) 右击COO_1数据栏


 

(2) 选择“Sort Descending”


 

Cook距离会按照由大到小排序,如下:


 

一般来说,如果Cook距离大于1,对应的数据就可能是强影响点。在本研究中,所有数据的Cook距离都小于1,即不存在强影响点。


综上,根据本研究的结果和实际情况,我们认为没有需要处理的异常值。


(想更详细了解异常值,请点击:怎么判别我的数据中存在特异值?教你几招!


假设8:残差近似正态分布


在多重线性回归中,我们可以使用两种方法判断回归残差是否近似正态分布:


(1) 根据标化残差绘制的带正态曲线的柱状图或P-P图(2)根据学生化残差绘制的正态Q-Q图。我们将向大家逐一介绍。


  • 带正态曲线的柱状图或P-P图


经上述操作,SPSS输出结果如下:


 

从图中可以看出,该回归的标化残差近似正态分布。但是由于横纵坐标比例的影响,柱状图的结果并不准确。我们可以通过上图右上角的均值和标准差进一步判断。一般来说,均值越接近于0,标准差越接近于1,回归的标化残差越倾向于正态分布。


同时,我们也可以通过P-P图进一步验证柱状图的结果,如下:


 

P-P图上各点的分布离对角线越近,提示数据越接近于正态分布;如果各点都刚好落在对角线上,数据就是完全的正态分布。其实,是否正态分布对多重线性回归结果的影响较小,一般我们认为只要残差近似于正态分布即可。因此根据上图,我们认为该研究满足假设8


  • 正态Q-Q图


另一种可以检测残差正态性的方法是正态Q-Q图,具体操作如下:


(1) 点击Analyze→Descriptive Statistics→Q-Q Plot


 

出现下图:


 

(2) 将变量SRE_1放入Variables窗口


 

(3) 点击OK,输出下图:


 

与P-P图相似,Q-Q图上各点的分布离对角线越近,也提示数据越接近于正态分布。同样地,上图也证实该研究残差近似正态分布,满足假设8

五、结果解释

多重线性回归可以得到3个主要结果:

(1) 自变量解释因变量变异的比例

(2) 根据新增的自变量信息预测因变量

(3) 自变量改变一个单位,因变量的变化情况


为了更好地解释和报告多重线性回归的结果,我们需要统计以下3个方面:

(1) 多重线性回归模型的拟合程度

(2) 回归系数

(3) 根据自变量预测因变量


1. 模型解释


SPSS输出变量纳入结果,如下:


 

其实这个表并不是为多重线性回归模型设计,主要描述的是逐步回归和层次回归的变量纳入情况。但我们依旧可以从这个表中看到该研究的基本信息:(1) Variables Entered栏显示该研究纳入的自变量包括gender、age、heat rate和weight;(2) Method栏显示纳入方法为Enter(强制纳入);(3) 该回归模型是Model 1。


2. 判断多重线性回归模型的拟合程度


判断多重线性回归模型拟合程度的指标有很多,我们主要向大家介绍多重相关系数、变异的解释程度、模型的统计学意义以及预测值的准确性4个指标。


(1) 多重相关系数(Multiple correlation coefficient,R)


SPSS多重线性回归输出的结果中有Model Summary表格,如下:


 

上图中标黄的指标R就是多重相关系数,相当于多重线性回归预测值(PRE_1)和因变量实际值(VO2max)的Pearson相关系数。它是判断两者之间线性关系的重要指标,也反映了回归的拟合程度。


一般来说R值在0-1之间分布,数值越大,线性关系越强。在本研究中,R=0.760,提示中高等相关。但必须强调的是, 多重线性回归的结果解释一般并不关注R值,而关注R2 和adjusted R2 值。


(2) 变异的解释程度(R2  和adjusted R2 )


做过多元分析的研究者大多都听说过R2 ,知道R2 是指回归中因变量变异被自变量解释的程度。但很多人对R2 的具体解释存在误解,我们将在这里给大家举例说明。


比如,我们想要预测因变量值,最简单的办法就是运行空模型,即回归中仅有因变量,没有自变量。这时,最佳预测值就是因变量的均数。当然这种空模型也是最差的预测模型,所有自变量对因变量预测值的影响都被我们忽略了。但是在这种空模型中,我们可以估算出回归预测的总变异。


随后,我们把相关的自变量重新放入回归模型,再次估算回归变异程度。因为自变量可以在一定程度上影响或解释因变量的变化情况,加入自变量后的变异会比总变异小。这个减少的部分就是R2 值,即自变量解释因变量变异的程度。


     

从上表可知,本研究中R2 =0.577,提示自变量可以解释57.7%的因变量(VO2max)变异。但是,R2 是基于样本数据计算出来的,会夸大自变量对因变量变异的解释程度。而另一个指标adjusted R2 的计算方法不受纳入模型自变量个数的限制,相较于R2 准确性更好。


 

本研究中,adjusted R2 =0.559,小于R2 =0.577,校正了R2 中总体自变量对因变量变异解释程度的夸大作用。在汇报结果时,adjusted R2 更能代表自变量对因变量变异的解释程度。当然,如果能同时汇报adjusted R2 和R2 值更好。此外,adjusted R2 也是影响程度的评价指标。本研究中,adjusted R2 =0.559,提示具有高影响强度。


(3) 模型的统计学意义


SPSS输出ANOVA表格,如下:


 

该表中各指标的含义如下:



结果显示,本研究回归模型具有统计学意义,F(4,95)=32.393,P<0.001,提示因变量和自变量之间存在线性相关。这个检验的零假设是多重相关系数R=0。如果P<0.05,就说明多重线性回归模型中至少有一个自变量的系数不为零。同时,回归模型有统计学意义也说明相较于空模型,纳入自变量有助于预测因变量;或说明该模型优于空模型。


注释:如果SPSS输出的结果中“Sig”值为“.000”,代表的是P<0.001,而不是P=0.000。同时,如果P>0.05,我们最好在报告中写清楚具体数值,如P=0.092,从而读者提供更多的信息。


3. 回归系数的解释


本研究的回归方程可以表示为:


VO2max = b0 + b1 × age + b2 × weight + b3 × heart_rate + b4 × gender


其中,b0是截距,b1-b4是斜率。如果可以得到这5个指标,我们就可以根据自变量(年龄age,体重weight,心率heart_rate和性别gender)预测因变量(最大携氧能力 VO2max )了。SPSS对回归截距和斜率的输出结果如下:


 

在SPSS中,截距被称为“Constant”,即87.830,如下:


 

实际上,我们并不是关注回归的截距指标。它是指当自变量值都为0时,因变量的值。这种截距值并不是真实存在的,为了避免对数据的过度挖掘,我们在这里不再进一步讨论。根据P值,我们可以判断截距的统计学意义,如下:


 

P<0.001,提示该研究的截距与0之间的差异有统计学意义。同样地,我们也不是十分关注这个指标。我们主要的关注指标是回归的斜率,以年龄为例,如下:


 

从上图可以看出,年龄的斜率为-0.165。一般来说,斜率代表的是自变量每改变一个单位因变量的变化值,即年龄每增加1岁,最大携氧能力就会降低0.165 ml/min/kg。因为年龄的斜率是负值,所以当年龄增加时,最大携氧能力降低。同样地,如果斜率是正值,那么每当年龄增加,最大携氧能力也会增加。


从另一个角度来说,该研究结果具有专业意义,人体最大携氧能力就是随着年龄的增加而降低的。同时,我们还需要注意到,这种最大携氧能力随年龄的变化情况是在控制了其他几个自变量的情况下计算出来的。只要其他几个自变量的数值不变,年龄每增加1岁,最大携氧能力就下降0.165 ml/min/kg。


此外,我们也可以对斜率进行一些运算。如,我们希望计算年龄每增加10岁人体最大携氧能力的变化情况,只需要将斜率0.165 ml/min/kg×10。即,年龄每增加10岁,人体最大携氧能力降低1.651 ml/min/kg。


根据SPSS结果,我们也可以得到斜率的可能范围,如下标黄部分:


 

从表中可以看出,年龄斜率的95%置信区间在-0.290~-0.041ml/min/kg(Lower Bound,Upper Bound)。同时,在Sig栏可以得到斜率的统计学检验结果,如下:


 

斜率的P值为0.010(在报告中应记为P=0.010),提示斜率值与0的差异有统计学意义,也说明最大携氧能力和年龄之间存在线性关系。如果斜率的P值大于0.05,证明斜率没有统计学意义,即斜率值与0的差异没有统计学意义,说明因变量和自变量之间不存在线性关系。


其实,95%置信区间与P值之间是有一定联系的。如果95%置信区间中不包含0(如0.018~0.056),斜率一般是具有统计学意义,即P<0.05。如果95%置信区间中包含0(如-1~3),斜率没有统计学意义,即P>0.05。


同样地,我们也可以解释该多重线性回归中其他连续型自变量的斜率。如,体重每增加1 kg,最大携氧能力下降0.385 ml/min/kg;心率每增加1 bpm,最大携氧能力下降0.118 ml/min/kg。


但值得注意的是,当自变量是分类变量时,我们就不能再按照连续变量的方法解释。以本研究中的性别变量为例,它的斜率是指不同类别之间的差异。在录入数据时,我们将女性录入为0,男性录入为1。SPSS自动默认是以0组为参照,将1组与0组进行对比,即将男性与女性进行对比。该研究中性别变量的斜率是指这两个性别之间最大携氧能力预测值的差异,如下:


 

从上图可以看出,性别的斜率是13.208,提示男性的最大携氧能力预测值比女性高13.208 ml/min/kg(控制了其他自变量)。从专业的角度上看,男性的平均最大携氧能力也确实高于女性。同时,我们也可以按照连续变量的分析方法,解释性别变量的95%置信区间和P值,不再赘述。


最后将上述系数代入回归方程,得:


VO2max = 87.83 – 0.165×age –0.385×weight –0.118×heart_rate + 13.208×gender


4. 预测因变量


进行多重线性回归分析的主要目的之一就是通过自变量预测因变量。在本研究中,研究者之所以建立最大携氧能力与年龄、体重、心率和性别的回归模型,是希望通过这些自变量预测最大携氧能力,以代替昂贵、复杂的检测手段。


这一节,我们从根据回归方程预测因变量开始,逐步向大家介绍计算预测值和95%置信区间的SPSS操作方法及对预测结果的解释。


(1) 根据回归方程计算预测值


根据SPSS结果,我们得到本研究的回归方程如下:


VO2max = 87.83 – 0.165×age –0.385×weight –0.118×heart_rate + 13.208×gender


比如,我们希望预测一位30岁男性患者的最大携氧能力,体重80kg,心率133 bpm:


预测最大携氧能力= 87.83 – 0.165×30 – 0.385×80 – 0.118×133 + 13.208×1 = 49.59 ml/min/kg


即30岁男性(体重80kg、心率133 bpm)最大携氧能力平均预测值为49.59 ml/min/kg。这个预测值有两种含义。


第一,如果我们调查了目标人群中所有的30岁男性(体重80kg、心率133 bpm),他们最大携氧能力的平均值应为49.59 ml/min/kg。第二,如果某位受调查者符合30岁、男性、体重80kg以及心率133 bpm的条件,那么49.59 ml/min/kg是其最大携氧能力的最佳估计值。


第二种含义比较难理解,在此具体说明一下。大家都知道,即使两个人上述各指标都相同,他们实际的最大携氧能力也可能不同。我们用平均值描述他们的情况比用某一个人的实际值好,即预测平均值更能代表群体情况。


(2) 预测值和95%置信区间的SPSS操作方法


相较于上述(1)的计算方法,SPSS操作可以估计预测值的95%置信区间。我们仍以30岁、男性、体重80kg、心率133 bpm为例,向大家介绍预测值和95%置信区间的SPSS操作方法。


① 点击Analyze→ General Linear Model→ Univariate



出现下图:


 

② 将因变量VO2max放入Dependent Variable框内,自变量age、weight、heart_rate和gender放入Covariate(s)框内


 

③ 点击Paste,出现IBM SPSS Statistics Syntax Editor窗口如下:


 

④ 在/DESIGN= age weight heart_rate gender上方插入/LMATRIX=ALL 1 30 80 133 1,如下:


 

语法解释:在只有一个自变量的简单线性回归中,LMATRIX命令允许加入自变量的数值。/LMATRIX=ALL 1 30 80 133 1语句中各部分的含义如下:


  • ALL指同时运用斜率和自变量进行预测;

  • 1 指纳入回归截距;

  • 30 指用来预测因变量的自变量age的值;

  • 80指用来预测因变量的自变量weight的值;

  • 133 指用来预测因变量的自变量heat_rate的值;

  • 1指用来预测因变量的自变量gender的值(0=女性;1=男性)。


值得注意的是,/LMATRIX=ALL 1 30 80 133 1中各自变量数值的顺序必须与“/DESIGN=”行中各自变量的排列顺序一致,如下:


 

⑤ 点击Run→ All,输出结果:


 

(3) 预测结果的解释


预测结果在Contrast Results(K Matricx)中展示,如下:


 

从Contrast Estimate可以看出,30岁男性(体重80kg、心率133 bpm)的最大携氧能力预测值为49.63 ml/min/kg。这与回归方程得到的结果(49.59 ml/min/kg)略有不同,原因在于SPSS保留的运算位数多于直接计算,结果也更准确。


同时,SPSS操作还提供了其他结果。如,预测值的标准误(Std. Error)是0.839 ml/min/kg,提示预测值的变异程度。再如,预测值的95%置信区间(Confidence Internal for Difference)为47.962 - 51.294 ml/min/kg。


但必须注意的是,我们这里提到的置信区间是预测平均值的置信区间,而不是单个预测值的置信区间。如果我们希望根据某个受试者的年龄、体重、心率和性别预测最大携氧能力,可以使用回归方程进行计算,但是得到的区间估计不是置信区间,而是预测区间。由于个体观测值的不稳定性,预测区间往往比置信区间大。同时,个体预测的预测区间不能通过SPSS自动计算得到。在本章节,我们只需要记得个体预测的预测区间与样本预测的置信区间不同即可。

六、撰写结论

1. 简洁汇报


本研究采用多重线性回归,根据性别、年龄、体重和心率预测最大携氧能力。回归模型具有统计学意义F(4,95) = 32.393(P<0.001),调整R2 =0.56。纳入模型的4个自变量对最大携氧能力的影响均有统计学意义(P<0.05),具体结果见表1。


表1. 多重线性回归结果


2. 具体汇报


本研究采用多重线性回归,根据性别、年龄、体重和心率预测最大携氧能力。通过绘制部分回归散点图和学生化残差与预测值的散点图,判断自变量和因变量之间存在线性关系。


已验证研究观测值之间相互独立(Durbin-Watson检验值为1.910);并通过绘制学生化残差与未标化的预测值之间的散点图,证实数据具有等方差性。回归容忍度均大于0.1,不存在多重共线性。异常值检验中,不存在学生化删除残差大于3倍标准差的观测值,数据杠杆值均小于0.2,也没有Cook距离大于1的数值。Q-Q图提示,研究数据满足正态假设。


回归模型具有统计学意义F(4,95) = 32.393(P<0.001),调整R2 =0.56。纳入模型的4个自变量对最大携氧能力的影响均有统计学意义(P<0.05),具体结果见表1。


表1. 多重线性回归结果


相关阅读

1. SPSS实例教程:自变量多重共线性怎么办?

2. SPSS教程:做多重线性回归,方差不齐怎么办?

3. SPSS详细操作:正态转换的多种方法

医咖会微信:medieco-ykh

关注医咖会,轻松学习统计学!


我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。


点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存