多重线性回归模型构建好啦,咋进行预测?不要告诉我你只会手算!
在前面两期内容中,我们已经详细介绍了多重线性回归的适用条件,SPSS操作实现过程,并对输出结果进行了详细解读。详见:
在构建多重线性回归模型后,我们往往需要根据回归模型来估计和预测因变量的值及其变化,这一期内容我们就来详细地为大家介绍一下如何利用回归模型进行预测,以及SPSS软件的操作实现过程。
一、研究问题
结合前两期的研究实例,我们利用多重线性回归模型探讨了年龄,体重,心率和性别对VO2 max的影响,回归方程如下:
VO2 max = 87.83 – 0.165 * age – 0.385 * weight – 0.118 * heart_rate + 13.208 * gender
那么在不易直接测得VO2 max的情况下,如何通过一个人的年龄,体重,心率及性别,来预测其VO2 max及95%可信区间呢?
现在我们假设有一名30岁的男性,体重80kg,心率120次/min,需要根据回归模型来预测他的VO2 max。
二、公式计算法
很简单,现在既然已经有了回归模型的公式,又已知该研究者的各项参数,我们第一个想到的方法就是将各个参数带入方程,直接进行计算即可,如下:
VO2 max=87.83 – 0.165 * 30 – 0.385 * 80 – 0.118 * 120 + 13.208 * 1=51.128ml/min/kg
当然,带入回归方程计算很直观也很简单,但是方程计算的结果只能对其点值进行预测,无法估算其95%可信区间。而且当方程较为复杂,参数较多时,方程计算就会显得繁琐而效率低下,我们还是希望能够借助统计软件,来帮助我们自动实现这一预测过程。
三、SPSS软件实现
既然我们有SPSS这样简单又好用的神器,就可以省掉手工计算的麻烦,所有的计算过程都可以交给SPSS来实现,下面我们就来介绍一下如何利用SPSS软件来实现基于多重线性回归模型的个体预测功能。
1. 选择Analyze → General Linear Model → Univariate
在Univariate对话框中,将VO2 max选入Dependent Variable,将age,weight,heart_rate,gender选入Covariate(s)中。
2. 点击Paste,进入IBM SPSS Statistics Syntax Editor界面,也就是SPSS的语法编辑界面。
什么?SPSS也可以编辑语法?其实也不必感到惊讶,SPSS作为IBM旗下的专业统计软件,语法编辑也不是什么新鲜事物,虽然它不像SAS,R软件的语法功能那样强大,我们也不用去掌握它的语法结构,其实只需要知道如何更改它的参数,就可以在日常的统计分析工作中,省去很多重复性的操作,带来很多的便利。
下面我们就对SPSS自动生成的这段语法代码进行小小的修改,以达到我们想要基于多重线性回归模型实现预测的目的。
在这里需要用到LMATRIX这个命令,在/CRITERIA和/DESIGN两行代码之间插入一行代码,如下:
/LMATRIX=ALL 1 30 80 120 1
下面我们对这段代码进行一个简单的解释,帮助大家来理解。
LMATRIX:该命令表示允许在多重线性回归中输入每个自变量的值来进行预测。
LMATRIX=ALL:表示利用截距和所有自变量来进行多重回归模型的预测。All后面的1表示SPSS进行预测计算时要求包含截距项。
30 80 120 1分别对应的是各个自变量的参数,即age(30岁),weight(80kg),heart_rate(120次/min),性别(男性=1)。注意此处所列参数的顺序一定要与/DESIGN这一行自变量的顺序保持一致。
3. 选择Run → All或者用鼠标选中所有语法,点击上方的绿色三角形,表示运行选中的代码。
4. 结果解读
在输出结果的Contrast Results(K Matrix)表格中,Contrast Estimate显示了VO2 max的预测值为51.162 ml/min/kg,95%CI为(48.988,53.336)ml/min/kg。
我们发现SPSS软件计算的预测值51.162比我们之前利用方程手工计算所得的51.128稍微大一点,这是因为在上面的回归方程中,各个自变量的偏回归系数均只保留了3位小数,而SPSS在计算过程中则利用了更加精确的小数位数。
因此当方程较为复杂,手工计算较为繁琐的情况下,我们还是建议利用SPSS计算过程来实现更加精确的预测结果。
5. 结论
一名30岁的男性,体重80kg,心率120次/min,根据所构建的多重线性回归模型,其VO2 max的预测值为51.162 ml/min/kg,95%CI为(48.988,53.336)ml/min/kg。
四、问题与思考
自此,关于多重线性回归,我们已经介绍了它的适用条件,SPSS操作过程,条件验证和结果解读,以及利用模型进行预测。但是在实际的研究中,我们收集的数据往往很难同时满足所有的适用条件,当其中一个或几个条件不成立时,是否还能继续使用多重线性回归模型呢?面对这种情况又该如何进行处理呢?我们将在后面的内容中进行详细介绍。
统计学精彩教程回顾
关注医咖会,轻松学习统计学!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和其他小伙伴们一起交流学习;或者点击公众号下方自定义菜单的“统计咨询”,提出你遇到的统计难题。
点击左下角“阅读原文”,看看既往小伙伴们都提出了哪些问题,以及该如何去解决,也许正好能解答你的困惑呢!