卢沙野大使接受法国LCI电视台直播专访

【少儿禁】马建《亮出你的舌苔或空空荡荡》

外交部迅速反应:严正抗议美冻结全国人大14位副委员长资产,中方将反制

达赖叛逃时把人皮、头骨法器都送给了谁(胆小慎入)

列宁会如何看待宝马MINI“冰淇淋事件”

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

多因素线性回归分析,为什么和单因素回归结果不一样?

郑老师 医学论文与统计分析 2022-10-07

第20讲 观察性研究统计策略(5):

多因素回归分析


现况调查和队列研究,以及实验性研究,多因素回归都是重要的手段,相比,单因素回归,它的结果距离因果关系的目的更进一步了。因此,一般情况下,统计分析只有在进行了多因素回归之后,才说自变量是影响因素,更准确地说是独立的影响因素,而单因素只能探讨相关性,或者探索因果关联性的可能性。

现况调查的分析过程及多因素回归分析的位置


本文结合实例来分析,为什么多因素回归的结果才能拿过来下统计结论?为什么单因素回归和多因素回归结果会不同。

实例分析


例1:研究究高血压患者血压与性别、年龄、身高、体重等变量的关系,随机测量了32名40岁以上的血压y、年龄X1、体重指数X2、性别X3,试建立多重线性回归方程。数据文件见mreg2.sav。




1



统计分析策略

本研究既然研究多个影响因素,那么必然要考虑多因素的线性回归分析。

(1)多因素线性回归介绍

相对简单线性回归(又称单因素线性回归),多因素线性回归,常用的说法包括多重线性回归、多变量线性回归,还有个常用但是不太正确的说法是多元线性回归。


多因素线性回归公式如下:

对于样本,

对于总体,
其中,bk、、βk:在多重线性回归中,被称之为偏回归系数,表示每个自变量都对y部分的产生了影响。意义与简单线性回归结果相似,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。

ϵ为残差,无法解释的变异部分。多因素线性回归,参与了更多的自变量来解释y的变异,因此一般残差能控制在较低水平。

 (2)能否用多因素回归分析?

对于能否采用回归分析,采用什么样的回归方法,受到以下基本条件制约:自变量x和应变量y理论上有没有因果关系、结局y的资料类型,以及x、y是否存在着线性关系。当然,回归分析必须满足更多的条件。

线性回归总的条件如下:
自变量x和应变量y理论上有因果关系。
结局y是定量变量 。
各x与y存在着线性关系。
此外,还有正态性、独立性方差齐性的条件。本文讲在下一讲解释。

上述高血压的案例上述条件都满足。因此,可以开展多因素线性回归,探讨各个因素对血压的影响。

多因素线性回归SPSS操作


1



线性回归分析入口

线性回归分析SPSS分析入口:分析-回归-线性





2



线性回归主界面

①血压是结果变量,放入因变量
②年龄、性别和体重指数是原因变量,放入自变量
③选项可以计算预测值和残差




33


多因素线性回归分析的结果


线性回归分析主要结果:


对于本结果,

①回归系数b值,统计学上称为偏回归系数

②回归系数的抽样误差,即标准误

③Beta值,它是标准化b值,标准化回归系数。可以用来比较各个自变量x对y的影响程度。它回答以下问题:年龄、性别和体重指数,到底谁对y的影响更大。在本例中,年龄对血压的改变影响最大(它解释了血压最大程度的变异)。


④t值,是各个回归系数进行假设检验的检验统计量,线性回归检验统计量为t值。

⑤显著性:即P值。P<0.05说明自变量与因变量回归关系成立,有关系,有影响。


从表格结果来看,本研究结果显示,年龄对血压的影响的存在着统计学差异(b=1.24,P<0.001);男性相对女性,提高了血压值(b=-8.721,P=0.002),体重指数对血压的影响的没有统计学差异(b=0.509,P=0.052)。


可以通过下表来看预测值和残差结果


在数据库中,可以发现增加了PRE_1(预测值)和RES_1(残差) ,两组相加,刚好是y“血压值”。


上述就是多因素线性回归最基本的SPSS教程,更多的操作,更多的结果解读(比如R2值,ANOVA分析),请关注后续若干篇文章。




42



多因素回归分析结果表达

纳入年龄、体重指数和性别构建多因素线性回归方程。结果发现,不同年龄(岁)对血压的影响有统计学差异(b=1.24,t=5.39,P<0.001),不同的性别(男性较女性)对对血压的影响有统计学差异(b=-8.72,t=3.45,P=0.002),不同的体重指数对血压的影响没有统计学差异(P=0.052)。

更多关于多因素回归


1.为什么多因素回归分析结果和单因素回归分析结果不一致?
经常有人问,为什么单因素回归分析P<0.05,多因素回归分析回归系数发生了明显变化,甚至P值变得大于0.05了呢? 

这个问题,一直以来困扰着大多数研究者。我今天不成熟地来谈一谈常见的原因(其实很复杂)。

造成该现象的原因在于,多因素回归分析时自变量直接存在相关性,或者很多时候我们说是多重共线性(即使程度很轻)。变量与变量复杂的关系,将影响模型构建的成功率,造成回归系数变动。

单因素线性回归的回归系数,解释是反映的是x对y的影响力,是当X每改变一个观测单位时所引起y的改变量。而多因素回归分析的回归系数解释略有区别,指的是在其它自变量不变的情况下,当x每改变一个观测单位时所引起y的改变量。

若变量之间没有相关,对于某一个自变量而言,多因素和单因素回归分析结果一致;若存在着关系,当控制其它自变量不变时,多因素回归分析结果与单因素回归存在着一定的差异。

比如,对于本例,探讨BMI与结局的关系,
单因素结果如下:b=1.506,P<0.001


纳入年龄后,结果截然不同:b=0.564,P=0.064


为什么b发生了巨大改变,而P值从<0.05变为>0.05了呢?

对体重指数来说,年龄是控制变量。它不在回归模型中时,体重指数建立与血压的建立了回归关系,但它们之间关系不一定真实,事实上本例中二者背后因为年龄默默地搭了线(年龄对BMI有影响,同时年龄对血压也有影响),而多因素回归当控制年龄不变时,两者之间的关系就不复存在。年龄就像一个快递员,建立了两组的关系,当快递员罢工时(当控制年龄不变时) ,体重指数和血压再也联系不上了。医学上称年龄为混杂因素。

因此,多因素回归法分析较单因素回归更能有效控制混杂因素,从而更为准确地探讨自变量对因变量的影响。


除了年龄作为混杂因素,干扰了BMI和血压的关系之外,另外一种重要的关系变量,是中间变量或者中介变量。

比如,对于本例,探讨性别与结局的关系,
单因素结果如下:b=-14.49,P=0.003


如果纳入BMI后,回归系数发生了改变:b=-11.04,P=0.004


这一现象的发生也是源于自变量BMI与性别之间存在着相关。但这种关系背后,BMI指数不再是混杂变量,而是中介变量。性别对血压的作用一定程度上通过BMI发挥作用,性别改变BMI从而改变血压。BMI是性别和血压因果关系链上的中间变量。BMI是拦路虎,当控制BMI不变时,性别与血压的关系通道将被堵死!


因此,自变量之间的关系造成了单因素回归结果不同于多因素回归结果,主要原因是第三变量的干扰,干扰因素可以分为混杂和中介两种类型。今后诸位如果构建回归方程如果碰到单因素和多因素不一致时,可以从这两个角度来分析原因。

我将在后续文章中,讨论如何在考虑混杂和中介的情况下,构建一个合适的回归模型,敬请留意。

2. 为什么要采用多因素回归,而非单因素回归?

主要原因,有2点:
第一,单因素回归无法有效预测结局。线性回归重要的作用是通过回归根据各原因变量预测结局y。我们都知道,真实世界中,一个现象的发生背后原因非常之多,单因素回归,远远不能解释结局发生的变异性,因此,无法有效预测结局变量的y大小,造成遗留的无法解释的残差变异度很高。要预测现象的发生,尽量可能把更多的原因纳入线性回归模型,这样更多的自变量一起,更能够全面描述结局变量的变异性产生原因,从而更好地预测结局。

第二,单因素回归的回归系数不代表真实的x与y的因果关系。回归分析在医学上,另外一个重要功能是探讨影响因素。探讨影响因素,意味着我们希望解释某一个现象发生的原因是什么?有哪一些?影响程度有多大。单因素回归也在探讨以一个候选的、理论上具有因果关系的变量,实际上能否通过回归模型进行验证。但是,单因素回归的回归系数以及P值是一种探索性的分析。不代表着两者真实的因果关系。

实际分析中,单因素回归分析结果和多因素分析结果往往是不同的。因为多因素回归分析结果,是排除了其它干扰因素(主要是混杂因素,但不是中介变量)影响后,自变量对因变量的作用。因此多因素回归,我们可以说自变量是因变量独立的影响因素。这意味着它能够在其它变量不变的情况下,单独地、而非借助第三变量的“光芒”,对结局y产生了影响。

3.线性回归分析要求的条件不少
本文提到了线性回归,要求变量之间应具有因果关系、定量数据、线性关系。数据不符合要求者,谨慎开展线性回归分析。除此之外,线性回归还要求正态性、独立性、方差齐性三个条件。我将在后续展开介绍。

SPSS 课程视频和操作录屏

SPSS课程视频

带字幕去水印的视频可复制以下地址浏览器打开
https://evod.zcmu.edu.cn/resource.html?stationID=1&resourceid=440&isprivate=false&cateid=102

SPSS课程录屏


-本讲结束-


欢迎关注本公众号,我们是资源的搬运工,所有科研资源全部免费下载:

1.  医学统计学习全套视频,妙趣+高级+SPSS+测试题,让你从入门到精通!
2.  重磅资源:100本“临床试验与统计学方法”英文书籍大放送!
3.《中国统计年鉴》1978-2019,巨量呈现40年全国各行业指标(包括卫生、人口在内)!
4.  最新!2019年卫生健康统计年鉴来了!2006-2019中国卫生统计年鉴合集下载
5.  公共卫生研究必备:5次国家卫生服务调查100万居民分析报告
6.  重磅推荐:全网最全的医学统计相关软件,免费下载,均已破解
7.  如何制作与分析量表?中英文权威书籍来帮忙。
8. 绝对干货满满!“2019年真实世界研究杭州培训班” 6讲PPT可以下载了!
9. 最新Win和MAC版统计软件SPSS 26.0、Stata16.0和Graphpad prism8.0
10.精选R语言入门学习资源:视频+文档,初学者者必备!

欢迎关注,本号为论文写作与统计学习社群

有统计问题或科研合作请关注后加小编微信

文章有问题?点此查看未经处理的缓存