内容来自:“小白学统计”微信公众号,感谢作者授权。在回归分析中,经常看到多变量回归、多因素分析、多重线性回归、多元logistic回归等诸如此类的名词。这些所谓的多变量、多因素、多重、多元,是否一回事?很多初学者都会比较迷惑,本文主要对此做一阐述。
回归分析中,主要就是因变量和自变量,大多数的回归模型的形式都是如下所示:因变量(或因变量的变换)=截距+回归系数*自变量(可以是多个自变量)
因此,关于多变量、多因素、多重、多元,也就是如何对应因变量和自变量。为了简单起见,下面都以线性回归为例来说明,其它如logistic回归、Poisson回归等都一样。简单线性回归模型(simple linear regression model)是指1个因变量、1个自变量的模型,如下:
(2)多因素(multivariable)或多重(multiple)线性回归
多变量线性回归或多重线性回归(multivariable or multiple linear regression)是一回事,是相对简单线性回归而言。简单线性回归只有1个自变量,多因素线性回归或多重线性回归则是有多个自变量。但它们都是只有1个因变量,模型如下:(3)多元或多变量(multivariate)线性回归多元或多变量线性回归模型(multivariate linear regression model)是指多个因变量的回归模型。多元方差分析或多变量方差分析,它们都是什么意思呢?主要适用于像重复测量数据这种情况,在重复测量数据中,每个人测量了多次,有多个结局变量(因变量),因此是多元方差分析。多因素方差分析主要用于什么情形呢?通常用于有多个分组变量(自变量),如析因设计中至少有2个分组变量,这种情况下,采用的是多因素方差分析。这里的“因素”是指自变量,因此不是多元方差分析。
有些分类比较清楚的统计软件,其实分的很清楚,尤其是一些菜单结构的。比如下图是SAS jmp软件的菜单,可以看出,在多元方法的菜单中,不是回归分析,而是主成分分析、因子分析、偏最小二乘回归等方法。为什么呢?因为回归分析除非特指,一般我们默认的都是1个因变量,但是自变量可以是1个或多个。而主成分分析、因子分析等这些方法,都是针对多个因变量的(不清楚的可以回去翻翻书),所以是多元方法。
在《Multivariate or Multivariable Regression?》(Am J Public Health. 2013; 103(1): 39–40.)这篇文章中,作者分析了30篇声称使用了多元(multivariate)方法的文章,结果发现,其中只有5篇是真正使用了多元(multivariate)方法,主要是纵向数据(即重复测量数据),其余25篇其实是多因素分析(multivariable analyses),主要是logistic回归。有的文章中则是multivariate和multivariable在交互替代使用,把它们当做一回事。由此可见,关于多重、多因素、多元、多变量等这些我们似乎每天都挂在嘴边的名词,其实并不是像我们想象的这么简单。即使在国际期刊,名词混用的也大有人在。
希望通过本文介绍,大家以后可以区分这些基本概念,在文章撰写时更加严谨。
当然,本文说的主要是医学统计学中的一些区分,或许在有的领域并没有区分这么明显。因为我有一篇文章,提到了多因素分析和多元分析的不同,结果有一位数理统计的老师给我的审稿意见是:在数理统计学中,多元(multivariate)就是多因素(multivariable),不用区分。我个人没有在工科的学校学过,所以非常希望有数理统计老师明确告知,数理统计中,是否真的不区分这两个概念?
由医咖会与心联乔治心脏健康研究中心(HHRC)联合建立的心血管研究协作网络及数据共享平台(CDS)已经上线!
目前开放共享的数据为“中国房颤注册研究”,共有2.5万多房颤数据,欢迎来申请使用数据,发表SCI论文!
平台网址:
https://cds.mediecogroup.com/
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看全部统计教程。
快加小咖个人微信(xys2019ykh),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。