查看原文
其他

如何通俗理解线性回归? | 2周掌握统计学与SPSS(16)

郑老师 医学论文与统计分析 2023-10-23

朋友们!“14天学会统计学与SPSS"公益课上线了!公益网络视频课定期开课,欢迎您参与学习。


本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课!绝对不是骗人入坑收费的广告。

您不妨点击了解详情

1.本课程的详细介绍      2.往期学员评价
如果您真的愿意学习,发送“打卡”到本公众号,加入微信学习群吧。骗人?不存在的。你们能够学会医学统计学,我将视为这是一种成就。
本课程的课件如下:【绝对精品】这套954张PPT的医学统计学教程,现在公开赠送!
此外面向医务工作者,我们也开设“统计与SPSS课程一门医学统计学与SPSS完美结合的统计课,你值得拥有
更多2022年科研实战课程请点击查看

临床试验数据分析、重复测量资料分析、R语言、医学统计与SPSS等



Day 16:简单线性回归的历史与基本方法

本日学习任务

1. 微信群内视频2段 (共31分钟)2. 公众号公开推文1段:Day163. 微信群内测试题4. SPSS实操和群内讨论建议先观看视频,再看本推文再测试,否则效果不佳!

以下文字版教程,短期内会失效,如需获得全套视频课程,以及永久版的文字版教程,请加入公益免费课程群(发送“打卡”到公众号),全面学习医学统计学与SPSS应用

无论实验性研究还是观察性研究,线性回归分析十分重要,尤其是现况调查和队列研究。在现况调查中,回归分析既可以初步探索变量与变量的关系,也可以通过多变量的回归分析开展复杂关联性分析(下图)。

现况调查的分析过程及回归分析的位置


学习回归分析,首先得了解回归的历史,模型的定义,建模的意义等,本文将基于简单线性回归,来帮助大家全面了解线性回归分析。

回归分析的历史


“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。

1855年, 高尔顿发表《遗传的身高向平均数方向的回归》一文,他和他的同事通过观察1078对夫妇的身高数据,他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。当父母越高或越矮时,子女的身高会比一般儿童高或矮。

他将儿子与父母身高的这种现象拟合出一种线形关系,分析出儿子的身高y与父亲的身高x大致可归结为一下关系: 

Y= 0.8567+0.516*X (单位为米); 

假如父母辈的平均身高为1.75米,则预测子女的身高为1.7597米。 这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加0.516个单位。这就是回归一词最初在遗传学上的含义。 

有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个父母所 生的儿子比其父要高,身材较高的父母所生子女的身高却回降到多数人的平均身高。换句话说,当父母身高走向极端,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高,即有“回归”到平均数去的趋势,这就是统计学上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均数方向的回归”(regression toward mediocrity)。

“回归”一词正式流传下来,不过后来的统计学看重的不是“向平均数方向的回归”而是高尔顿建立起来的回归方程。这个回归方程是一个函数,它不能准确反映父亲身高和子代身高的关系,但是却可以大致判断,并且在一个群体水平计算父亲身高对子女的影响的平均值,可以从数据上反映父亲身高与子女身高的因果关系。

“回归”逐渐成为根据一种变量(父母身高)预测另一种变量(子女身高)或多种变量关系的描述方法,成为百年来经久不衰的统计学方法。 

回归关系,即一种用数学函数描述的变量的数量依存关系,而且主要是因果关系。

线性回归分析的模型


什么是模型?
模型(model)模型是指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式比如,地球仪是一个模型,它代表着用物理球体来反应真实的地球。

最常见的是用数学的方式来反映客观事物。因此,全球各国有一个注明的数学比赛,叫做数学建模大赛!用数学方法来拟合现实事件发生的一般规律。

统计模型也是一种数学的方式。比如,高尔顿的子代身高问题,我们想关心的是,子代身高到底受什么影响?我们能否预测它,能否用数学的方式预测它?此时,便需要构建数学模型。

高尔顿给出了最为经典,但有十分简单的方式,用一元一次,或者多元一次模型来构建子代身高的模型:

Y= 0.8567+0.516*X (单位为米);

回归模型或者回归函数是一类统计学分析最重要的模型,除了线性回归模型,还有不计其数的各种回归模型,典型还有logistic回归模型,Cox模型,Poisson模型等。本文以线性回归模型为例,来探讨模型结构。

▌线性回归模型定义
线性回归按变量数量的多少可以分为:简单线性回归和多重线性回归。简单线性回归,也就是有一个自变量,数学上表达为一元一次函数,其模型可以表示如下:
上述公式是基于样本得到的结果,b0和b1均为统计量,若该公式拓展到总体人群,则为

公式中参数解释如下:
x:自变量
ŷ:y的预测值
b0 、β0:截距
b1、β1:变量回归系数

其中,关键的指标即为b1和β1,他们称之为回归系数,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。

值得注意的是,这里x是真实的变量值x,而y带了一顶帽子,并非是y的真实值,而是成为y的预测值或者估计值。

实际上,世界上所有的x和y没有严格上一一对应的关系,通过x产生的预测值ŷ,是接近于y但不等于y。

y预测值与y直接的差值我们称之为残差。
残差反映了除了x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。

可以这么来理解ϵ:我们对y的预测是不可能达到与真实值完全一样的,这个真实值只有上天知道,因此必然会产生误差,我们就用ϵ来表示这个无法预测的误差。我们通过引入了ϵ可以让模型达到完美状态,也就是理论的回归模型。

残差ϵ就是没有被解释的部分,是剩下来的变异,是边角料。

再通俗来说,就是x和y完美的关系是不存在的,通过x只能差不多预测y。真实和模型总是有点差别,有些差别大,有些差别小。就如,现在的美女们,照片的美女和实际真人残差很大,很以前的美女,照片和真实简直一摸一样,残差小。以前的照片,残差是粉底;现在的照片,残差都是手机惹的祸,你想要怎么美都行!

结合残差,真实的y和x关系如下:


同样的,多个自变量存在的情况下,多重线性回归模型的表示如下:

 
其中,bk、、βk:回归系数,在多重线性回归中,被称之为偏回归系数,表示每个自变量都对y部分的产生了影响。意义与简单线性回归结果相似,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。

一个回归模型,必然有残差,成功的模型必然也有相应的变量来解释y的变异,但是残差可大可小。一般来说,建立回归模型时,总希望残差尽可能小残差越小,往往意味着更多的y的变异被解释掉了,预测模型更加真实,即Y预测值更接近于Y真实值。

这一“残差越小越好”的思维被运用回归分析中,便成为了回归建模的基本原则,最小二乘原则。

案例分析


例1:现有15例糖尿病患者,测得每位患者的胰岛素和血糖水平。问题,构建回归模型,探讨糖尿病患者胰岛素和血糖水平关系?数据详见lincorr.sav



1


案情分析

本案例为现况调查的数据, 要探讨胰岛素和血糖的关系,两者均为定量变量资料。


2


统计分析策略

对于能否采用回归分析,采用什么样的回归分析,医学研究一般来说最重要的前提是3个,自变量x和应变量y理论上有没有因果关系、结局y的资料类型,以及x、y是否存在着线性关系。当然,回归分析必须满足更多的条件,我讲在后续介绍。这里先做个基本的探讨。

(1)自变量x和应变量y理论上有因果关系。这是最重要的条件,决定着能否开展回归。一般回归分析必须要求两个变量有因果关系,才能探讨原因变量对结局变量单向影响关系以及影响程度。这种因果是一种研究者从常识、专业上提出的理论假设。

比如,小鼠进食量与体重,我们当然知道他们应该会有因果关系,所以可以拿他们开展回归分析,那么线性回归的作用呢,帮助从数据上证实他们的数量依存关系。

又比如,你小的时候,你的身高与您家宠物猫咪重量的关系,这种关系是相关的,随着年龄增加,你在长高,你家宠物的体重也在增加,这种相关不能建立回归!

(2)结局y的资料类型。结局变量是定量还是定性还是等级,采用的回归方法不同,定量资料可以采用线性回归,而分类资料可以采用logistic回归等,此外,更复杂的结局意味着更复杂的统计模型。

(3)x、y存在着线性关系。回归模型是多元一次方程,x与y直接必须有线性趋势,否则无法直接构建回归模型,得需要通过对x或者y的转换,直至回归分析自变量和因变量线性关系成立。

上述两个案例三个条件都满足。

对于案例1,探讨的是定量变量(胰岛素)与定量变量(血糖)的关系。对此,上文其实已经探讨过(直线相关 VS 秩相关:我们该选择哪一种相关分析方法),可以采用线性相关分析来探讨两个变量的关系。而简单线性回归分析也可以探讨两者之间的关系,其P值一致,差异在于线性回归分析侧重于影响程度,而相关分析侧重于相关性大小。


本文更多疑问,请发送关键词4030到本公众号,了解更多答疑

线性回归分析方法SPSS操作


1


线性回归分析入口

本日软件操作的SPSS数据库是lincorr.sav,加入课程群即可获得。

线性回归分析SPSS分析入口:分析-回归-线性




2


线性回归主界面

 我以案例为例,介绍线性回归主界面。

①血糖是结果变量,放入因变量
②胰岛素是原因变量,放入自变量
③选项可以计算预测值和残差



33

简单线性回归分析的结果


案例的分析结果:


对于本结果,
①是回归系数b值
②是回归系数的抽样误差,即标准误
③Beta值,其实很多人不太理解,它是标准化b值,标准化回归系数。可以用来比较各个自变量x对y的影响程度的。本例是单因素回归,无法比较,我们将在多因素回归进行进一步介绍。
④t值,是各个回归系数进行假设检验的检验统计量,线性回归检验统计量为t值。
⑤显著性:即P值。P<0.05说明自变量与因变量回归关系成立,有关系,有影响。

本例结果显示,胰岛素对血糖的影响的存在着统计学差异(b=-0.415,P<0.001)。

我们也可以通过下表来看预测值和残差结果(残差均数为零,标准化残差即残差通过z转换变成z值,则其均数为0,标准差为1)

在数据库中,可以发现增加了PRE_1(预测值)和RES_1(残差) ,两组相加,刚好是“血糖值”。

最终得到回归分析方程如下:
   血糖=16.852-0.415×胰岛素

这意味着,胰岛素每增加1个单位,血糖将降低0.415个单位。

上述就是线性回归最基本的SPSS教程,更多的操作,更多的结果解读(比如R ^2值,ANOVA分析),请关注后续若干篇文章。

注意事项


1.回归分析需要因果假设前提,它本身不能发现因果
本文说过,回归分析是探讨因果的,但是它本身不会发现因果,它可以是从数据上证实因果关系。回归分析不是灵丹妙药,你随便给它两个变量,它都能够构建回归方程。

但是,由于回归分析本身意图是探讨自变量对应变量的预测和影响,所以一般情况下,我们首先要提出因果关系的假设,而回归来从数据上证实因果关系。

所以我们建立回归之前,要先想好要因变量和自变量的关系,如果两个 变量没有依存关系,那就不应该去建立回归模型。

比如上文提到你小的时候,你的身高与您家宠物猫咪重量的关系;或者变量因果关系颠倒。两个变量仅仅是相关关系而没有因果。

所以,大家注意,如果你对两个变量的因果关系不是那么明确,很多时候你可以开展回归分析,但是下结论要慎重。你的假设不对的话,回归分析给出的数据也没啥意思了。

2. 单因素回归分析与诸多基本统计学方法结果一致
基本统计学方法包括t、F、卡方、秩和、相关分析。他们都是在探讨相关性,简单线性回归,当只有一个自变量时,其结果与t检验、线性相关分析一致。

对于本文胰岛素和血糖案例,若采用相关分析,则P<0.001与简单线性回归分析结果一样,只不过相关分析给予的是相关系数。

又比如,系列文章的案例:
将出生28天的20只大鼠有些喂养高蛋白和低蛋白饲料,8周后观察其体重(g)。
133,145,112,138,99,157,126,121,139,106,115,118,75,106,87,94,110,102,124,130

比较两种饲料体重是否一致,可以采用t检验。结果如下,两组总体体重总体均数存在着统计差异(t=2.67,P=0.016)

由于结局变量为定量数据,也可以采用线性回归分析,若本例采用简单线性回归分析,t=2.67,P值也等于0.016。结果与t检验一致。

单因素回归分析属于高级统计学方法,但它和t检验、F检验、秩和、相关分析都属于简单关联性研究方法。

2. 单因素回归分析在观察性研究中,不足以探讨因果关系
观察性研究,简单线性回归分析虽然可以探讨原因变量对结局变量的影响及影响程度,但其结果仍无法说明自变量对因变量是否有真正的因果关系,因为观察性就变量的关系受到诸多干扰因素影响,如同t、F、相关分析,简单线性回归也是关联性的分析方法,但不是因果关联性的分析手段。合适的因果关联性分析方法,仍然要借助于多因素回归分析(多变量回归分析)。详细见下一讲。

3.线性回归分析要求的条件不少
本文提到了线性回归,要求变量之间应具有因果关系、定量数据、线性关系,数据不符合要求者,谨慎开展线性回归分析。除此之外,线性回归还要求应变量Y(更严谨来说是残差)符合正态性、独立性、方差齐性三个条件。我将在后续展开介绍。

4. 线性回归,对应变量需要符合正态性的条件,但是对于自变量X来说,没有任何要求,X可以定量、定性、正态、偏态,等级等任何形式的变量。


本文更多疑问,请发送关键词4030到本公众号,了解更多答疑

最后提醒:要学习本推文的完全对应的课程视频,请发送关键词“打卡”入群高校公益免费课程群来学习吧


更多实战课程

2022年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、结构方程模型等9门课。如果您有需求,不妨点击查看:
2022年9门科研培训课程预告:总有一门你能学的。无限次直播,每周答疑!

更多信息

本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。
1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!
2.样本量计算器,免费下载使用,手把手教你计算样本量!
3.绝对值得收藏!原创高清SPSS 操作视频免费下载
4.推荐!这个流行病大神制作的公共卫生研究小工具,可以计算标准化率及置信区间
5.【绝对精品】这套954张PPT的医学统计学教程,现在公开赠送!
6.精制原创11讲短视频下载!零基础者2小时掌握医学统计学基本原理
7.2022年如何学习医学统计学?无偿奉上我们精心制作的医学统计学全套资料
8.超级好用的统计思维导图来了!一步步告诉你如何选择合适统计方法
特别提醒:上述资源每天限分享和下载一个。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存