查看原文
其他

回归诊断中的观察值独立性问题

老郑 医学论文与统计分析 2022-10-07


诸位,本公众号已经形成包括“样本量估算方法”“医学研究进展”“Meta分析简明教程”“统计视频”(R、医学统计学、妙趣统计学)、“科研资源合集”、“如何分析真实世界研究数据”等系列,有兴趣朋友们可以关注。


“如何分析真实世界研究数据”系列(10)


本号在上一篇论文中,指出线性回归方法要求LINE的,其中I指的是独立性,要求因变量各观察值之间相互独立。独立性问题是回归分析重要的前提,无论是线性回归、logistic回归、还是COX回归均要求观察值相互独立(更多学习:开展回归分析,必须要了解回归诊断的原理与方法

 

一般情况下,独立性问题可以基于主观判断即可,不需要特别复杂的方法来进行判断,当然线性回归有Dubin-watson检验,logistic和COX回归一般没有。

 

虽然独立性问题本质上对回归结果影响不大,但是统计学学习时很多人会独立性问题,因此现在专门举例进行解释。

 

所谓的独立性,不是指观察值是否独立,而是指残差是否独立

案例分析

分析一个班级同学的期末医学统计学成绩,探讨它的的影响因素。主要变量包括:医学统计学成绩、性别、“上个学期成绩等级”、“期末复习时间”四个。

 

观察值存在着聚集性

从一个班级的成绩总体来看,成绩显然存在着各团体内部相关性。


首先,女性成绩都很高、男性成绩都不高,因此女性个体成绩存在着相关性,男性个体成绩也有相关性,看起来成绩是不独立的。

 

同样,如果把这些同学根据“上个学期成绩等级”综合排名分为1-4等,我们很可能发现每个等级中的医学统计学成绩都很相似,显然同等级成绩存在着聚集性或者不独立。

 

但观察值不独立不代表残差不独立,需要进行残差分析来判断

构建模型,进行残差分析

模型一:

首先,我们建立一个不包括性别与“上个学期成绩等级”,只包括“期末复习时间”自变量的单因素线性回归方程,因变量是期末考试成绩


这一回归得到的残差如下,数据没有均衡地分布在0水平线上。它显然没法解决性别、“上个学期成绩等级”人群聚集性问题。

模型二:

现在再建一个回归模型,除“期末复习时间”变量之外,再纳入一个“性别”自变量,得到的新的残差图。结果是残差图表现变好,在值上下方分布相对均衡;

模型三:

现在在模型二基础上,建立第三个回归模型,除“期末复习时间”、性别、再纳入“上个学期成绩等级”。结果显示,残差分布更为均衡(虽然可能存在着方差不齐的情况)

总结

所以,独立性的问题,本质不是因变量这一观察值的事情,而是残差是否独立的问题。残差是否独立,本质原因是,缺乏合适的变量来解释因变量观察值相关性。


比如传染病发病,往往存在着 严重聚集性,观察个体是否发病往往明显相关,都是有传染源造成的。在这种情况下,很难有相应的方法来解释聚集性问题,因此,很多传染病的的回归分析(通常是logistic)是没法应用的。


独立性的条件,不仅是线性回归分析的要求,而且也是logistic回归、COX回归的要求。诸位在构建回归模型时要初步判断是否符合条件。


本讲到此结束!请继续关注其它文章:

1.重磅:十大资源免费速递,总有一种是你想要的!为2020年国家自然基金助力!

2.如何基于HIS系统开展真实世界研究?清开灵注射液治疗缺血性脑血管疾病的疗效评价

3.【周一资源下载】如何让excel绘制出精美的统计图!欢迎分享下载

4.怎么样才能在顶级医学杂志发表Meta论文? 一起来解剖最新川大华西医院BMJ 杂志Meta分析报告

5.周一资源下载:如何利用临床数据库发表论文?精选临床预测模型视频合集

6.《新英格兰医学杂志》宣布弱化P值的地位



诸位,本公众号现在已经形成包括“样本量估算方法”“医学研究进展”“论文的统计表达方法”“统计视频”(R、医学统计学、妙趣统计学)、“科研资源合集”、“如何分析真实世界临床研究数据”等系列,有兴趣同仁们可以关注。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存