回归诊断中的观察值独立性问题
诸位,本公众号已经形成包括“样本量估算方法”、“医学研究进展”、“Meta分析简明教程”、“统计视频”(R、医学统计学、妙趣统计学)、“科研资源合集”、“如何分析真实世界研究数据”等系列,有兴趣朋友们可以关注。
“如何分析真实世界研究数据”系列(10)
本号在上一篇论文中,指出线性回归方法要求LINE的,其中I指的是独立性,要求因变量各观察值之间相互独立。独立性问题是回归分析重要的前提,无论是线性回归、logistic回归、还是COX回归均要求观察值相互独立(更多学习:开展回归分析,必须要了解回归诊断的原理与方法)
一般情况下,独立性问题可以基于主观判断即可,不需要特别复杂的方法来进行判断,当然线性回归有Dubin-watson检验,logistic和COX回归一般没有。
虽然独立性问题本质上对回归结果影响不大,但是统计学学习时很多人会独立性问题,因此现在专门举例进行解释。
所谓的独立性,不是指观察值是否独立,而是指残差是否独立
案例分析
分析一个班级同学的期末医学统计学成绩,探讨它的的影响因素。主要变量包括:医学统计学成绩、性别、“上个学期成绩等级”、“期末复习时间”四个。
观察值存在着聚集性
从一个班级的成绩总体来看,成绩显然存在着各团体内部相关性。
首先,女性成绩都很高、男性成绩都不高,因此女性个体成绩存在着相关性,男性个体成绩也有相关性,看起来成绩是不独立的。
同样,如果把这些同学根据“上个学期成绩等级”综合排名分为1-4等,我们很可能发现每个等级中的医学统计学成绩都很相似,显然同等级成绩存在着聚集性或者不独立。
但观察值不独立不代表残差不独立,需要进行残差分析来判断
构建模型,进行残差分析
模型一:
首先,我们建立一个不包括性别与“上个学期成绩等级”,只包括“期末复习时间”自变量的单因素线性回归方程,因变量是期末考试成绩
这一回归得到的残差如下,数据没有均衡地分布在0水平线上。它显然没法解决性别、“上个学期成绩等级”人群聚集性问题。
模型二:
现在再建一个回归模型,除“期末复习时间”变量之外,再纳入一个“性别”自变量,得到的新的残差图。结果是残差图表现变好,在值上下方分布相对均衡;
模型三:
现在在模型二基础上,建立第三个回归模型,除“期末复习时间”、性别、再纳入“上个学期成绩等级”。结果显示,残差分布更为均衡(虽然可能存在着方差不齐的情况)
总结
所以,独立性的问题,本质不是因变量这一观察值的事情,而是残差是否独立的问题。残差是否独立,本质原因是,缺乏合适的变量来解释因变量观察值相关性。
比如传染病发病,往往存在着 严重聚集性,观察个体是否发病往往明显相关,都是有传染源造成的。在这种情况下,很难有相应的方法来解释聚集性问题,因此,很多传染病的的回归分析(通常是logistic)是没法应用的。
独立性的条件,不仅是线性回归分析的要求,而且也是logistic回归、COX回归的要求。诸位在构建回归模型时要初步判断是否符合条件。
本讲到此结束!请继续关注其它文章:
1.重磅:十大资源免费速递,总有一种是你想要的!为2020年国家自然基金助力!
2.如何基于HIS系统开展真实世界研究?清开灵注射液治疗缺血性脑血管疾病的疗效评价
3.【周一资源下载】如何让excel绘制出精美的统计图!欢迎分享下载
4.怎么样才能在顶级医学杂志发表Meta论文? 一起来解剖最新川大华西医院BMJ 杂志Meta分析报告
5.周一资源下载:如何利用临床数据库发表论文?精选临床预测模型视频合集
诸位,本公众号现在已经形成包括“样本量估算方法”、“医学研究进展”、“论文的统计表达方法”、“统计视频”(R、医学统计学、妙趣统计学)、“科研资源合集”、“如何分析真实世界临床研究数据”等系列,有兴趣同仁们可以关注。