卢沙野大使接受法国LCI电视台直播专访

【少儿禁】马建《亮出你的舌苔或空空荡荡》

外交部迅速反应:严正抗议美冻结全国人大14位副委员长资产,中方将反制

达赖叛逃时把人皮、头骨法器都送给了谁(胆小慎入)

列宁会如何看待宝马MINI“冰淇淋事件”

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

回归分析控制混杂偏倚的基本统计过程和报告撰写

郑老师 医学论文与统计分析 2022-10-07
SPSS 教程 29讲-34讲:混杂偏倚及控制方法
29讲:了解混杂因素与混杂偏倚
30讲:为什么回归分析可以控制混杂偏倚
31讲:实验性研究的协变量混杂偏倚控制
32讲:协方差分析控制实验性研究混杂偏倚
33讲:分层分析控制实验性研究混杂偏倚

34讲:回归分析控制偏倚的过程与报告撰写


SPSS 教程 34讲:回归分析控制偏倚的过程与报告撰写


混杂偏倚,特别是观察性研究的偏倚,需要重点关注。常见情况下,我们会采用回归分析的方式来进行处理。关于这一点,我们在之前的几讲重点进行了介绍。

 

从目前国内的文献来看,研究者可能懂得如何利用回归去分析和控制偏倚,但是国内学者在写作方面规范性却不足。

 

因此,本文着重介绍,如何结合不同的统计工具控制混杂偏倚,撰写一篇学术论文。


1.混杂偏倚控制的基本统计学过程


对于初学者来说,混杂偏倚控制实际上遵循的统计过程,跟之前的系列课程介绍的内容非常相似,它们是横截面调查的统计分析策略病例对照研究的统计分析策略队列研究的统计分析策略这三篇文章,我是从回归分析的第一个目的----影响因素角度来阐述的。也就是说,如果诸位开展观察性研究,探讨影响结局的多个因素,那么基本的统计策略可以从上三篇文章学到很多内容。

 

控制混杂偏倚的回归方法,其统计策略又是如何呢?一般来说控制混杂的回归与探讨影响因素的回归,统计过程相似,但是具体思路上有所不同。

 

混杂偏倚控制的基本统计过程分为三步骤:

 

第一步,分人群的描述与差异性比较。观察性研究重要的特征是人群分组不均衡,由于人群是自然分组,人群的特征譬如年龄、性别在暴露因素的不同暴露水平(暴露组/非暴露组;低暴露水平组/高暴露水平组)之间会有差异性。因此,一般情况下首先需要探索性分析,究竟有哪一些人群的特征分组是不均衡的。是否分组不能均衡可以通过差异性比较方法(t、F、卡方、秩和),以P值来反映。如果P值<0.05,则可以被认为是潜在混杂因素(不能说是混杂因素,毕竟混杂因素要同时满足3个条件)

 

值得注意的是,人群如何分法,会因不同研究类型而定;一般病例对照研究是按照病例组/对照组分型;队列研究是按照暴露组/非暴露组进行分组比较;横截面调查可灵活处理。随机对照研究一般按照干预组/对照组进行分组。

 

第二步,  简单关联性分析。简单关联性分析意味着,研究要初步探索暴露因素/处理因素与结局的关系。关于这一点,可以采用的方法包括基础统计学方法和单因素回归分析,两者结果大致相同(包括P值和效应指标)。比如,如果是二分类数据的结局,则应该采用卡方检验,其结果和单因素logistic相似,两种方法均可以计算除效应指标OR值。OR值结果一致。


第三步,多因素分析  一般情况下,研究者基于第一步挑出潜在混杂因素与暴露因素一起建立多因素回归模型,从而在控制混杂偏倚的基础上探讨暴露因素与结局的关联性。

必须强调下,这里的潜在混杂因素,一般便是就是第一部分,分组不均衡的(比如P<0.05)的因素。此外,若研究者认为从因果关系角度考虑,有一些因素应该理论上是混杂因素,也可考虑纳入,比如年龄、性别、病情等。回归分析中,混杂因素不应太多,否则会导致建模失败。

具体回归分析方法是,这里可以考虑的包括以下几种:

上述就是混杂偏倚控制的基本策略,当然现实中,一篇文章的内容要更为丰富一些。诸位应用时不应该循规蹈矩。

2. 案例分析


我这里结合2个案例,介绍统计过程与报告撰写。


1



案例1:队列研究

这是一项关于吸烟与经皮冠状动脉介入治疗的ST段提升的心肌梗死(STEMI)患者的关联性研究。所有患者均接受皮冠状动脉介入治疗,研究的暴露因素为最近吸烟状态,因此人群分为吸烟组和不吸烟组。研究主要结局为全死因死亡、住院、以及复合终点(死亡或者住院)。

这是一项队列研究,由于研究结局是生存时间结局,作者采用了LogRank和Cox回归等方法开展分析。

首先,研究对象的分人群差异性分析

该研究暴露因素为吸烟,分为吸烟组/不吸烟组,样本量分比为1471人和1093人。研究者对年龄、性别、高血压、血管项指标、血液项指标开展比较分析。2564例STEMI患者中,近期吸烟者1093例(42.6%)。吸烟者年轻10岁,合并症较少,在诸多的特征上均与不吸烟者存在着统计学差异。分组不均衡者即为潜在混杂因素,从下表可以看出,该研究有不少潜在的混杂因素。


然后,开展简单关联性分析

该研究结局指标比较多,关键的指标是,人群死亡率、心力衰竭住院率、死亡或心衰住院率(复合指标)、再梗死率。由于是生存时间相关结局,因此,采用的方法包括采用logRank方法和单因素Cox回归分析的方法,同时,绘制生存曲线。logRank负责计算P值,Cox回归负责计算HR值以及95%置信区间。

结果显示,与不吸烟者相比,吸烟者的1年内全因死亡率(1.0% vs 2.9%p<0.001,A图)和死亡或心衰住院率(3.3% vs 5.1%p=0.009,C图)较低,两者的再梗死率相似(D图)。单因素结果显示吸烟者似乎可以预防不良结局。


进一步,采用多因素回归的分析,调整混杂因素的影响


本文采用多因素Cox回归分析来进行,作者首先指出了,模型校正的变量即“协变量”有哪些:

The following variables were used in the adjusted models: age (as  a continuous variable), sex, hypertension, hyperlipidemia, diabetes, left anterior descending (LAD) versus non-LAD infarct artery, baseline TIMI (Thrombolysis In Myocardial Infarction) flow grade 0/1 versus 2/3, and symptom-to-firstdevice time.


在分析中,作者没有一股脑全放进去开展了校正,而是建立了多个模型。由此从中可以看出各个协变量的影响。

首先,只建立了2因素的Cox回归模型,自变量包括年龄和吸烟状况,然后在此基础上,继续调整其它上述的协变量,最后,作者建立了第4个模型,在此基础上加上心肌梗死面积作为协变量(IS)。

我们以全死因死亡率为例进行分析(下图A)。下图是森林图,取代了我们常见的回归分析结果表,结果简洁直观。

图A第一行,未调整,指的是单因素Cox回归结果(与上一部分结果一致),HR值的置信区间(横向)0.24-0.58,具有统计学意义。第二行为2因素Cox回归,校正年龄影响,P=0.85,没有统计学差异,则说明年龄对效应值HR影响很大,年龄是混杂因素;第三行、第四行纳入更多的协变量,结果几乎没有差别,说明其它变量不太是混杂变量,或者造成的偏倚较小。


对于初学者而言,无须如本例一般,多次建立回归分析。初学者只要将潜在混杂偏倚纳入模型建立回归分析即可。


2



案例2:病例对照研究

案例2某医师基于某医院开展病例对照研究,探讨糖尿病状态对冠心病发病的影响,收集新发冠心病患者作为病例组,收集同期医院非循环系统疾病患者作为对照组,研究的变量是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hyper、糖尿病diabetes。


对于本案例,同样也是三步骤进行:

第一步,分析差异性
与队列研究不同,病例对照研究一般是按照是否病例进行分组。本例是按照是否发生冠心病分为病例和对照组。需要分析比较的因素,包括年龄、性别、是否高血压、心电图状况。结果显示,年龄、性别、心电图情况、高血压在两组人群分组均不均衡,它们是潜在的混杂因素。


第二步,简单关联性研究
病例对照研究简单关联性分析,在之前的文章中已经介绍(病例对照研究的统计分析策略),采用卡方检验或者单因素logistic回归分析的方法。

本例采用卡方检验得到卡方值、P值、OR值和置信区间


第三步,多因素回归分析
对于多因素回归的分析结果,可以以两种形式来体现。

第一种,将所有自变量结果全部列入文章中进行介绍。如下表:


第二种,统计表的内容也可舍弃其它协变量的结果,只取主要暴露因素的分析结果


一般国内的杂志更推荐前者,因为信息量较多,且不容易造假。

本例结果在文字描述上,可以按照以下格式书写结果:“在调整了年龄、性别、心电图异常情况、高血压后,结果发现,糖尿病与冠心病发病的关联存在着无统计学意义(OR=1.58,95%CI 0.62-4.03, P=0.338)

有些研究者对其他协变量的作用也进行了详细了介绍。我觉得没有必要,占了更多篇幅,且焦点分散,毕竟这篇文章是探讨糖尿病对冠心病的影响,其他变量是否能够引起糖尿病,这不重要,在结果、在讨论都无需花笔墨去分析。这一点是探讨多个影响因素研究和控制混杂偏倚论文写作时重大的区别。

以上便是利用回归控制混杂偏倚论文写作,我列举了队列研究和病例对照研究的基本方法。其实不难,就是那三步骤,初学者稍微结合一下理论知识就能够形成大致的统计分析过程与论文写作框架。

本讲介绍到这里!


欢迎关注本公众号,我们是资源的搬运工,所有科研资源全部免费下载:
1.  医学统计学习全套视频,妙趣+高级+SPSS+测试题,让你从入门到精通!
2.  重磅资源:100本“临床试验与统计学方法”英文书籍大放送!
3.《中国统计年鉴》1978-2019,巨量呈现40年全国各行业指标(包括卫生、人口在内)!
4.  2006-2018中国卫生统计年鉴合集
5.  不做实验如何利用临床数据库发表论文?精选临床预测模型视频合集
6.  如何制作与分析量表?中英文权威书籍来帮忙。
7. “医学统计学”初学者福音,权威教材经典SPSS视频教程
8.【免费下载】SPSS经典教程:张文彤SPSS初级+高级操作视频
9. 最新Win和MAC版统计软件SPSS 26.0、Stata16.0和Graphpad prism8.0
10.精选R语言入门学习资源:视频+文档,初学者者必备!


如果您觉得文章不错,
点击“分享”吧,非常感谢。

文章有问题?点此查看未经处理的缓存