真实世界数据分析(1): 为什么是回归方法
诸位,本公众号已经形成包括“样本量估计”、“医学研究进展”、“论文的统计表达方法”、“统计视频”(R、医学统计学)、“科研工具合集”等若干系列,有兴趣请点击学习。现在“如何分析真实世界研究数据”粉墨登场了!
首篇篇幅较长,并且还是充满了统计的思维,如果要学习,需要耐心,本人写得不对或者让您不懂地方可以留言,请见谅!
一、RCT和RWS的基本统计学方法
随机对照试验(RCT)是临床研究常见的一种方法,它将研究对象随机分为2组,一组是干预组(Treatment),另一组是对照组(Control),对干预组施加干预措施,根据两组产生的临床结局(Outcome),通过差异性统计学分析方法(包括t、F、卡方、Fisher、秩和等),比较两组结局,看其均数、率、构成比是否存在着统计学差异。
由于RCT研究随机分组,各组基本特征均衡可比,其差异性统计学结果,即可说明干预手段具有效果。换言之,干预变量与结局变量存在着因果关联。
比如案例1:
这是一项随机对照研究,比较阿司匹林与华法林预防非瓣膜性房颤患者发生血栓栓塞的有效性和安全性,该研究结局是主要终点事件为缺血性脑卒中和死亡,为二分类的结果。该研究的结果如下表。显然,该论文主要结局卡方检验P<0.05,即可以证明华林法可以预防脑卒中发生和死亡。
真实世界研究(RWS)则不然,它研究对象分组可能不随机,而观察性研究分组不由研究对象决定,因此其治疗组(暴露组)和对照组(非暴露组)基本特征可能截然不同。组间差异性,同样可采用基本统计学方法进行分析研究,但其结论只能说各组存在着差异,无法证明处理(暴露)因素与结局存在着因果关联。
比如案例2:
这是一项回顾性队列研究,所有180病例为医院手足口病的住院患者。按患者是否应用中药治疗分为常规治疗组(对照组)与中药治疗组(治疗组)。比较中、西医治疗的效果。结果方面,两组患者的有效情况采用卡方检验,差异有统计学意义(P<0.01),该论文认为中医药治疗效果较好。显然这样的结论不妥当,不够严谨。
总结来说,基本差异性统计学方法RCT和RWS扮演的角色是存在着明显差异,无法证明RWS的临床效果。
二、什么是回归分析方法
回归分析方法是,150多年前《物种起源》作者达尔文的表弟——高尔顿爵士发现,他在研究遗传现象时,建立了一个数学函数来反映人类父亲身高与子代身高的关系。
根据数学函数,儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系
高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。高尔顿将这种趋向于种族稳定的现象称之“回归”。
而后“回归”(Regression)一词被统计学家所采纳,形成一种统计学方法——“用函数来反映两个变量的因果关系”。
通用公式是Y=a+bX。其中函数的Y是结局变量,被称之为因变量;X是原因变量,即自变量。a是截距,b是斜率。这个回归模型如此受欢迎,是因为通过这个线性方程可以看出X对Y的影响程度,即b值,被称之为为回归系数。它是医学研究最关心的一个系数,流行病学的OR值、HR值均根据b值求出。
高尔顿的线性方程一直流行至今,无论logistic回归,还是COX回归或者复杂的统计模型,均基于线性回归转换而成。对于真实世界临床研究来说,回归方法起到了两方面重要作用:第一,可以探讨X对Y的影响,临床上可以评价处理因素因素或暴露因素对结局的影响;第二,可以通过X来预测Y,因此临床可利用回归方法构建临床预测模型。
三、单因素回归分析远远不够
回归分析固然重要,但线性函数Y=a+bX,却没有太大的意义。这个函数只有一个自变量X,我们称之为单因素回归方法或者单变量回归分析方法。
医学研究时,经常采用单因素回归分析,但很少基于单因素回归结果下结论。这是因为,单因素回归方法方法与差异性统计学方法结果差别不大。其中,t检验结果和单因素线性回归分析结果一样,卡方检验结果与单因素logistic回归分析结果相似,logRank分析结果与单因素COX回归分析结果相似。
我在第一点已经写明,基本统计学方法,无法论证真实世界研究研究因素与结局变量的因果关联性,因此单因素回归分析同样不行。单因素回归分析一般可以用于代替t检验、F检验等,初步分析探讨变量的关联性,以及在随机对照试验中,计算OR值和HR值(这个时候卡方检验无法直接计算出RR值)。
四、真实世界研究需要多因素回归方法
多因素回归,又称为多重回归分析方法。其中线性回归函数公式如下:
该方程有一个结局变量Y,多个自变量X以及各自的回归系数,分别代表各X对Y的作用。
多因素回归到底起到多大的作用?它主要可以从三方面实现作用:
首先,多因素回归可以探讨自变量是否独立的影响因素
第二,多因素回归可以识别和控制混杂因素
第三,多因素回归分析方法远比单因素能够起到预测结局的效果
由于篇幅的关系,我们首先将就第一点进行讲解,第二、三点将分别放在本系列第二、三阶段讲解。
五、多因素回归探讨自变量是否独立影响因素
平时看文献,有没有注意到independent risk factor的字样,为什么要加一个independent呢?
事实上,一个医学结局的产生,受到了诸多因素影响作用。有些因素通过统计学产生的效果,并非它本身,实际上是夹杂了其他因素的效果,或者相关变量的效果。
案例3:一项基于孕妇的出生队列,研究希望探讨,低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿,考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否饮酒、早产次数、是否患高血压等。
该研究结局是是否发生低出生体重,为二分类的结果,其余是原因变量。由于结局为二分类结局,要研究影响因素,应采用logistic回归分析。
如果现在重点关注妊娠前早产次数对结局的影响。那么,若采用单因素回归,得到结果如下图。这一结果显示:妊娠前早产次数的影响是OR=2.680,P<0.001; 说明妊娠前早产次数越多,产生低出生儿的可能性越大。但OR=2.68的结果,并不是早产次数单独带来,带来这一结果的可能是其它因素,他们的效应叠加在早产次数上,比如年龄。
先做一个年龄与结局的单因素回归分析,结果是年龄对出生结局的影响存在,年龄越大,出生结局越差(OR=1.083,P=0.003)。
再同时把年龄与早产次数纳入开展分析。结果发现,年龄不再有统计学意义,而早产次数仍有统计学意义,但OR值从2.7变为2.5。这是什么原因?
这源于变量的关系及多因素回归的作用。年龄和早产次数变量之间存在什么关系呢?以下是示意图:
实际上,年龄和早产次数存在着因果关系。年龄对出生结局有影响,但本例中,它是先通过影响早产次数(箭头①),再影响出生结局(箭头②)。因此早产次数与出生结局的因果关系(箭头②),其实包括了1)早产次数的影响, 2)年龄通过增加早产次数而造成的。
但我们只采用单因素线性回归(早产次数与出生结局),只能观察到一个综合效应,这个效应是反映在早产次数这一变量上,不是早产次数独立造成的。
而真正的早产次数的影响,多因素回归可以分析出来。两个因素回归函数是Y=a+b1*年龄+b2*早产次数。函数中,早产次数对结局的影响(回归系数b2值),是其它因素不变(也就是年龄不变时),早产次数每增加一次,出生结局发生的改变。
这样的回归系数就称之为:控制了年龄因素,早产次数单独的影响。在本例中,当控制了所有其它因素后,再来探讨早产次数的影响,如果此时早产次数仍具有统计学意义(P<0.05),则认为早产是独立的影响因素了(independent risk factor)。
*再来讲讲“什么是控制年龄不变,讨论早产次数的影响?”。这个软件执行原理是什么?
软件分析的原理是分层分析方法。软件将年龄分为两组,分为小于30岁和大于30岁。首先分析,所有小于30岁人群中,早产次数的影响。通过建立低出生体重与早产数的回归模型,可以计算该组人群的回归系数;然后针对30岁以上人群,再建立一个低出生体重回归模型,同样可以计算回归系数。两个回归系数综合形成(可以理解求加权均数)的b值,就是早产次数对出生结局的影响。如此,年龄的间接作用就被控制住了。
希望这个解释能够让部分读者认可。
六、多因素回归探讨自变量是否独立影响因素
本文章系列第一阶段,主要重点来探讨,如何构建多因素回归方程探讨自变量的影响。如何构建影响因素,这是一个非常具有技术性的问题,我认为直到现在,国内的统计分析文章都没有很好解决。为此,我将花大精力进行陈述包括以下在内的内容:
1.如何进行自变量筛选以构建合适的模型探讨影响因素,预计5-6篇文章
2.自变量特别是定量自变量如何处理才更有价值(是直接定量,还是转化为多分类或是二分类呢)、如何分析哑变量?预计3-4篇文章。
3.无论线性回归、COX和logistic回归都有相应的应用条件,那么如何鉴定模型条件是否成立、碰到多重共线性如何处理、模型的拟合效果如何评价?这将是本部分需要分析和讨论的内容。预计3-4篇文章。
不知诸位可有消化得了的?
更多的资源下载
1.医学研究论文写作必备:医学论文报告规范大全!报告规范中文版文献可打包下载了
2.重磅推荐:分类最全的统计分析相关软件,了解以下?请关注、收藏以备用
更多论文中的统计学方法解读
1.“吃饭8分饱”的统计学表达:这是我见过的最详细的重复测量方差分析写法!
3.统计方法如何表达:来自文章“孕产妇玩手机影响孕周期和新生儿体重吗?”