查看原文
其他

真实世界数据分析(6):自变量筛选的Change-in-Estimate法介绍

老郑 医学论文与统计分析 2022-10-07

点击蓝字关注我们,持续更新


“如何分析真实世界研究数据”系列


在系列的第二篇中,我已经介绍过效应改变法(Change-in-Estimate,CIE),比逐步回归法在流行病学研究中更加广泛。本篇做一个效应改变法的简单介绍和实例操作。

效应改变法是一种数据驱动的自变量筛选方法,它是通过剔除多因素回归模型中对重要的自变量效应影响不大的变量从而减少自变量个数的方法。这些目标研究因素效应改变较大的,一般是混杂因素,需要留在多因素回归模型中。


一、研究案例


这是一项关于胰腺癌病人生存时间的研究。该研究的终点为死亡,此外结局指标还包括生存时间。本案例与上篇公众号论文案例类似,跟结局有关的研究变量较多,但与上篇公众号文章有所区别的是,本篇主要关心的是术中放疗对生存结局的影响。


根据研究目的,术中放疗是目标研究因素,结局是带有生存时间的结局,研究应采用开展COX多因素回归分析,探讨术中放疗对生存结局的影响。


首先,我们把所有因素都放入回归模型中,获得本研究的全因子模型,具体结果如下图。术中放疗效应指标为HR=0.302。效应指标,在回归分析中,可以是b值,可以是ORRR值,也可以是HR值。

由于上述回归模型是全因子模型,很多自变量放在模型中没有意义。模型意义不大,需要逐一进行审查和剔除!


二、效应改变法原理


Hsin-Yi Weng等人2007年发表的论文,把效应改变法归位两类:

第一类,剔除自变量后,对最初模型目标因素效应值的影响不超过10%者,删除变量

第二类,剔除自变量后,相对未剔除模型目标因素效应值影响不超过10%时,删除变量


一般最常见的是第一类,亦对第一类进行详细解释


第一类效应改变法原理

最初模型中包括性别、占位处、胰胆管浸润程度、有无腹膜转移、TNM分期,最初模型的目标变量术中放疗的HR值为0.302。

现在根据以下公式计算,效应改变量

HRi为剔除某一个自变量后,术中放疗的HR值,当

或者说HR值改变超过10%时,该自变量可以舍弃掉不要了,因为它对术中放疗的HR值影响不大。


比如,试着剔除年龄的变量,得到HR=0.208,则0.208/0.302=68.7%,远远小于90%的界限,因此,年龄需要保留。


二、效应改变法具体做法


首先,我们将逐一剔除每一个变量,分别构建回归模型,得到所有的术中放疗的HR值,挑选出一个对HR影响最小,且不超过10%的删除出去。


然后,开始第二轮,逐一剔除余下的每一个变量,分别构建回归模型,再挑选一个HR影响最小且不超过10%的自变量删除出去,以此类推,直到自变量再无法删除为止。


本案例,是否留在模型的HR值界限为0.272根据这个界限,我们可以得到以下结果:


第一轮,bui被剔除,第二轮,stage被剔除,第三轮sex被剔除,最后一轮,没有剔除者。


最终纳入模型的变量是纳入年龄、胰胆管浸润程度、有无腹膜转移三个变量与目标变量书中放疗。最终多因素回归的结果如下表,得到HR0.299

纵观整个过程,这种方法其实和向后逐步回归法(backward)非常相似,只不过诸位学过的向后逐步回归法是根据整个模型总体拟合度是否跟上一个模型是否存在着统计学差异进行筛选。因此效应改变法也有向前逐步法(forward),或者双向逐步回归法的理念(stepwise),但一般不采用向前法和双向逐步法,因为基准值难以设定!

 

效应改变法一般用于控制混杂因素时采用,而它不着重探讨哪个因素是否独立的影响因素,关键看起对目标变量的影响,因此倘若构建一个多因素模型,探讨各个因素对结局的影响,不建议使用该模型,但如果目标是混杂因素,则推荐使用该方法。


“如何分析真实世界研究数据”系列更多文章

1.“如何分析真实世界临床研究数据”系列文章开启!敬请关注。

2.真实世界数据分析(1): 为什么是回归方法

3.困扰多年的问题:如何筛选自变量建立多因素回归模型

4.真实世界数据分析(3):基于DAG方法进行自变量的筛选

5.真实世界研究(4):简单案例分析中介变量的影响

6.先单因素后多因素----回归分析自变量筛选的常见方法


诸位,本公众号现在已经形成包括“样本量估算方法”“医学研究进展”“论文的统计表达方法”“统计视频”(R、医学统计学、妙趣统计学)、“科研工具合集”、“如何分析真实世界临床研究数据”等系列,有兴趣同仁们可以关注。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存