查看原文
其他

一文详解时依协变量,兼谈分层Cox回归

医咖会 2021-01-15

The following article is from 小白学统计 Author 小白学统计

内容来自:“小白学统计”微信公众号,感谢作者授权。

在常见的线性回归、logistic回归等这些方法中,因变量只有一个,就是结局怎么样,比如发病与否、血糖值多少等等,没有时间变量。自变量也没有时间概念,通常不会考虑随时间变化的问题。即使在队列研究中,对于研究因素,往往也就是调查一次,结局或许会随访多次。

然而在生存分析中,一切变得大为不同。生存分析的结局本身就带了时间变量,时间开始起作用了。这种情况下,自变量也可能出现与时间有关的概念,这种情况下,时依协变量(time-dependent covariables)这种概念就出现了。

简单来说,时依协变量的意思就是,对一个人来说,在研究期间,该变量随着时间的改变而发生了变化,所以英文叫做time dependent,也就是说,依赖于时间变化而改变的变量。中文为了简洁,缩写为“时依”,很有诗情画意的一个词。

cox回归起码要满足一个最基本的假定条件,也就是等比例风险假定。如果满足,那当然没问题,直接用cox回归就行了。那么接下来的问题就是:如果不满足等比例风险假定该怎么办?

如果不满足等比例风险假定该怎么办?

如果等比例风险假定违背,至少有两种方法来处理:

第一,采用分层的cox回归(stratified cox),也就是按协变量分层分析,然而这种方法有个缺点,所谓“分层虽好,也不能贪多啊”。说错了,分层虽好,但该变量也就没有估计结果了。试想,你把主要研究因素分层了,你还研究什么呢?

所以就要说到第二种处理方式,也就是采用时依cox回归,也就是带时依协变量的cox回归。

时依cox回归是个好东西,当等比例风险假定不满足,仍然可以分析主要研究因素的效应。时依协变量有好几种,下面就介绍一下常见的几种。

时依协变量的种类

1、自定义的(difined)时依协变量

可能大家听起来有点奇怪,没事我自定义个时依协变量干嘛?其实不是自己非要定义,多数情况下是被逼定义。

所谓自定义,顾名思义,自己构建的协变量。举个简单例子,性别gender,很明显不是时依协变量(除非有极其特殊的情况),然而gender*时间t,两个变量的乘积,这就是个时依协变量了。这就是自己构造的。

那我为什么要构造这个?比如,你要比较两组的生存情况,结果发现组别不满足等比例风险假定,那怎么办,构造个时依协变量吧,group*t,就可以名正言顺地用cox回归了。

然而,构造一个自定义的时依协变量,最麻烦的地方在于,时间的尺度应该如何确定,我可以是group*t,也可以是group*log(t),还可以是group*log(t-5),到底应该如何构造。这就很难说了。因为每个数据都不同,没有说那种尺度最好,大家只能到时根据自己的数据看看吧,比如看看散点图,看他们的大致变化。或者还有一种强行方式,多构造几种,然后根据模型评价指标,比较一下哪个更好。

2、内部(internal)时依协变量

内部时依协变量比较容易理解,也就是说,这个变量不用构造,自己就是个随时间变化的。为什么叫“internal”?因为它不用外部力量,完全是自己内部特征的变化。
比如,吸烟,有的人可能去年吸烟,今年不吸烟了,这就是内部时依协变量,自己让自己的吸烟状态发生了改变。再比如,高血压,有的人去年是正常,但是今年步入到了高血压的行列,这也是自己的高血压状态发生了变化。这就是内部时依协变量。

3、辅助的(ancillary)时依协变量

辅助的时依协变量,跟内部时依协变量有点不同。内部的顾名思义,主要靠自己,而辅助的,则是靠外部的推动而改变。

比如污染状态,这个如果城市的工厂关闭一段时间,大气状况变成了“优”,如果工厂恢复运作,大气状况变成了“污染”,这就随时间而发生了变化,而且是靠外部力量推动的变化。

再比如,工作状态,本来你可能在一家公司工作,结果公司不景气,裁员了,把你解雇了。这不是你内部自身决定辞职,而是被辞职,这就是外部的辅助力量。

4、同时是内部和辅助的时依协变量

这个其实不算是一种新的类型,只是有时候有的变量同时兼有内部和辅助的特征。比较典型的例子,比如器官移植,所谓“内部”,意思是你的自身能匹配,匹配上了,那就从“未移植”状态转换成了“移植”状态。

然而这种转变不是仅靠自身来实现的,必须有外部因素,也就是说,得有人提供转移的器官才行,如果有人提供,那就从“未移植”状态转换成了“移植”状态。所以,对于器官转移状态的改变,必须同时满足“内部”和“辅助”两个条件,缺一不可。

可能大家会觉得,为什么要分这么细呢?不就是时依协变量吗?我直接扔到软件里不行吗?遗憾的是,实际分析时的确不是如此简单。

为什么要详细分这几种?因为实际分析时,需要根据不同类型,设置不同的纳入方式,比如SAS软件,你就需要根据不同的时依协变量类型,指定不同的变量变换形式。当由于每个人用的软件不同,我就很难说应该怎么操作了,我个人习惯用SAS,每个软件有自己的设置方式,大家到时只能看相应的软件help了。


更多阅读

1. SPSS详细教程:含时间依存协变量Cox回归模型(时依系数法)

2. SPSS详细教程:Cox回归中,连续变量的PH假定检验

3. SPSS详细教程:Cox回归中,分类变量的PH假定检验


由医咖会与心联乔治心脏健康研究中心(HHRC)联合建立的心血管研究协作网络及数据共享平台(CDS)已经上线!


目前开放共享的数据为“中国房颤注册研究”,共有2.5万多房颤数据,欢迎来申请使用数据,发表SCI论文!


平台网址:

https://cds.mediecogroup.com/


点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看全部统计教程

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存