查看原文
其他

【1036】被我们忽视的生存分析区间删失数据

松哥统计 精鼎统计 2023-03-23

精鼎45/46期SPSS统计软件实战训练营



缘起

    生存分析是一种非常特殊而又重要的统计分析方法,特殊在于不仅考虑研究事件的结局,还考虑出现结局的时间;重要在于很多科研设计的结局均与时间有关。同时处理生存数据的Cox回归,也被成为生物医药三大回归之一。

    处理生存分析,有一个非常重要的知识点,就是删失数据处理,然而,我们常规采用的删失数据处理方式,是不严谨并且会高估试验研究的结果,今天就和大家聊聊此事!

生存数据类型



一、完全数据(Completedata)

每个个体确切的生存时间都是知道的。这样的数据称为完全数据(Complete data)。但在实际的生存分析中,数据在很多情况下是很难完全观察到的。


二、删失(Censoring)

生存数据一个重要的特点是:在研究结束时,无法获得某些个体确切的生存时间。例如:失去联系(病人搬走,电话号码改变),无法观察到结局(死于其他原因),研究截止,个体仍然存活……在这些情况下获得的数据就是删失数据(Censoreddata)。对存在删失的个体,只知道删失时间(Censoring time)。


删失分类


删失分为右删失(Right censoring)、左删失(Left censoring)和区间删失(Interval censoring

1、右删失(Rightcensoring)。

在进行观察或调查时,一个个体的确切生存时间不知道,而只知道其生存时间大于时间L,则称该个体的生存时间在L上是右删失的,并称L为右删失数据(Right-censored data)。

右删失有三种类型(按结束时间差别):I型删失(TypeI censoring)、II型删失(Type II censoring)和III型删失(Type III censoring)。

2、左删失(Left censoring)

研究对象在时刻开始接受观察,而在此之前我们感兴趣的时间已经发生,这就是左删失。

例如:“您初次吸食大麻是在什么时候?” 有一种回答:“我吸食过,但我不记得吸食的具体时间了。”这些回答的吸食时间数据就是左删失。

通过测试确定儿童学会完成特定任务的年龄,有些儿童在进入研究前就已经可以完成某项特定任务,这些儿童的事件发生时间也是左删失。

出现左删失同时,也可能出现右删失,称为双删失(Doublecensoring)。例如:对吸食大麻的问卷还有一种回答:“我从来没有吸食过”,这样的数据就是右删失。


3、区间删失(Interval censoring):若个体的确切生存时间不知道,只知道其生存时间在两个观察时间 L和R之间(L<R),则称该个体的生存时间在[L,R]上是区间删失的。实际工作中,凡是不能或者不愿作连续监测时就会遇到这样的区间删失。

区间删失分两种:第一类区间删失(Case I Interval censoring)和第二类区间删失(Case II Interval censoring)。

当对个体只进行一次观察,且个体的确切生存时间不知道,只知道其生存时间是否大于观察时间,这种删失称为第一类区间删失,也称为现实状况数据(Current data)。当对个体进行多次观察,其观察时间L和R 满足时,这种删失称为第二类区间删失,也称为一般区间删失。

如果初始时间(如艾滋病感染时间)和发生时间均为区间删失,则称生存时间为双重区间删失(Double interval censoring)。


常规分析

我们目前统计软件常规采用的都是把删失数据当做右删失进行分析,如SPSS和SAS,然而这种分析方法,会增大试验效应,严格意义应该按照数据具体的删失类型进行分析。


如手术治疗肝癌病人,手术治疗为起点事件,复发为终点事件,术后每3个月进行一次随访,比如第12月随访病人没有复发,到第15个月随访时,病人复发了。常规我们处理数据,就是该病人的生存时间为15个月,但是实际上,病人的复发时间为12-15之间,并不是15个月那个节点复发。如果当做15个月进行分析,就会夸大实现效应。


解决方法

相关软件提供了删失数据或者区间删失数据的分析方法,目前SPSS尚不可以,SAS可以利用宏%EMICM,R的interval,intcox程序包,以及软件LIMDEP9实现。



松哥统计说

区间删失数据在医学领域中是一种常见的数据类型,但是医务工作者常将其简化成右删失的形式,再采用Kaplan-Meier 估计、Log-rank 方法、Cox 比例风险模型进行统计分析,实则会放大试验的效果。


除非是动态监测数据,如动态心电图、可穿戴设备时时监测,否则按照固定时间间隔进行随访的数据,基本都是包含区间删失数据,因此,还是按照区间删失数据处理,才能更准确反映数据的内部规律!


精鼎原创,欢迎转发,未经允许,谢绝转载!



统计思维与统计理论系列[1]

【1035】Logistic回归文章的SCI审稿人意见解读

【1034】统计学上的2K效应,你发现了没?

【1033】正态分布的3个基因密码,聆听大自然心跳的代码!

【1032】生存分析K-M法与COX回归结论不一致怎么办?

【1031】异常值的处理只有删除?

【1030】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法

【1029】SCI审稿人让我控制2个单因素无意义的变量?

【1028】量表评价是信度重要还是效度重要?

【1027】Meta分析要解决的首要任务

【1026】文章材料与方法中统计方法如何描述

【1025】聚类分析稳定性判别的经验总结

【1023】“参数检验与非参数检验”哪个更好?

【1022】聚类分析只需这1张图就够了!

【1021】干预前后数据统计分析方法

【1020】听完四个小故事,你就明白主成分分析是啥意思了!

【1019】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整?

【1018】倾向性评分后数据,应该采用配对设计还是成组设计?

【1017】双重差分模型,何方神圣?

【1016】等级与等比,可得分清楚!

【1015】频率与概率,如胶又似漆!

【1014】终于发现不用学习,顿悟统计的方法

【1013】加权最小二乘回归是什么鬼?

【1012】统计世界的4维空间

【1011】平行性检验到底应该啥时候做?

【1010】这篇文章凭啥这样分组呢?

【1009】常用统计分析方法选择图解

【1008】啥!统计也会犯错,还分犯I类和II类错误?

【1007】统计必学的4个核心思想

【1006】别说相关太简单,且听松哥说相关

【1005】统计方法与统计思想谁重要?

【1004】正态分布10种鉴别方法汇总【荐藏】

【1003】连续变量变成等级变量后,原来有意义的变量变得没意义了?

【1002】别人让我出了5道选择题,顺便你也测测!

【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢

-------------------------------------------



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存