【1036】被我们忽视的生存分析区间删失数据

Original 松哥统计精鼎统计 2023-03-23

精鼎45/46期SPSS统计软件实战训练营

缘起

生存分析是一种非常特殊而又重要的统计分析方法，特殊在于不仅考虑研究事件的结局，还考虑出现结局的时间；重要在于很多科研设计的结局均与时间有关。同时处理生存数据的Cox回归，也被成为生物医药三大回归之一。

处理生存分析，有一个非常重要的知识点，就是删失数据处理，然而，我们常规采用的删失数据处理方式，是不严谨并且会高估试验研究的结果，今天就和大家聊聊此事！

生存数据类型

一、完全数据（Completedata）

每个个体确切的生存时间都是知道的。这样的数据称为完全数据（Complete data）。但在实际的生存分析中，数据在很多情况下是很难完全观察到的。

二、删失（Censoring）

生存数据一个重要的特点是：在研究结束时，无法获得某些个体确切的生存时间。例如：失去联系（病人搬走，电话号码改变），无法观察到结局（死于其他原因），研究截止，个体仍然存活……在这些情况下获得的数据就是删失数据（Censoreddata）。对存在删失的个体，只知道删失时间（Censoring time）。

删失分类

删失分为右删失（Right censoring）、左删失（Left censoring）和区间删失（Interval censoring）

1、右删失（Rightcensoring）。

在进行观察或调查时，一个个体的确切生存时间不知道，而只知道其生存时间大于时间L，则称该个体的生存时间在L上是右删失的，并称L为右删失数据（Right-censored data）。

右删失有三种类型(按结束时间差别)：I型删失（TypeI censoring）、II型删失（Type II censoring）和III型删失（Type III censoring）。

2、左删失（Left censoring）

研究对象在时刻开始接受观察，而在此之前我们感兴趣的时间已经发生，这就是左删失。

例如：“您初次吸食大麻是在什么时候？” 有一种回答：“我吸食过，但我不记得吸食的具体时间了。”这些回答的吸食时间数据就是左删失。

通过测试确定儿童学会完成特定任务的年龄，有些儿童在进入研究前就已经可以完成某项特定任务，这些儿童的事件发生时间也是左删失。

出现左删失同时,也可能出现右删失，称为双删失（Doublecensoring）。例如:对吸食大麻的问卷还有一种回答：“我从来没有吸食过”，这样的数据就是右删失。

3、区间删失（Interval censoring）：若个体的确切生存时间不知道，只知道其生存时间在两个观察时间 L和R之间（L<R），则称该个体的生存时间在[L,R]上是区间删失的。实际工作中，凡是不能或者不愿作连续监测时就会遇到这样的区间删失。

区间删失分两种：第一类区间删失（Case I Interval censoring）和第二类区间删失（Case II Interval censoring）。

当对个体只进行一次观察，且个体的确切生存时间不知道，只知道其生存时间是否大于观察时间，这种删失称为第一类区间删失，也称为现实状况数据（Current data）。当对个体进行多次观察，其观察时间L和R 满足时，这种删失称为第二类区间删失，也称为一般区间删失。

如果初始时间（如艾滋病感染时间）和发生时间均为区间删失，则称生存时间为双重区间删失（Double interval censoring）。

常规分析

我们目前统计软件常规采用的都是把删失数据当做右删失进行分析，如SPSS和SAS，然而这种分析方法，会增大试验效应，严格意义应该按照数据具体的删失类型进行分析。

如手术治疗肝癌病人，手术治疗为起点事件，复发为终点事件，术后每3个月进行一次随访，比如第12月随访病人没有复发，到第15个月随访时，病人复发了。常规我们处理数据，就是该病人的生存时间为15个月，但是实际上，病人的复发时间为12-15之间，并不是15个月那个节点复发。如果当做15个月进行分析，就会夸大实现效应。

解决方法

相关软件提供了删失数据或者区间删失数据的分析方法，目前SPSS尚不可以，SAS可以利用宏%EMICM，R的interval，intcox程序包，以及软件LIMDEP9实现。

松哥统计说

区间删失数据在医学领域中是一种常见的数据类型，但是医务工作者常将其简化成右删失的形式，再采用Kaplan-Meier 估计、Log-rank 方法、Cox 比例风险模型进行统计分析，实则会放大试验的效果。

除非是动态监测数据，如动态心电图、可穿戴设备时时监测，否则按照固定时间间隔进行随访的数据，基本都是包含区间删失数据，因此，还是按照区间删失数据处理，才能更准确反映数据的内部规律！

精鼎原创，欢迎转发，未经允许，谢绝转载！

统计思维与统计理论系列[1]

【1035】Logistic回归文章的SCI审稿人意见解读

【1034】统计学上的2K效应，你发现了没？

【1033】正态分布的3个基因密码，聆听大自然心跳的代码！

【1032】生存分析K-M法与COX回归结论不一致怎么办？

【1031】异常值的处理只有删除？