如何处理缺失数据?给你支3招!
研究实例
某研究人员拟研究针灸疗法对于治疗肩部疼痛的效果,设计了一个随机单盲对照临床试验,一共纳入了52名患有肩袖肌腱炎的运动员,随机分为2组,分别接受针灸治疗和虚拟针灸治疗,治疗共持续4周,研究以基线和治疗后的肩关节评分作为疗效评价指标,最终共有45名研究对象完成了本次临床试验。
在该研究中,有7名(13.5%)研究对象因为各种各样的原因退出了本次临床试验,其中试验组3名,对照组4名,研究人员未能真实地记录到他们治疗后的疗效情况,无法准确评估治疗效果,由于病例脱落而产生了缺失数据。
在临床试验的过程中,病例脱落是非常常见的,而且往往也是不可避免的,缺失数据不仅会降低临床试验统计分析的把握度,而且会给试验结果的评价带来一定的偏倚。那么,为了保证研究结果的稳定性和可靠性,我们今天就来讨论一下,在进行统计分析时,应该如何科学有效的处理这些缺失数据呢?
1、直接剔除法
当脱落病例占总病例数量的比例很小时,而且病例脱落是完全随机发生的,即脱落的原因与临床试验本身无关,例如研究对象因工作出差而退出研究,或搬家而造成失访等,此时可以考虑直接舍弃脱落病例产生的缺失记录,形成一个完全数据集,仅对记录完整的数据进行统计分析(complete case analysis)。
然而,在实际研究中,缺失数据往往占有相当的比重,直接删除缺失数据会丢失大量信息,减少了对原始数据的利用效率,造成资源浪费,特别是当样本量本身很少的时候。此外,盲目删除缺失数据可能导致统计分析结果产生一定的偏倚,当缺失数据和完全观测的数据之间存在系统差异时,会影响研究结论的客观性及正确性,甚至可能会得出错误的结论。
2、单一填补法:LOCF
在临床试验中,研究人员一般会每隔一定的时间对研究对象进行定期随访,直至试验结束。若研究对象在试验期间发生脱落或失访,造成该研究对象在该随访时间点之后,所有的数据均无法观测到,这是临床试验中最常见的一种数据缺失的类型,此时可以尝试采用单一填补法对缺失数据进行填补。
在单一填补法中,末次观测值转结法(Last Observation Carried Forward,LOCF),是临床试验中最常用的一种缺失数据的处理方法。顾名思义,它是利用研究对象脱落或失访前最后一次的观测值来进行填补,之后各时间点的观测值均为缺失前最后一次时间点的观测值。
需要注意的是,在使用LOCF法进行缺失值填补时的一个前提条件是,认为研究对象的情况在脱落或失访后保持不变,或者说不会发生太大的变化,但在实际研究中往往不太现实。
例如图1所示,在研究药物治疗阿尔茨海默病的临床试验中,患者本身的认知功能会随着时间的推移而呈现下降趋势,该研究的目的是为了评价试验药物能否延缓疾病的进程。如果该药物本身与安慰剂相比并无明显差异,但由于试验组患者因为药物引起的不良反应而提前退出试验,那么用LOCF方法就不能真实地反映出试验组患者认知功能随时间变化而不断下降的趋势,反而有可能得出试验药物优于安慰剂药物的错误结论。
在一开始介绍的研究实例中,不管是试验组还是对照组,肩部疼痛本身会随着时间的推移呈现好转的趋势,如果采用LOCF法对缺失数据进行填补,7名脱落患者治疗后被填补的数据即为基线时的数据,此时会认为7名患者治疗前后肩关节评分的改善值为0,从而导致效应指标的变异度减小,标准差下降,可信区间缩小。但由于该研究中试验组和对照组脱落患者的比例较为接近,所以很难界定是高估还是低估试验组的疗效。
3、多重填补法
多重填补法(Multiple Imputation,MI),其原理是以病例脱落前的变量作为协变量,建立适当的回归模型,根据构建的模型对缺失值进行预测和填补。为了避免填补缺失值时可能会低估效应指标的可信区间范围,多重填补法采用了随机抽样的方法来填补缺失值,其填补过程可以简单理解以下3个步骤:
1、首先利用回归模型预测出与该脱落病例特点相似的其他病人的效应指标均值,及其变异范围,对每个缺失数据都构造出多个替代值,并从中随机抽取一个替代值进行填补,反复多次抽取就可以形成多个不同的填补数据集。
2、对每个填补数据集均采用与完全数据集相同的统计方法进行分析,得出多个分析结果。
3、最后将得到的多个分析结果进行综合,产生最终的统计推断,综合考量后得出结论。
(多重填补法可以通过R软件的mice包、SAS的Proc MI过程等软件进行实现,有兴趣的同学可以留言进行咨询。)
图2. 多重填补法过程
三种方法比较
在上述研究实例中,我们模拟生成了52名患者干预前后的肩关节评分值,作为完整数据集进行分析,然后随机抽取了7名患者作为脱落病例,形成一个缺失数据集,分别利用上述三种方法对缺失值进行填补和统计分析,如表1所示。
结果显示,直接剔除法和多重填补法的分析结果基本一致,且与完整数据集的结果接近,而LOCF填补法的分析结果与完整数据集的结果相比,产生了一定的偏倚,疗效指标被低估,且95% CI较其他两种方法更窄。
表1. 三种缺失数据填补方法的比较
以上三种方法是临床试验中常用的三种处理缺失数据的方法,当然还有其他的处理方法,如均值填补法、基线观测值结转法(Baseline Observation Carried Forward,BOCF)、最差观测值结转法(Worsts Observation Carried Forward,WOCF)等,大家也可以进行尝试。
虽然缺失数据可以在统计分析中采用一定的方法进行填补,以此校正缺失数据对分析结果带来的偏倚,但是由于缺失数据本身的局限性,我们终究还是无法获知临床试验中脱落病例真实的效应大小。特别是当试验中缺失数据的比例过高,病例脱落在试验组和对照组分布不均匀,或者病例脱落的原因与处理因素或结局直接相关时,在后期分析阶段采用统计方法对缺失数据进行填补也不是万能的。
因此,在临床试验的实施过程和数据管理阶段应尽可能地预防缺失数据的产生,强化数据收集,避免病例脱落,从而保证数据的完整和有效。
统计教程精彩回顾
关注医咖会,一起学习统计学!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和其他小伙伴们一起交流学习;或者点击公众号下方自定义菜单的“统计咨询”,提出你遇到的统计难题。
点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。