举几个例子,看看多因素分析中可能犯的错
多因素分析的统计方法,我们之前推送过多篇文章,小伙伴们可以去“【合集】23种统计方法的SPSS详细操作”中找找是否有你感兴趣的。接下来,咱们说说在运用这些统计方法时可能存在的一些问题。
一、纳入变量时存在问题
【原文】将文化程度、月收入等19个因素进行单因素Logistic回归分析,筛选出12个有统计学意义的影响因素。将单因素分析筛选出的有意义的可能危险因素,进行多因素条件Logistic回归分析,最终进入模型的因素有6个,整个模型有统计学意义(似然比χ2=135.21,P<0.05)。(《中华疾病控制杂志》2010年发表)
【分析】作者只将单因素分析结果显示有统计学意义的变量纳入多因素分析是不正确的。因为这些变量与结局之间的关系可能受到混杂因素的干扰,单因素分析无法避免这种情况。
单因素分析没有统计学意义的自变量,不代表多因素分析时其也无统计学意义。在自变量较多的情况下,可以采用逐步回归分析方法。但应注意,变量是否显著及作用大小,与模型中包含的变量有关,如在模型中含有{X1},{X1,X2}或{X1,X2,X3},这三种情况下,X1的检验结果可能会有很大的不同。实际中最好结合专业背景和研究目的去选择变量[1]。
(详细阅读:那么多变量,我该选择哪些进入多因素分析呢?;前进法、后退法...N多人问过的自变量筛选方法,再来细讲下!)
二、单因素分析代替多因素分析
【原文】烧伤入我院治疗的132例患者中,有HCV感染者105例,占烧伤患者79.5%。对HCV感染者,我们进一步对年龄、有无输血及血制品、输血及血制品的量、烧伤程度等进行了对比分析(见表1、2、3)。
对HCV感染与诸因素相关性运用四格表专用公式法进行统计学处理,结果表明HCV感染与有无输血及血制品(χ2=12.05,P<0.01)、烧伤程度(χ2=5.03,P<0.05)有显著性差异,与输血及血制品的量(χ2=0.015,P>0.05)、年龄(χ2=0.0174,P>0.05)无明显差异。(《中华医院感染学杂志》1997年发表)
表1. 不同年龄组输血及血制品与HCV感染
表2. 输血及血制品不同用量与HCV感染
表3. 不同烧伤程度与HCV感染
【分析】作者想研究“HCV感染与否”与年龄、有无输血及血制品、输血及血制品的量、烧伤程度之间的关系,在分析的过程中,作者仅采用了单因素的分析方法,分别对每一项研究因素与HCV感染之间的关系进行了列联表χ2检验,但这样做并不合适。在进行单因素分析时,忽略了其他因素可能的影响,以及研究因素之间的相互影响,当结果为P<0.05时,并不能说明就是该因素的作用。
该资料可以采用Logistic回归方法,以“HCV感染与否”作为因变量,年龄、有无输血及血制品等作为自变量进行分析,筛选有意义的变量,并且可以计算OR值来说明自变量对因变量的影响。
此外,该研究还存在其他问题。例如,年龄、烧伤程度都是有序分类资料,用列联表χ2检验是不正确的,应该使用秩和检验。
(更多阅读:SPSS实例教程:二分类Logistic回归;SPSS详细操作:碰见有序分类资料,怎么办?)
三、生存分析中的常见问题
【原文】UFTM与EAP方案是目前临床常用治疗胃癌方案,从1989年-1996年我们用这两种方案治疗晚期胃癌53例,现就临床对比疗效情况报告如下。治疗后生存情况:随访45例,占85%(45/53),见表4。(《陕西肿瘤医学》2000年发表)
表4. 两组病人生存情况对比
【分析】对于患者的生存情况,作者仅列出了表4的数据,并没有其他相关的说明。对于该部分内容存在以下几个问题:
① 没有明确生存时间的计算起点,是以开始治疗之日为起点还是治疗结束后为起点,应该事先有明确的定义。
② 对于失访的8例患者并没有做出说明,而只是将数据删除不予考虑。
③ 计算了两组的中位生存时间,但是缺少对生存时间的比较,可以采用log-rank进行检验。原文中作者按生存时间不同进行了分组统计容易损失信息,可以采用Kaplan-Meier法或寿命表法进行分析,绘制生存曲线。
④ 当多个混杂因素存在时,也可以采用COX比例风险模型进行分析,从而得到校正混杂因素之后两种治疗方案的疗效情况。在该研究中,就可以采用COX比例风险模型进行多因素分析,来评估两种治疗方案的疗效。
(更多阅读:KM法生存分析,史上最详细的SPSS教程!;SPSS详细操作:生存资料的Cox回归分析)
参考文献:
[1] 孙振球.《医学统计学(第3版)》
精彩回顾
赶快关注医咖会吧!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),加入医咖会统计讨论群,和小伙伴们一起交流学习吧。我们诚邀各位小伙伴加入我们,一起创作有价值的内容,将知识共享给更多人!
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计学文章。