查看原文
其他

为什么单因素分析和多因素分析的结果不一样?

Editor's Note

临床预测模型中常见"先单因素,有意义的继续多因素",这种变量选择方法有意义吗?需要做吗? 冯老师的4篇文章,带大家彻底搞懂这个问题!今天是第一篇

The following article is from 小白学统计 Author 冯国双

我在前面的所有文章,主要是以单因素分析为主,比如t检验、卡方检验、方差分析等这些,都是单因素的方法。后面会逐渐介绍一些常见的多因素分析的方法,而且会把单因素和多因素分析统一起来,把常见的一些方法统一起来。今天这篇文章,先从问题入手,给大家解释一个最常见的问题,也是临床大夫最常问的一个问题,那就是:为什么我用单因素分析,结果和多因素分析不一样?当然,今天仅对一个例子解释,并不是很全面,但可以作为一种思路,给大家借鉴一下。后续文章会逐渐深入介绍一些多因素分析中的问题和思路。

下面说一个例子,目的是分析某药物治疗身高后,身高有所变化,这种变化的影响因素有哪些?有一个因变量,即身高的变化情况(已做标准化);有3个自变量,分别是用药前身高(已做标准化)、用药时长、初始骨龄。分析这3个变量哪个对身高变化有影响。这是一种很常见的分析思路,探讨危险因素。

首先,我们先看单因素分析结果,如下图所示:


 

统计分析结果显示,用药前标准化身高对身高变化的影响有统计学意义(β=0.64P<0.05),用药时长无统计学意义(β=0.10P=0.30),初始骨龄的影响无统计学意义(β=0.02P=0.74)。

看到这里,然后再看看散点图,大家可能就会得出结论,只有用药前身高才会影响身高变化情况。

那我们再把这3个变量都纳入模型,做一个多因素分析看看,结果如下:

可以看出,用药时长的P值几乎已经接近0.05,可以认为有统计学意义了。而且从系数变化上来看,用药时长的系数从单因素的0.10变成了0.19,几乎增大了一倍。其它2个因素尽管也有变化,但不明显。那我们这里就讨论一下,为什么用药时长会变化这么大?

通常对于这样的情形,首先最好利用散点图看一下它们的关系,下面是3个变量的相关散点图。

可以看出,用药时长与初始骨龄具有较强的负相关,与用药前标准化身高也有一定的负相关。再回头看看前面的图,用药前标准化身高与身高变化是正向关系,初始骨龄与身高变化也是正向关系,而用药时长与身高变化也是正向关系。

3个正向关系说明了什么呢?下面这段话大家要仔细体会,一句一句地读。

首先,用药时长与身高变化是一种正向关系,但是,由于用药时长与初始骨龄、用药前身高都呈负向关系,而初始骨龄、用药前身高与身高变化又是正向关系,结果就导致用药时长与身高变化的正向关系(由于与初始骨龄、用药前身高都呈负向关系)被初始骨龄和用药前身高给拉低了。

所以,这就是为什么单因素分析中,用药时长没有统计学意义的原因,因为它同时被2个变量给拉低了。而多因素分析中,把这两个变量给校正掉了,相当于去掉了它们2个变量的影响,这时候就恢复了用药时长自己的作用了。

再举个通俗的例子,比如,甲(用药时长)在往前推一个箱子(身高变化),而乙(初始骨龄)和丙(用药前身高)却在拉着甲往后拽,结果就导致甲推箱子就很慢。一旦校正了乙和丙的影响(相当于去掉它们俩的拽的作用),这时候甲推箱子的速度就会变快了。

如果初始骨龄和用药前身高与用药时长的关系不是负向关系,而是正向关系,那么多因素结果就不会是这样,而是会出现这样的结果:用药时长的参数估计值会比单因素分析的值更小,比如可能会从原来的0.1降为0.05,而不是现在增加到0.19。大家能想明白什么道理吗?

总之,如果今后你发现单因素分析结果和多因素分析结果不一致,不要像有的人说的“哪个P值小我就选择哪个结果”,要仔细分析一下。本文所介绍的只是一种情形,并不是说所有的单因素和多因素不一致都是这种原因(但可能很多情况下都是这种原因)。即使你实在搞不懂,也可以请统计学家帮忙,也许有时会获得意想不到的发现。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存