真实世界研究(4):简单案例分析中介变量的影响
本系列第3篇文章已经介绍过中介变量在回归建模中的角色。回归分析时,如果存在着中介变量时,不可将中介变量和源头变量同时纳入,谓之“母子变量”不能同时纳入,以免子变量干扰母变量的效应。本篇继续就DAG模型列举2个简单例子。
一、 胰岛素、血糖、糖前期状态、糖尿病四者的关系研究
若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病,2年后监测其血糖水平。
研究问题:
1)若分析基线胰岛素水平与2年后血糖的回归关系,应该可以纳入那几个因素作为自变量?
2)若要分析基线血糖状况与2年后血糖的回归关系,可以纳入那几个因素作为自变量?
3)若要研究糖尿病与血糖的关系,基线胰岛素、基线血糖是不是混杂因素?
自变量筛选第一步:根据上一讲的方法,构建DAG模型
本案例的DAG图形其实非常之简单,其主线是单线的因果关系。首先,胰岛素将导致基线血糖的改变,而基线血糖的改变导致糖尿病发生,而后随访血糖也会可能发生改变,但同时也有可能存在着胰岛素、基线血糖会直接影响到随访血糖的情况。
理论的情况,实际可以通过简单的数据分析予以探明,同时可以分析混杂因素和中介变量的影响。
问题一、
首先第一个问题:若分析基线胰岛素水平与2年后血糖的回归关系,应该可以纳入那几个因素作为自变量?
本问题相对棘手,可以看出胰岛素和随访血糖之间可能存在着多线的关系。
不妨先利用SPSS分析做单因素线性回归结果:
显然胰岛素与随访血糖存在着线性回归关系,回归系数为b=-0.114,是负向关系
接下来,我们接种把基线血糖和糖尿病放在一起分析,结果是:
多因素回归情况下,胰岛素与随访血糖的线性关系不存在着了(b=-0.008,P=0.872)。多因素回归就是不懂其中各变量因果关系,一股脑放进去分析的结果。但是胰岛素和血糖真的没有关系吗?不是!实际上,他们的关系被基线血糖,特别是糖尿病这个变量所代替了。
因此,研究胰岛素与随访血糖的关系,那么基线血糖和糖尿病不能纳入到回归模型中,因为基线血糖和糖尿病是中介变量。
问题二、
第二个问题:若要分析基线血糖状况与2年后血糖的回归关系,可以纳入那几个因素作为自变量?
如果我们先做一个多因素回归分析:
我们发现基线血糖与血糖的关系是存在着的(b=1.042,P=0.002),我们是不是可以欢欣雀跃,庆祝成功呢?
现在我们把糖尿病的变量去掉,结果如下,
线血糖与血糖的关系是存在着的(b=1.327,P<0.001)。比较与上幅图基线血糖的B值, 1.042 V.S. 1.327,去掉糖尿病之后效应值变大。你认为哪个效应值才是想要的?当然是1.327!
因此,研究基线与随访血糖的关系,那么糖尿病不能纳入到回归模型中,因为此时糖尿病是中介变量。
问题三、
第三个问题,如果要研究糖尿病与血糖的关系,基线胰岛素、基线血糖是不是混杂因素?
所谓的混杂因素,它的存在着会干扰糖尿病与血糖的关系。当我们把胰岛素、基线血糖、和糖尿病三者同时纳入回归模型时,糖尿病效应b=1.160,P=0.022。
其它自变量不纳入,建立糖尿病与血糖的单因素线性回归方程时,糖尿病效应值b=1.967,P<0.001,单因素回归方程比多因素要来的大!这说明什么问题?说明确实存在着混杂因素。胰岛素与基线血糖是混杂因素,只有通过多因素回归的方法进行控制。
所以,中介变量和混杂变量存在时,需要借助DAG模型理清因果关系。没有很清楚时,可以通过初步试探性的回归分析进行确认。一般是围绕着主要研究因素去探讨,特别是中介变量,不能让它成为挡在主要研究变量的拦路虎,从而高估或者低估主要研究变量的效应。
二、 本科实习护生患者安全感知与自主学习能力的相关性研究。
该案例开展了“本科实习护生患者安全感知与自主学习能力的相关性研究”,目标是探讨自主学习能力对患者安全感知得分影响。这其中有两个关键的量表,用中文版卫生职业教育患者安全感知量表(H-PEPSS)和护理学专业学生自主学习能力量表。自主学习能力又分为三个维度自我管理能力(10个条目)、信息能力(11个条目)、学习合作能力(7个条目)。各自可以求分数,三个维度总分即自主学习能力得分。
从上述这段话可以得到,本案例存在着5个关键的定量变量,包括因变量安全感知得分,自变量自主学习能力得分、自我管理能力得分、信息能力得分、学习合作能力得分。现在怎么进行回归分析呢?
第一种思路:一股脑纳入法
作者同时纳入上述自四个变量进入回归分析。得到结果是:除了自主学习能力有统计学意义之外,其他都没有!为什么?
第二种思路:筛选纳入法
如果把自主学习能力得分排除在回归模型之外,得到下面结果:现在信息能力和自我管理能力得分都具有统计学意义了!为什么?
真相是:其实自主学习能力得分是前三者相加得分,是个中介变量!
现在诸位对中介变量的影响有深切感受了吧?再次说明,自变量筛选尽量遵守DAG理论,不能一股脑纳入,否则必然“garbage in、garbage out”。
本篇就到此结束。
“如何分析真实世界研究数据”系列更多文章:
1.“如何分析真实世界临床研究数据”系列文章开启!敬请关注。
4.真实世界研究:他汀类药物(statin)能预防胆道癌吗?