涉及≥3个变量的相关性分析,如何选择统计方法?
作者:李侗桐;审稿:张耀文
上节课程中,我们讲解了两个变量的相关性分析时,应该如何选择统计方法(详见:要做相关性分析,该如何选择正确的统计方法?),今天我们接着讲解,涉及到三个及以上变量的相关性分析,该如何选择统计方法。
先看示例
分析三个及以上变量的相关性时,我们的主要目的是分析两个“主要”观察变量的相关性,并考虑其它因素对其关联的影响,这就需要纳入其它因素。以三个变量为例,我们拟研究变量A和变量B之间的相关性,但希望“去掉”或“校正”变量C的影响,即分析调整变量C后,变量A和变量B的关系。在这种情况下,我们就需要在该研究中纳入变量C。
纳入其它因素是为了去除该类因素对主要观察变量相关性的影响。调整该类因素后,可以减少其对研究结果的干扰,更加准确地分析两个主要观察变量之间的关联,保证结果的真实可靠性。示例如下:
同样的例子也适用于分析含有4个或更多变量的相关性分析中,两个主要观察变量不变,但需要控制因素的数量增加,示例如下:
统计方法选择
1.1 两个主要观察变量是连续变量
① 纳入其它连续变量
Pearson偏相关。Pearson偏相关适用于分析两个连续变量的相关性,可以纳入其他连续变量。该检验不区分自变量和因变量,是Pearson相关中包含2个以上连续变量的特殊类型,不仅可以提示偏相关的统计学意义,而且可以通过相关系数提示关联强度。
② 纳入其它任意类型变量
多重线性回归。如果想区分自变量和因变量,可以采用多重线性回归进行分析。该检验不仅可以反映相关性,而且可以根据自变量预测因变量。需要注意的是,无序多分类的自变量需要做哑变量处理。有序分类变量如果不是定距的,也需要做哑变量处理。
1.2 两个主要观察变量均为分类变量
① 因变量是二分类变量
二分类Logistic回归。如果想区分自变量和因变量,可以采用二分类Logistic回归。该检验不仅可以反映相关性,而且可以通过自变量预测因变量。并且可以纳入其它连续、二分类、无序或有序多分类变量。
② 因变量是有序多分类变量
有序多分类Logistic回归。有序多分类Logistic回归在分析相关性时可以区分自变量和因变量,该检验不仅可以反映相关性,而且可以通过自变量预测因变量。并且可以纳入其它连续、二分类、无序或有序多分类变量。
③ 因变量是无序分类变量
无序多分类Logistic回归。同样需要注意的是,二分类、有序多分类和无序多分类Logistic回归中,无序多分类的自变量需要做哑变量处理。有序分类变量如果不是定距的,也需要做哑变量处理。
更多阅读
由医咖会与心联乔治心脏健康研究中心(HHRC)联合建立的心血管研究协作网络及数据共享平台(CDS)已经上线!
目前开放共享的数据为“中国房颤注册研究”,共有2.5万多房颤数据,欢迎来申请使用数据,发表SCI论文!
平台网址:
https://cds.mediecogroup.com/
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看全部统计教程。
快加小咖个人微信(xys2019ykh),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。