数据分析,从偏相关分析开始
问题
上期我们留了一个问题:身高与肺活量的相关是否真实?如何检验两个变量的相关是否真实或者虚假?接下来,我们来介绍偏相关分析——教你如何辨别是非。
相关知识
偏相关分析也称净相关分析,在剔除控制变量的影响下,分析变量之间是否存在显著的相关性的统计方法。换言之,偏相关分析是一种用来判断虚假相关的方法。比如,同样的身高,体重数值未必一样,还会受胖瘦的影响。这时肥胖可能就是我们的控制变量。例如下图,X与Y有相关关系(重合部分),但是这部分关系可能不是真实的,于是我们引入另一个变量Cov作为控制变量,再对X和Y做相关分析,发现这时候相关度就变小了(扣除了Cov与Y的相关,剩下的红色框里面的是X与Y“独有”的相关)。
当控制变量个数为一时,偏相关系数称为一阶偏相关系数;控制变量个数为二时,偏相关系数称为二阶相关系数;控制变量个数为为零时,偏相关系数称为零阶偏相关系数,也就是相关系数。
相关分析是研究两个变量共同变化的密切程度,但有时出现相关的两个变量又同时与另外的一个变量相关(共同作用);有时由于某个变量充当了相关性的中介作用,而另外的两个变量并不存在实质性的相关关系,造成这种伪相关现象的变量被称为“桥梁变量”(中介变量)。
操作步骤
问题:分析身高与肺活量之间是否存在虚假相关?
结果解释
当不控制“体重”时,身高与肺活量的相关系数为0.601>0,显著性为0.005<0.05,说明身高与肺活量呈显著正相关。
当控制变量“体重”后,身高与肺活量的相关系数为-0.002<0,显著性为0.993>0.05,说明身高与肺活量不存在显著相关。这表示,未控制体重前,身高与肺活量的关系是一种虚假相关。
小结
相关是后续分析的基础。如果变量之间不存在相关,后续分析就没有任何意义。表达互相联系事物的依存情况有两种方式:相关关系和函数关系。相关分析仅能说明变量之间的相互依存的关系,而不能说明变量之间的数量关系,即函数关系。敬请关注下期《数据分析,从回归分析开始》。
所有例题的数据文件都会上传到QQ群中,需要对照练习的朋友可以前往下载,QQ群号见下方温馨提示。
授人以鱼不如授人以渔
给我一份数据,还你一个世界
明诚数据工作室
数据分析 | 远程教学 | 论文指导
统计咨询 | 课程开发 | 技术指导
温馨提示
数据分析服务:如有数据分析或一对一远程教学的需要,请添加微信2433657970(小明同学)进行咨询。
SPSS教学视频:请点击《常用统计分析方法与操作》视频课程 正式上线啦!
SPSS有话说QQ群:706175650,用于分享文章提到的各种案例资料、软件、数据文件等。支持各种资料的直接下载和百度云盘下载。
加入我们:请点击 明诚数据工作室招贤纳士。
数据分析咨询:请点击首页下方“服务咨询”板块,获取咨询流程!