本文转载自“态昌基因”,己获授权。
岁月不仅仅在你的脸上留下痕迹,还使你发胖~
大哥大嫂过年好呀~
春节过得怎么样呀,有没有被亲戚们的热情感动到啊
看着长辈和晚辈们亲切的眼神
此时的小昌只想发自肺腑地说一句:我要工作!
惯例,先来看一篇2017年发表在Diabetologia(影响因子为6.080)上的文章,标题为《前驱糖尿病患者肠道菌群异常》。
该病例对照研究共分析了134名前驱糖尿病和134名血糖正常的人肠道菌群,发现5个细菌属和36个OTU存在很大差异,对OTU相对丰度和临床生物指标构建相似性矩阵,矩阵热图如下(红色为正相关,蓝色为负相关);方格中的数值为显著性检验的p值。
研究某种疾病与菌群的关系时,往往涉及多个变量,通常包括样本、物种、基因、环境因子、代谢物、蛋白、代谢通路等等。如果能够找到变量之间的关系,并把这种关系用适当的数学模型表达出来,就可以利用这一模型根据给定的变量进行预测。
相关分析即是用来研究变量之间的关系,弄清楚变量之间是否存在关系,他们之间是什么关系,变量之间的关系强度如何,以及样本所反映的变量之间的关系能否代表总体变量之间的关系。
对成对数据进行相关性系数的计算和检验(多重≠多元),主要使用R语言中的cor.test()函数,其中有3种方法可供使用,分别是Spearman检验、Kendall检验和Pearson检验。
(其他方法还包括Hmisc包中的rcorr, 以及psych包中的corr.test;SPSS也是不错的选择)
而三种相关性检验技术中,Pearson相关性的精确度最高,但对原始数据的要求最高。Spearman等级相关和Kendall一致性相关的使用范围更广,但精确度较差。具体问题具体分析,下面就来详细了解一下三种相关性检验有什么不同。
划重点
1. Pearson相关系数
2. Spearman秩相关系数(例子)
3. Kendall秩相关系数
一 Pearson相关系数
Pearson相关系数,是度量两个变量之间线性关系强度的统计量,记为r,计算公式为:
1.适用条件
① 服从正态分布的定距变量;
② 两个数据序列的数据要一一对应,等间距等比例(观测值是成对的,每对观测值之间相互独立)。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
③极端值对积差相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的结论。
2.性质:
① r的取值范围在-1和+1之间,即-1≤r≤1。r大于0,表示正相关;r小于0,表示负相关;r=0表明x与y之间不存在线性相关关系。
② r具有对称性。x与y之间的相关系数和y与x之间的相关系数相等。
③ r数值的大小与x和y的原点及尺度无关。改变x和y的数据原点或计量尺度,并不改变r数值的大小。
④ r仅仅是x与y之间线性关系的度量,它不能用于描述非线性关系。当变量之间的非线性相关程度较强时,就可能会导致r=0,此时不能轻易得出两个变量之间没有关系的结论,而应结合散点图做出合理解释。
⑤ r虽然是两个变量之间线性关系的度量,却不一定意味着x与y一定有因果关系。
⑥ 对于一个具体的r取值,根据经验可将相关程度分为以下几种情况:当|r|≥0.8时,可视为高度相关;0.5≤|r|<0.8.可视为中度相关;0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。(建立在显著性检验的基础之上才可以这样解释)
3.相关系数的检验
r是根据样本数据计算出来的,它受到样本波动的影响;能否根据样本相关系数说明总体的相关程度,就需要考察样本相关系数的可靠性,也就是显著性检验。
相关系数的显著性检验通常采用R.A.Fisher提出的t分布检验,该检验可以用于小样本,也可用于大样本。
原假设为变量之间不相关,如果统计量P<α,就拒绝原假设,表明总体的两个变量之间存在显著的线性关系。
二Spearman秩相关系数
Spearman秩相关系数,也称等级相关系数,属于非参数统计方法,记为rs。
当定距数据不满足正态分布,不能使用皮尔逊相关分析,这时,可以在相关分析中引入秩,借助秩实现相关性检验,即先分别计算两个序列的秩,然后以秩代替原始数据,代入到皮尔逊相关系数公式中,得到斯皮尔曼相关系数公式:
1.适用条件
① 不服从双变量正态分布的资料;
② 总体分布类型未知;
③ 两个数据序列的数据一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
2.性质
① 与Pearson相关系数类似,Spearman秩相关系数的取值范围也为[-1,1], 当检验概率小于0.05时,表示两列数据之间存在相关性。
② Spearman秩相关系数不仅可以直接用秩来计算,也可以将数值型数据转化为秩来计算。
③对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。
3.实例
Table1:为随机森林挑选出的物种相对丰度表格
Table2:为样本对应的环境因子
若想了解物种与物种间的相关性,则只使用Table1计算相关性矩阵,颜色表示相关性的正负及相对大小,“*”表示显著性:
或用圆圈大小表示相关性的相对大小,颜色表示正负,空白为不显著:
更多本图画法见《R相关矩阵可视化包ggcorrplot》
如果想了解物种与环境因子的相关性,则需要合并Table1和Table2:
三Kendall秩相关系数
Kendall相关系数与Spearman秩相关系数一样,也是对两个顺序变量之间相关程度的一种度量,属于非参数统计方法,记为τ。
当既不满足正态分布,也不是等间距的定距数据,而是不明分布的定序数据时,不能使用Pearson相关和Spearman相关。此时,在相关分析中引入“一致对”的概念,借助“一致对”在“总对数”中的比例分析其相关性水平。
举例说明:
设所观察的一组样本数据对为(x1 ,y1),(x2, y2),…,(xn ,yn),将 x 的 n 个数据的秩按由小到大排列,y的n个数据的秩也相应地发生变动。 比如,x和y的 秩分别为:
x: 2 4 3 1
y: 3 4 1 2
将x的秩按由小到大排列后,x和y的秩则为下面的形式:
x: 1 2 3 4
y: 2 3 1 4
由于x的秩已按从小到大排列,因此x的观察值每两个之间都是一致对。再看y的情况,第一个秩为2,第二个秩为3,因为2小于3,是按自然顺序增加的,因此这是一个一致对;再看2和1,由于1小于2,不是按自然顺序增加排列,所以是一个非一致对。依次考察下去,凡是一致对记为+1,非一致对记为-1。考察结果如下表所示:
在x的秩按从小到大排列时,y的秩对的最大可能评分也应该是按从小到大排列的秩对的评分,也就是说,只有当y的秩对全部是一致对时,每一数对的秩均为+1,这时y的秩对的评分最大。这样,在x和y的评秩完全一致的情况下,最大可能的评分总数应该是一个组合。比如在上例中是
用U表示y的一致对数目,V表示y的非一致对数目,则一致对评分与最大可能总分之比为:
非一致对评分与最大可能总分之比为:
Kendall相关系数(记为r)的计算公式为:
或
数据要求:适用于不明分布的定序数据
小结:
①Pearson相关适用于正态分布、连续变量或是等间距测度的数据;Spearman相关适用于不明分布、连续变量;Kendall相关适用于两个分类变量均为有序分类的情况;
②当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关;
③若不恰当用了Kendall等级相关分析则可能得出相关系数偏小的结论;因此对一般情况默认数据服从正态分布的,宜用Pearson分析方法。
今天就到这里啦,记得今天周一要元气满满地上班哦
参考资料:
统计学_第五版_贾俊平_编著
Aberrant intestinal microbiota in individuals with prediabetes
猜你喜欢
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外120+ PI,1200+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”