相关性热图还能玩出什么花样？

Original 莫北基迪奥生物 2023-11-25

关于相关性，表示数据之间的相互依赖关系，但需要注意，数据具有相关性不一定意味着具有因果关系。相关性在组学数据挖掘中应用非常广，如样本的重复检验、基因的共表达分析、微生物群落的共发生网络分析等。

相关性分析其实较为简单，用R语言自带的cor()函数非常容易计算得到两两变量间的相关系数。下面我们就来看下如何用R语言实现相关性计算并绘制带有显著性星标的相关性热图。

如果想了解到相关性分析的原理，可以到文末拓展阅读部分复习下相应的知识点。

1.相关系数计算

以R自带的数据集mtcars为例，直接计算矩阵或数据框对应列之间的相关性系数。

#查看范例数据的前6行；
head(mtcars)

#计算mtcars数据框的相关性系数;
cor<- cor(mtcars)
class(cor)
#查看得到相关性系数矩阵的前5行，前5列；
cor[1:5,1:5]

2.绘图样式

#安装R包；
install.packages("corrplot")

#载入相关R包；
library(corrplot)
#默认的绘制方法是 "circle",图形的样式还可以是"square"、"ellipse"、"pie"和"color"等，其中method = "number"时，只显示相关性系数；
corrplot(cor, method = "square")

#可绘制lower、lower、full三种布局方式的热图，当然也可以混合显示；
corrplot.mixed(cor, lower = "square", upper = "circle", tl.col = "black")

3.聚类顺序调整

#常见的排序方式有 "AOE", "FPC", "hclust", "alphabet"；
#"AOE" 是指按特征向量的角度排序(angular order of the eigenvectors);
#"FPC" 是按照 first principal component 的顺序排序；
#"hclust"是按照分层聚类的结果排序；
#"alphabet"按照名称字母顺序排序。
corrplot(cor, order = "hclust")

#如果是选"hclust"，还可以根据聚类结果添加矩形框；
corrplot(cor, order = "hclust", addrect = 2)

4.调整颜色

#自定义渐变颜色；

col2 <- colorRampPalette(c("#77C034","white" ,"#C388FE"),alpha = TRUE)

#使用这些渐变颜色；
#addgrid.col调整网格颜色；
#outoutline指定图形描边；
corrplot(cor, order = "hclust", addgrid.col = "grey70",type = "upper",
outline = "orange",col = col2(100),method = "square",diag = F)

#Tips:这里的col2的对象类型是函数！
col2(100)
class(col2)

#自定义文本标签颜色：
#tl.* 系列参数用于调整文本标签；
#tl.col (text label color) 调整文字标签颜色;
#tl.srt (text label string rotation) 调标签角度(横轴方向)；
#tl.cex调字体大小；
#使用r自带颜色集cm.colors的效果如下；
corrplot(cor, order = "hclust",col = cm.colors(100),method = "square",
tl.col="black",tl.cex = 0.8)

5.图例调整

# cl.* 系列参数用于调整图例；
#cl.ratio 调整颜色条的宽度；
#cl.align调整颜色条刻度标签的对齐方式；
#cl.length指定颜色条标签个数；
corrplot(cor, order = "hclust",col = col2(100),method = "circle",
cl.length=5,addgrid.col = NA,outline = "grey60",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)

#绘制上三角热图；
corrplot(cor, order = "hclust",col = col2(100),method = "square",
cl.length=5, type = "upper",diag = F,
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)

#去掉图例和标签；
corrplot(cor, order = "hclust",col = col2(100),method = "square",
tl.col="black",tl.cex = 0.8,cl.pos = "n",tl.pos = "n")

6.显示数值

#添加显著性标记：
#使用cor.mtest做显著性检验；
res1 <- cor.mtest(mtcars, conf.level = .95)
res2 <- cor.mtest(mtcars, conf.level = .99)

#提取p值矩阵；
p.mat = res1$p
p.mat[1:5,1:5]

#指定显著性水平,不显著的为空白；
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = .05,insig = "blank",addgrid.col="white")

#显示P值；
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = -1,pch.cex=1,
insig = "p-value", pch.col = "white")

#显示相关系数；
#par(lty=2)可指定线的粗细，遗憾的是会作用到图例的线条；

corrplot(cor, order = "hclust",col = col2(100),method = "color",
cl.length=5,addgrid.col="white",cl.pos = "r",
addCoef.col="black",number.cex=0.6,number.digits=1,number.font=1,
tl.col="black",tl.cex = 0.8,cl.ratio = 0.2)

#缺失值的展示，默认是用“？”,也可以自定义；
#corrplot(cor, na.label = "NA")

7.添加显著性星标标记

#insig为"p-value",不显著的格子显示p值;
#insig为"label_sig",可用于显示不同显著水平的星标；
#insig为"pch" (default),不显著的格子显示pch值对应图形；

corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = c(.001, .01, .05),outline="white",
insig = "label_sig",pch.cex = 1.2, pch.col = "white")

8.推荐另一个R包ggcor

上文的corrplot包是基于R基础绘图函数创建的，那么又没有基于ggplot2的呢？有，比如相对应的ggcorrplot包，不过我这里推荐另一个R包：ggcor 。

#安装方法：
# install.packages("devtools")
devtools::install_github("houyunhuang/ggcor")
#载入R包；
library(ggcor)
library(ggplot2)

#直接快速绘制整个相关性热图；
quickcor(mtcars, cluster = TRUE,cor.test = TRUE) +
geom_colour() +
geom_mark(size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 1)

#直接绘制上三角热图；
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_colour(data = get_data(type = "upper")) +
geom_mark(data = get_data( type = "upper"),size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)

#直接绘制上三角“方块”热图；
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_square(data = get_data(type = "upper")) +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(size = 0.6)

#直接绘制上三角“气泡”热图；
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_circle2(data = get_data(type = "upper"),colour="white") +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)

关于ggcor的教程还可参考后面《绘制一篇Science文章的组合图》一文，更详细的教程见厚缊大神的博客：http://houyun.xyz/

拓展阅读

方差（Variance）：

每个样本值与全体样本值的平均数之差的平方值的平均数，用于衡量一个变量的数据和期望值离散程度，公式如下，其中，σ²即D(X)、Var(V)，为总体方差，X为变量，μ为总体均值，N为总体个数。

或

协方差（Covariance）：

用于衡量两个变量的总体误差。而方差可看作是协方差的一种特例，即当两个变量是相同的时候。公式如下：

可以看出，若X，Y正相关（变换趋势相同），则协方差值为正；变化趋势相反则协方差值为负。

相关系数（Pearson）：

相关系数是研究变量之间线性相关程度的指标，而相关关系是一种非确定性的关系，数据具有相关性不能推出有因果关系。相关系数的计算公式如下：

其中，公式的分子为X，Y两个变量的协方差，Var(X)和Var(Y)分别是这两个变量的方差。当X,Y的相关程度最高时，即X,Y趋近相同时，很容易发现分子和分母相同，即r=1。

好啦，本次就分享到这里啦，不知对你有没有启发呢？

实用科研工具推荐
详实生信软件教程分享
前沿创新组学文章解读
独家生信视频教程发布

继续滑动看下一个

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

大瓜！找工作太难了：私募大佬白嫖95后小姐姐事件刷屏！

深度 |台积电断供大陆芯片，任正非罕见感谢特朗普，美霸权摇摇欲坠

福建一地公示！1989年出生的她，拟提任正处

马斯克：不新生毋宁死！

相关性热图还能玩出什么花样？

您可能也对以下帖子感兴趣

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

大瓜！找工作太难了：私募大佬白嫖95后小姐姐事件刷屏！

深度 |台积电断供大陆芯片，任正非罕见感谢特朗普，美霸权摇摇欲坠

福建一地公示！1989年出生的她，拟提任正处

马斯克：不新生毋宁死！

生成图片，分享到微信朋友圈

相关性热图还能玩出什么花样？

您可能也对以下帖子感兴趣