查看原文
其他

什么?不做单细胞也能分析细胞类群和免疫浸润?

Editor's Note

免疫浸润,喜闻乐见~

The following article is from Biomamba 生信基地 Author BIOMAMBA

目前来说通过单细胞测序对于分析器官、组织内的异质性来说可谓是首选方法,但是动辄数万元/样的费用并不适合所有科研工作者。所以这篇推送教大家如何通过CIBERSORT[1],使用Bulk RNA-Seq(一直以来都只分享scRNA-Seq的内容,是时候照顾一下这部分用户了)的数据去反向预测、推断细胞类群的比例,利用这个原理我们同样可以推断免疫细胞的浸润程度(这在TCGA的数据挖掘中十分常见)。CIBERSORT主要是通过一种线性支持向量回归( linear support vector regression,SVR)的方法进行特征捕捉,从而起到去卷积的作用。



作为测试数据,作者设计并验证了一个白细胞基因特征矩阵,称为LM22它包含了区分22种人类造血细胞表型的547个基因,包括7种T细胞类型、naïve和记忆B细胞、浆细胞、NK细胞和骨髓亚群经流式细胞术的验证,CIBERSORT的预测与真实的情况大约有93%的一致性。


一、做一个最简单的CIBERSORT:
if(!require(CIBERSORT))devtools::install_github("Moonerss/CIBERSORT")
## Loading required package: CIBERSORT
## Welcome to 'CIBERSORT' package!
## =======================================================================
## You are using CIBERSORT version 0.1.0
## =======================================================================
if(!require(pheatmap))devtools::install_github("pheatmap")
## Loading required package: pheatmap
data(LM22)
LM22[1:5,1:5]
## B cells naive B cells memory Plasma cells T cells CD8 T cells CD4 naive
## ABCB4 555.71345 10.74423 7.225819 4.31128 4.60586
## ABCB9 15.60354 22.09479 653.392328 24.22372 35.67151
## ACAP1 215.30595 321.62102 38.616872 1055.61338 1790.09717
## ACHE 15.11795 16.64885 22.123737 13.42829 27.18773
## ACP5 605.89738 1935.20148 1120.104684 306.31252 744.65660
data(mixed_expr)
mixed_expr[1:5,1:5]
## TCGA-05-4244-01 TCGA-05-4249-01 TCGA-05-4250-01 TCGA-05-4382-01
## A1BG 26.0302 120.1349 50.8597 145.9037
## A1CF 0.0000 0.3220 0.0000 0.0000
## A2BP1 1.7454 1.6098 0.0000 0.0000
## A2LD1 135.5022 89.0629 151.1332 112.0685
## A2ML1 0.3491 1.6098 0.0000 4.7861
## TCGA-05-4384-01
## A1BG 127.3671
## A1CF 0.0000
## A2BP1 0.0000
## A2LD1 87.5748
## A2ML1 0.0000
results <- cibersort(sig_matrix = LM22, mixture_file = mixed_expr)
## Warning: package 'purrr' was built under R version 4.0.5
##
## Attaching package: 'purrr'
## The following object is masked from 'package:magrittr':
##
## set_names


理解一下结果

你可以理解为返回了一个列名为细胞类型、行名为样本名的细胞浸润程度(占比)的矩阵

此外result中还会多出三列:

P-value: 用来展示去卷积的结果在所有细胞类群中是否具有差异

Correlation:参考矩阵与输入矩阵的特征基因相关性

RMSE: Root mean squared error,参考矩阵与输入矩阵的特征基因标准差



画个热图看一下

#按行(样本内部)标准化可以看出在各类样本内部,M2浸润程度(占比)最高
rowscale <- results[,1:ncol(LM22)]
rowscale <- rowscale[,apply(rowscale, 2, function(x){sum(x)>0})]#删除全是0的列
pheatmap(rowscale,scale = 'row')

#各类样本之间也具有自己占比高的特异性免疫细胞
columnscale <- results[,1:ncol(LM22)]
columnscale <- columnscale[,apply(columnscale, 2, function(x){sum(x)>0})]#删除全是0的列
pheatmap(columnscale,scale = 'column')




也许柱状堆积图更直观?

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.5
my36colors <-c('#E5D2DD', '#53A85F', '#F1BB72', '#F3B1A0', '#D6E7A3', '#57C3F3', '#476D87','#E95C59', '#E59CC4', '#AB3282', '#23452F', '#BD956A', '#8C549C', '#585658','#9FA3A8', '#E0D4CA', '#5F3D69', '#C5DEBA', '#58A4C3', '#E4C755', '#F7F398','#AA9A59', '#E63863', '#E39A35', '#C1E6F3', '#6778AE', '#91D0BE', '#B53E2B', '#712820', '#DCC1DD', '#CCE0F5', '#CCC9E6', '#625D9E', '#68A180', '#3A6963','#968175'
)
cellnum <- results[,1:ncol(LM22)]
cell.prop<- apply(cellnum, 1, function(x){x/sum(x)})
data4plot <- data.frame()
for (i in 1:ncol(cell.prop)) {
data4plot <- rbind(
data4plot,
cbind(cell.prop[,i],rownames(cell.prop),
rep(colnames(cell.prop)[i],nrow(cell.prop)
)
)
)
}

colnames(data4plot)<-c('proportion','celltype','sample')
data4plot$proportion <- as.numeric(data4plot$proportion)
library(ggplot2)
ggplot(data4plot,aes(sample,proportion,fill=celltype))+
geom_bar(stat="identity",position="fill")+
scale_fill_manual(values=my36colors)+#自定义fill的颜色
ggtitle("cell portation")+
theme_bw()+
theme(axis.ticks.length=unit(0.5,'cm'),axis.title.x=element_text(size=1))+
guides(fill=guide_legend(title=NULL))




二、通过单细胞测序构建参考矩阵(sig_matrix)与需要预测的矩阵(mixed_expr)


2、以上是免疫细胞的浸润预测,如果我想做与自己的实质性器官相关的细胞类型预测呢?CIBERSORT具有网页版[2],但是并没有给出sig_matrix的详细制作方法,问题不大,我们先来了解一下sig_matrix 与mixture_file的文件要求。

(1)sig_matrix

首先我们需要构建用户自己的“LM22”(参考数据),这一步我们需要通过一种过滤方法进行预处理,删除与细胞特征不相关的基因从而保留特征基因。LM22需要是归一化后的矩阵[3],其要求与下面mixture_file的要求相一致

(2)mixture_file

这个文件的要求为:

a、以tab(制表符)为分隔符,不允许存在缺失值、不允许存在双引号。

b、行名为基因名,列名为样本名

c、输入的数据不能是取对数后的矩阵,如果表达矩阵中的最大值小于50,那么CIBERSORT会对表达矩阵通过2x方式去对数化。

d、数据的表达矩阵会通过“quantile normalization”的方式进行标准化。

e、如果输入的基因名中存在重复,那么CIBERSORT只会选取其中表达量最高者进行计算。

f、mixture_file需要包含至少50%的参考数据基因(LM22)

library(Seurat)
## Warning: package 'Seurat' was built under R version 4.0.5
## Registered S3 method overwritten by 'spatstat.geom':
## method from
## plot.imlist imager
## Attaching SeuratObject
scRNA <- readRDS('pbmcrenamed.rds')
DimPlot(scRNA,split.by = 'orig.ident')#可以看出我们有三组样本

#先画一下各类细胞的比例

cellnum1 <-table(scRNA$orig.ident,scRNA$celltype)
group<-rownames(cellnum1)
celltype <- colnames(cellnum1)
cell.prop<-as.data.frame(prop.table(t(cellnum1)))
colnames(cell.prop)<-c("Celltype","sample","proportion")
data4plot1 <-as.data.frame(cell.prop)
p1<-ggplot(cell.prop,aes(sample,proportion,fill=Celltype))+
geom_bar(stat="identity",position="fill")+
scale_fill_manual(values=my36colors[1:20])+#自定义fill的颜色
ggtitle("cell portation")+
theme_bw()+
theme(axis.ticks.length=unit(0.5,'cm'))+
guides(fill=guide_legend(title=NULL))
#记住这张图


正式开始

allmarkerscRNA <- FindAllMarkers(scRNA)
## Calculating cluster VSMC
## Calculating cluster T cell
## Calculating cluster Macro
## Calculating cluster B cell
## Calculating cluster Fibro
## Calculating cluster Myeloid cells
## Calculating cluster Mono
## Calculating cluster Neut
## Calculating cluster EC
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.5
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
top10 <- allmarkerscRNA %>% group_by(cluster) %>% top_n(10, avg_log2FC)
VlnPlot(scRNA,features = top10$gene,stack = T)

#看了一下top10的基因,分离度尚可,能够作为这些细胞的marker
#那就用这些基因作为sig_matrix吧,为了保持sig_matrix与mixed_expr的一致,你所得到的Bulk RNA-Seq的数据应该是TPM、FPKM的数据,那么对应单细胞里的表达量应该是
Idents(scRNA) <- 'celltype'
DimPlot(scRNA)

mysig_matrix <- AverageExpression(scRNA, slot = 'data' ,verbose = FALSE)$RNA
mysig_matrix[1:5,1:5]#已经按要求整理好了,行名是基因名,列名是细胞类型
## VSMC T cell Macro B cell Fibro
## Xkr4 0.02267521 0 0 0 0.008157272
## Gm19938 0.01302098 0 0 0 0.009772305
## Sox17 0.00000000 0 0 0 0.000000000
## Gm37587 0.00000000 0 0 0 0.000000000
## Gm37323 0.00000000 0 0 0 0.000000000
mysig_matrix <- mysig_matrix[top10$gene,]#取出marker gene的矩阵
#老规矩,我们还是打算用这个数据集本身就是最好的测试数据,我们来验证结果是否可靠
Idents(scRNA) <- 'orig.ident'#将单细胞数据的分类换成样本
DimPlot(scRNA)

mymixed_expr <- AverageExpression(scRNA, slot = 'data' ,verbose = FALSE)$RNA
mymixed_expr[1:5,1:3]#此时获得的是行名为基因,列名为样本的矩阵
## C57 AS1 P3
## Xkr4 0.007338256 0.002842255 0.000000000
## Gm19938 0.004337453 0.000000000 0.003088998
## Sox17 0.309160353 0.123368835 0.095429888
## Gm37587 0.007844007 0.003721769 0.002002724
## Gm37323 0.000000000 0.000000000 0.000000000
myresults <- cibersort(sig_matrix = mysig_matrix, mixture_file = mymixed_expr)

### 再画一次堆积图
cellnum2 <- myresults[group,1:ncol(mysig_matrix)][,celltype]
cell.prop<- apply(cellnum2, 1, function(x){x/sum(x)})
data4plot2 <- data.frame()
for (i in 1:ncol(cell.prop)) {
data4plot2 <- rbind(
data4plot2,
cbind(cell.prop[,i],rownames(cell.prop),
rep(colnames(cell.prop)[i],nrow(cell.prop)
)
)
)
}

colnames(data4plot2)<-c('proportion','celltype','sample')
data4plot2$proportion <- as.numeric(data4plot2$proportion)
data4plot2$celltype <- factor(data4plot2$celltype,levels = levels(scRNA$celltype))
library(ggplot2)
p2<-ggplot(data4plot2,aes(sample,proportion,fill=celltype))+
geom_bar(stat="identity",position="fill")+
scale_fill_manual(values=my36colors)+#自定义fill的颜色
ggtitle("cell portation")+
theme_bw()+
theme(axis.ticks.length=unit(0.5,'cm'),axis.title.x=element_text(size=1))+
guides(fill=guide_legend(title=NULL))
#肉眼可见,我们通过CIBERSORT预测出的细胞比例几乎与我们的单细胞对象比例一致
p1|p2


当然,你可能会说,肉眼估测的不算,那我们再来一个相关性分析:

library(ggplot2)
library(ggpubr)
## Warning: package 'ggpubr' was built under R version 4.0.5
data4lm <- as.data.frame(cbind(data4plot1$proportion,data4plot2$proportion))
#DT::datatable(data4lm)
colnames(data4lm)<- c('original','predict')
ggplot(data=data4lm, aes(x=as.numeric(original), y=as.numeric(predict)))+
geom_point(color="black")+
stat_smooth(method="lm",se=TRUE)+stat_cor(data=data4lm, method = "pearson")+
ggtitle(label ='linear model')+geom_rug()+
labs(x='original',
y= 'predict')
## `geom_smooth()` using formula 'y ~ x'


看看这相关性,说实话我都震惊了,真的跟作者说的一样,具有93%的一致性,所以大家可以放心的用起来。sig_matrix制作方法已经给大家演示过了,替换成自己想参考的单细胞数据即可,mixed_expr就用大家bulk RNA-Seq获得的TPM即可。本推送的测试数据、代码可在后台回复CIBERSORT领取



参考文献:
[1]: Newman AM, Liu CL, Green MR, Gentles AJ, Feng W, Xu Y, Hoang CD, Diehn M, Alizadeh AA. Robust enumeration of cell subsets from tissue expression profiles. Nat Methods. 2015 May;12(5):453-7. doi: 10.1038/nmeth.3337. 
[2]: https://cibersort.stanford.edu/manual.php
[3]: https://cibersort.stanford.edu/tutorial.php





如何联系我们


最近发现后台中有一些消息我没能及时看到并答复,微信后台中超过48h后便不允许回复读者消息,这里还是再给大家留一下答疑的扣扣号,方便大家随时交流:1913507043。微信号可以点击喜欢作者后自动回复里有。欢迎大家向我咨询或者提供建议大家可以阅读完这几篇之后添加我:如何搜索公众号过往发布内容
答疑公约
笑一笑也就算了




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存