scRNA-seq Clustering quality control(二)
分享是一种态度
回顾
单细胞RNA-seq分析介绍
单细胞RNA-seq的设计和方法
从原始数据到计数矩阵
差异分析前的准备工作
scRNA-seq——读入数据详解
scRNA-seq——质量控制
为什么需要Normalization和PCA分析
scRNA-seq聚类分析(一)
scRNA-seq聚类分析(二)
scRNA-seq Clustering (一)
scRNA-seq Clustering (二)
scRNA-seq Clustering quality control(一)
探索已知的细胞类型标记
根据细胞的分群,我们可以通过寻找已知的标记来探索细胞类型的特性。图中显示带有标记的群集的UMAP图,后面跟着预期的不同细胞类型。
DimPlot(object = seurat_integrated,
reduction = "umap",
label = TRUE) + NoLegend()
通过来自Seurat的 FeaturePlot()
函数,可以使用存储在Seurat对象中的基因ID轻松地可视化少数几个基因。例如,如果我们对探索已知的免疫细胞标志物感兴趣,如:
Seurat的FeaturePlot()
函数使我们可以轻松地在UMAP可视化基础上探索已知标记。让我们仔细研究群集的类型。如果要获得所有基因的表达水平,而不仅仅是3000个高度可变的基因,我们可以使用存储在RNA
分析槽中的normalized计数数据。
# Select the RNA counts slot to be the default assay
DefaultAssay(seurat_integrated) <- "RNA"
# Normalize RNA data for visualization purposes
seurat_integrated <- NormalizeData(seurat_integrated, verbose = FALSE)
我们正在寻找跨群集的标记表达的一致性。例如,如果一种细胞类型有两个标记,并且只有一个标记在一个群集中表达,那么我们就不能可靠地将该群集定义为该细胞类型。
CD14+ monocyte markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("CD14", "LYZ"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
CD14+单核细胞似乎对应于群集1、3和14。我们不包括簇9和15,因为它们并不高度表达这两个标记。
FCGR3A+ monocyte markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("FCGR3A", "MS4A7"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
FCGR3A+单核细胞标志物在群集9明显高表达。
Macrophages
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("MARCO", "ITGAM", "ADGRE1"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
Conventional dendritic cell markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("FCER1A", "CST3"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
Plasmacytoid dendritic cell markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("IL3RA", "GZMB", "SERPINF1", "ITM2C"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
练习
探究表中每个不同的细胞类型对应的群集
注意:如果任何集群似乎包含两个独立的细胞类型,那么提高群集分辨率以正确划分群集是很有帮助的。或者,如果我们仍然不能使用更高的分辨率分离出群集,那么可能是我们使用的主成分太少,以至于我们没有分离出这些感兴趣的细胞类型。为了给我们选择PC提供信息,我们可以查看与UMAP图重叠的PC基因的表达,并确定我们的细胞群体是否被包括在内的PC分开。
练习答案
B cell markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("CD79A", "MS4A1"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
T cell markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("CD3D"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
CD4+ T cell markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("CD3D", "IL7R", "CCR7"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
与CD4+T细胞相对应的T细胞亚群是群集0、2、4、10和18。我们在其他群集中也看到了表达,但这些群集不表达高水平的T细胞标记CD3D。
CD8+ T cell markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("CD3D", "CD8A"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
NK cell markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("GNLY", "NKG7"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
除了第5群外,NK细胞标记物还在第8和第12群中表达;然而,我们知道群集5表达T细胞标记物。所以我们假设第5群集可能是激活的CD8+T细胞。
Megakaryocyte markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("PPBP"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
Erythrocyte markers
FeaturePlot(seurat_integrated,
reduction = "umap",
features = c("HBB", "HBA2"),
sort.cell = TRUE,
min.cutoff = 'q10',
label = TRUE)
基于这些结果,我们可以将群集与细胞类型相关联。然而,在对细胞类型执行群集的最终分配之前,我们希望使用标记识别来执行更深层次的分析。
现在我们对与大多数群集相对应的细胞类型有了一个很好的了解,但一些问题仍然存在:
群集7和20的细胞类型是什么? 与相同细胞类型相对应的群集是否有生物学意义的差异?这些细胞类型有亚群吗? 我们是否可以通过识别这些群集的其他标记基因来获得对这些细胞类型特性的更准确的识别?
标记识别分析可以帮助我们解决所有这些问题!!
下一步将是进行标记识别分析,这将输出不同群集之间表达显著差异的基因。使用这些基因,我们可以确定或提高对群集/子群集身份的置信度。
未完待续......
注:以上内容来自哈佛大学生物信息中心(HBC)_的教学团队的生物信息学培训课程。原文链接:https://hbctraining.github.io/scRNA-seq/schedule/ 点击 “阅读原文” 可直达
如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
生信爆款入门-第9期(线上直播4周,马拉松式陪伴,带你入门)你的生物信息入门课
数据挖掘第7期(线上直播3周,马拉松式陪伴,带你入门) 医学生/医生首选技能提高课
看完记得顺手点个“在看”哦!
长按扫码可关注