其他
单细胞转录组数据处理之降维聚类分群
前面我们一起学习了单细胞转录组数据的上游分析,而且了解了自己的项目的样本数量和测序量,还过滤了不合格的细胞和基因, 系列教程目录如下:
降维聚类分群是一条龙分析
sce <- FindVariableFeatures(sce, selection.method = "vst", nfeatures = 2000)
# 步骤 ScaleData 的耗时取决于电脑系统配置(保守估计大于一分钟)
sce <- ScaleData(sce)
sce <- RunPCA(object = sce, pc.genes = VariableFeatures(sce))
sce <- FindNeighbors(sce, dims = 1:15)
sce <- FindClusters(sce, resolution = 0.2)
# 这个 resolution 可以调整,值越大,分出来的细胞亚群越多,默认是 0.8
table(sce@meta.data$RNA_snn_res.0.2)
首先看两种降维
首先FindVariableFeatures是硬过滤,根据一些统计指标,比如sd,mad,vst等等来判断你输入的单细胞表达矩阵里面的2万多个基因里面,最重要的2000个基因,其余的1.8万个基因下游分析就不考虑了。 然后RunPCA函数其实跑完之后2000个基因会转变为2000个维度,但是我们通常看前面的十几个维度就ok了,所以也是一个效率非常高的降维方式。
然后看聚类分群
那我们说的tSNE和umap是怎么回事呢
困惑度(perplexity)可以表示细胞的邻近个数,在tSNE图上的直观反映是细胞点的分布是否紧凑。perplexity设置越大,细胞分布越紧凑。 tSNE的参数设置:perplexity < (细胞数-1)/3,建议perplexity = 细胞数 / 50; tSNE倾向于保留数据的局部结构。
可以修改的参数
文末友情宣传
全国巡讲全球听(买一得五)第3期(4月6日开始) ,你的生物信息学入门课 生信技能树的2019年终总结 ,你的生物信息学成长宝藏 2020学习主旋律,B站74小时免费教学视频为你领路