其他
Hemberg-lab单细胞转录组数据分析(十)- Scater基因评估和过滤
单细胞系列教程
基因分析
基因表达
除了移除低质量的细胞,也会排除受技术操作影响较大的一部分基因。而且查看基因表达结果,可以帮助改进实验操作。
通常会看top 50
表达的基因占据了多少reads。
plotHighestExprs(umi, exprs_values = "counts")
ERCC spikein
,表明下次重复时可以稀释下spike in
的浓度,把测序的机会更多留给内源性基因。
基因过滤
通常建议移除那些表达水平极低以至于可以视为”未检测出”的基因。这里针对UMI数据,“检出”定义为至少有2个细胞检测到某个基因存在多于一个转录本。如果是reads counts数据, “检出”可以定义为至少有2个细胞检测到某个基因有至少5个reads count支持。请注意,对两种表达量计算方式,阈值的选择都与测序深度有关。自己的数据可以做相应的修改。另外一个需要注意的点是基因的过滤必须在细胞过滤后面,因为部分基因可能只在低质量细胞中能检测的到 (注意下面的colData(umi)$use
过滤).
keep_feature <- nexprs(umi[,colData(umi)$use], byrow=TRUE,
detection_limit=1) >= 2
rowData(umi)$use <- keep_feature
table(keep_feature)
## keep_feature
## FALSE TRUE
## 4660 14066
细胞类型,建库方案,测序深度都会影响阈值选择,勿硬套。
存储过滤后的数据
查看过滤后的数据集中保留的基因数和细胞数:
dim(umi[rowData(umi)$use, colData(umi)$use])
## [1] 14066 657
获取对数转换的原始count值,供下一章节使用,并且移除PCA的结果:
assay(umi, "logcounts_raw") <- log2(counts(umi) + 1)
reducedDim(umi) <- NULL
存储过滤后的数据
saveRDS(umi, file = "tung/umi.rds")
更多阅读
后台回复“生信宝典福利第一波”获取教程合集
听说分享到朋友圈的朋友会在公众号周年庆时中奖 (大家还记得去年的大放送吧,不记得查查历史