Hemberg-lab单细胞转录组数据分析（十）- Scater基因评估和过滤

Original 陈同生信宝典 2022-03-28

收录于话题 #单细胞之Hemberg-lab 24个

单细胞系列教程

基因分析

基因表达

除了移除低质量的细胞，也会排除受技术操作影响较大的一部分基因。而且查看基因表达结果，可以帮助改进实验操作。

通常会看top 50表达的基因占据了多少reads。

plotHighestExprs(umi, exprs_values = "counts")

表达最高的50个基因的reads分布相对平缓，且比例不大，在一定程度上反应了测序对整个转录组覆盖较好。但是最高表达的15个基因里面有4个ERCC spikein，表明下次重复时可以稀释下spike in的浓度，把测序的机会更多留给内源性基因。

基因过滤

通常建议移除那些表达水平极低以至于可以视为”未检测出”的基因。这里针对UMI数据，“检出”定义为至少有2个细胞检测到某个基因存在多于一个转录本。如果是reads counts数据, “检出”可以定义为至少有2个细胞检测到某个基因有至少5个reads count支持。请注意，对两种表达量计算方式，阈值的选择都与测序深度有关。自己的数据可以做相应的修改。另外一个需要注意的点是基因的过滤必须在细胞过滤后面，因为部分基因可能只在低质量细胞中能检测的到 (注意下面的colData(umi)$use过滤).

keep_feature <- nexprs(umi[,colData(umi)$use], byrow=TRUE, 
                       detection_limit=1) >= 2
rowData(umi)$use <- keep_feature

table(keep_feature)

## keep_feature
## FALSE  TRUE 
##  4660 14066

细胞类型，建库方案，测序深度都会影响阈值选择，勿硬套。

存储过滤后的数据

查看过滤后的数据集中保留的基因数和细胞数:

dim(umi[rowData(umi)$use, colData(umi)$use])## [1] 14066 657

获取对数转换的原始count值，供下一章节使用，并且移除PCA的结果：

assay(umi, "logcounts_raw") <- log2(counts(umi) + 1)
reducedDim(umi) <- NULL

存储过滤后的数据

saveRDS(umi, file = "tung/umi.rds")

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

Hemberg-lab单细胞转录组数据分析（十）- Scater基因评估和过滤

单细胞系列教程

基因分析

基因表达

基因过滤

存储过滤后的数据

更多阅读

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

生成图片，分享到微信朋友圈

Hemberg-lab单细胞转录组数据分析（十）- Scater基因评估和过滤

单细胞系列教程

基因分析

基因表达

基因过滤

存储过滤后的数据

更多阅读

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡