Cell Ranger 3.0 VS 2.0做了哪些改动(10x数据上游分析神器)
不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了五个小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给
不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了五个小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,包括5个栏目:
文献速递(简短介绍,扩充知识面)
文献详解(图文并茂带来大家系统性学习)
R与bioconductor技巧(书籍翻译,妙招共享)
scRNAseq的GitHub书籍翻译(原汁原味的名校教程)
全网第一个单细胞转录组视频教程学习笔记分享
希望大家能有所收获!!!
你现在看到的是读者投稿(随机栏目)
事情是这样的…
有一天,一个生信菜鸟突然想尝试一下Cellranger aggr在合并两个Sample的效果,由于之前都是利用Seurat的CCA功能来移除Batch effects, 在Aggregate 的时候突然报错提示两个样本的Molecular info h5是基于不同的转录组版本Mapping的,于是作者不得不重新跑了一下数据,跑完之后惊讶的发现细胞数目多了很多(多了大约2000个细胞),再一查看输出的outs里面竟然没有了mm10文件夹,输出的文件也都变成了压缩包的形式,难道我的数据出问题了?于是赶紧问询了一下隔壁Lab的小伙伴,发现原来是10x Genomics公司对Cell Ranger软件进行升级改造,本着“存在即合理”的想法,作者和广大群友讨论了一下新版Cell Ranger的主要变动。
首先,新版的Cell Ranger可检测到更多的低RNA含量细胞。Cell Ranger3.0降低了细胞检测的阈值,不再对单个细胞的UMI Count设定单一阈值筛选细胞,即包含了更多的低RNA拷贝数细胞,相比之下,新版Cell Ranger便于研究者研究某些特定低群体细胞,其在算法上分为两步:
基于每个Barcode的UMI count来识别含有高RNA量的细胞;
利用剩余的Barcode来区分低含量RNA细胞或空细胞,两者的UMI count类似
见下图:
图一:旧版Cell Ranger 2.2
图二:新版Cell Ranger 3.0
新版Cell Ranger 3.0设定的UMI count阈值为500
其次,新版的Cell Ranger 输出的文件格式发生了变化。
Cell Ranger 3.0将输出文件压缩以减少磁盘空间(见下图),features.tsv相比较于genes.tsv则多出了用于标记每个基因Feature_type的额外列,更新后的文件输出则不建议使用cellranger-rkit来进行分析,Seurat你懂的。另外Molecule info file的文件格式也已经大幅改变,以处理Feature Barcoding并移除几乎很少使用的Mapping Metrics。
最后,Aggregation Pipeline也发生了一些改变。为纠正因建库过程中不同版本试剂的化学反应造成的批次效应,Cell Ranger 3.0基于MNN(Mutual Nearest Neighbors, Haghverdi et al, 2018)的算法来识别批次间相似的细胞群体,简单来说就是将来自不同批次的一对细胞包含在彼此的最近相邻细胞群体中,MNNs通过检测每一对样本的批次效应用于平衡减少批次效应。同时新版Aggr增加了check_invariants 来检查Aggr输出的data和metadata是否与输入的文件相一致。另外cellranger aggr不再重新计算识别细胞的步骤,而是直接聚合输入文件的细胞数,并且不再支持 --normalize=raw选项(可用—normalize=mapped)。
怀着激动的心情试了一下新版的Aggr,结果看起来还不错呦,感兴趣的道友们可以亲自试验一把。
如果你想了解 2.0 版本的使用方法,请看:10x的单细胞转录组数据就应该这样处理
如何你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
单细胞天地欢迎你
最后,再次感谢南方医的小伙伴分享自己的学习心得,也希望读者受感染和鼓舞加入我们创作分享队伍。