单细胞分析的10个基础问题
伴随着单细胞技术的流行,我们也做了很多福利项目,帮助大家对海量的公共数据集继续普通的标准分析,这样大家可以拿我们的分析结果进行后续个性化深入分析和解读:
明码标价之10X转录组原始测序数据的cellranger流程 (人民币800元) 明码标价之单细胞转录组的质控降维聚类分群和生物学注释 (人民币800元)
这个过程中,我安排工程师们整理了初次接触单细胞的小伙伴拿到了 我们的数据分析标准结果后通常的疑惑点,大家可以看看是否有同感。
单细胞数据质量控制的核心诉求是什么?
答:去掉各种各样的低质量的细胞 。
单细胞数据质量控制的主要做了什么?
一般是指细胞的过滤,其实是从一个barcode X gene矩阵中过滤掉一部分不是细胞的barcode,如细胞碎片,双细胞,死细胞等。
同时越想越过滤一些基因,因为上游的表达量矩阵定量过程可能gtf文件里面有五六万基因,实际上每个项目全部的成千上万的细胞也就表达两三万基因。
什么是nFeature,nCount?
答:nFeature(总基因数),nCount(总基因表达数)
为什么要过滤nFeature,nCount?
nCount和nFeature过高可能是双细胞,过低可能是细胞碎片。
如何理解nFeature和nCount的相关性?
总nCount(总基因表达数)越多那么nFeature(总基因数)就应该是高,就是呈现正相关关系,如果不是就需要去探索背后可能的原因。
如何理解 percent_mito,percent_ribo,percent_hb三个指标?
percent_hb(红细胞基因表达比例):表明红细胞这个单细胞亚群的比例,一般来说不研究红细胞,所以过滤它没有问题。 percent_mito(线粒体基因表达比例):表明细胞状态,值过高可能是濒临死亡的细胞,同样,不能一概而论,有些组织样本的细胞处于高代谢过程,该值会高于正常组织。 percent_ribo(核糖体基因表达比例):
我们之所以过滤这些,是因为在实际的实验操作过程中,会产生一些细胞杂质的影响,从而导致数据不准确。
但是如果不能确定是数据中的垃圾就先保留下来,因为你去掉的可能是一个重要的基因或重要因素或重要稀有细胞亚群。
基于这个原则,我们就不会过于纠结线粒体阈值到底是20%还是50%,就不会纠结双细胞的阈值该是多少。因为我们质控的目的是去掉不是细胞的东西,不能排除某种状态的细胞,在下游分析中,会成为我们苦苦寻找的那一个。
在单细胞数据科学中数据质控的原则是:质控时贪婪,验证时谨慎,最大限保留数据信息。
为什么要整合数据,不整合会有什么影响?
关于整不整合数据,时要根据实验设计和单细胞数据本身决定的,其中,在整合数据是为了更好的注释细胞亚群,而不用纠结为什么相同的细胞亚群在UMAP展示的时候相隔千里,当然这可能是因为样本特异性导致的离群细胞亚群。
分多少群是如何决定的,是不是分群数越多越好?
分群数是不确定的,这个完全取决于数据本身,如果分群数多,后面我们还是要将相同的细胞亚群注释在一起,这无形中增加了注释的难度,所以适当分群,合理的注释将会事倍功半,提升注释效率。
如何去定义细胞亚群?
单细胞数据分析过程中,我认为最重要的环节就是细胞亚群的注释,目前有自动化注释的SingleR 包和人工注释,这个就是仁者见仁智者见智的过程,没有好坏只要能注释出你想要的结果都是好结果,还是要说一点,人工注释的准确性会高一点。也就是根据其他文章中的marker gene进行注释,但这个每个领域的专家们的见解不同,会导致相同的细胞在不同的领域具有不同的名字。
marker gene 一定特异性高表达吗?
答:这个不一定,要根据实际数据来看。但是绝大部分的marker gene都是选取的在特定的单细胞亚群高表达基因,而且本身很多基因就是因为在某个数据集的某个单细胞亚群特异性高表达,才成为了下次分析的这个亚群的marker gene 。
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
数据挖掘(GEO,TCGA,单细胞)2022年5~6月场,快速了解一些生物信息学应用图表 生信入门课-2022年5~6月场,你的生物信息学第一课