单细胞转录组数据质控要则
以新格元数据科学,访单细胞缤纷世界,欢迎来到单细胞数据科学。
子曾经曰过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。在我们拿到单细胞数据之后,第一步往往是对数据的质控(Quality Control),或曰数据清洗(Data Clean)。虽然在步骤上已成惯例,但是目前尚无统一标准,本期单细胞数据科学就和大家探讨一下数据质控的原则。
质控者视角
从一个待解离的组织到一个可分析的矩阵,每一步都需要质量控制。如:
细胞活性 红细胞裂解 细胞计数 cDNA文库质检 测序reads质控 识别有效barcode 细胞过滤 基因过滤
新格元拥有端到端的单细胞系统,可提供单细胞从组织解离到数据分析的全流程质量控制。当我们提到单细胞数据质控的时候,一般是指细胞的过滤,其实是从一个barcode X gene矩阵中过滤掉一部分不是细胞的barcode,如细胞碎片,双细胞,死细胞等。这三类barcode的特征可以通过其对应的基因表达情况来描述:nCount(总基因表达数)、nFeature(总基因数)、percent.HB(红细胞基因表达比例)、percent.MT(线粒体基因表达比例)。nCount和nFeature过高可能是双细胞,过低可能是细胞碎片。percent.HB刻画红细胞比例,percent.MT刻画细胞状态,值过高可能是濒临死亡的细胞。percent.MT的值和目标组织有关,有些组织细胞处于高度新陈代谢中,percent.MT会高于正常组织。
质控层次
单细胞数据可以从以下三个层次上来质控:
样本 细胞 亚群
以样本为单位的质控是最常见的,即以样本为单位来观察reads质量、nCount、nFeature、percent.HB、percent.MT等描述细胞状态的指标,如:
这种观察到的质量是样本的质量,得出的结论可能是:某个样本的线粒体基因表达较高,得到的是对样本的评价。在观察过数据基本分布之后,对数据有了一定的认知,实际分析管线中是按照单细胞来过滤的,很少出现直接去掉一个样本的情况,常见的流程是这样的:
pbmc <- Seurat::subset(pbmc, subset = nFeature_RNA > 200 & nFeature_RNA < 2500 & percent.MT < 30) # 细胞过滤
单细胞数据分析的基本单位是亚群(Cluster)。将这一原则应用到数据质控的话,在每次分完群之后就应该观察每个亚群的质量指标。毕竟物以类聚,质量差的细胞会聚成一个类。这样不至于质控的对象太大(样本),也不至于太小(单个细胞)。
数据质控要则
数据质控的基本问题是:去掉什么,保留什么。
回答是:去掉的是垃圾,保留的是数据。
在数据分析的开始,甚至是探索性数据分析之前,鉴于我们对数据内在规律知之甚少,数据质控的原则是:You can't stop it if you can't see it. 即,如果不能确定是数据中的垃圾,就保留下来,因为你去掉的可能是一个重要的基因或重要因素或重要稀有细胞亚群。基于这个原则,我们就不会过于纠结线粒体阈值到底是20%还是50%,就不会纠结双细胞的阈值该是多少。因为我们质控的目的是去掉不是细胞的东西,不能排除某种状态的细胞,在下游分析中,会成为我们苦苦寻找的那一个。
另一个技术上的原因是:过滤掉一些细胞很容易,过滤之后再加回来就困难了。如上面的代码,很容易subset
掉不符合条件的细胞,如果在下游的分析中发现质控太严格,是不容易把它们加回到数据对象中的。
以上,在单细胞数据科学中数据质控的原则是:质控时贪婪,验证时谨慎,最大限保留数据信息。
- THE END -
新格元秉持“格物致知,识微通元”的创新性理念,致力于发展简便可靠的单细胞组学技术,使之成为新一代细胞病理及血液检测手段,让单细胞组学以传统方法无法比拟的精确度、灵敏度和分辨率服务于精准医疗和健康管理等领域。
格物致知,识微通元
公司电话:0512-67215102
技术联系电话:18151629767
合作邮箱:marketing@singleronbio.com
官网:www.singleronbio.com
地址:南京市江北新区药谷大道11号加速器二期6栋4-5
地址:苏州市工业园区星湖街218号生物纳米园B4楼401