谈一谈单细胞测序中细胞数和测序深度对细胞类型定义准确度的影响 | 10X单细胞专题
近两年来,单细胞转录组测序技术获得快速发展,特别是大通量单细胞转录组测序,突破了传统单细胞测序技术低通量、高成本等局限,可一次性实现数万乃至数十万细胞的捕获和表达图谱分析,用于解析不同器官、组织中复杂基因表达、调控网络在单个细胞中的运行机制,解析各个细胞中这些网络的差异,以及各种细胞群体如何协同工作,在发育生物学、肿瘤、免疫等研究领域得到广泛应用。
任何测量都要考虑精度和通量的问题,生物测量亦如此。当测序成本受到限制时,通常需要在较大的细胞数&较小数据量和较小的细胞数&较大数据量之间进行权衡,那对于单细胞测序来讲,细胞数和测序数据量对于分析结果有何影响,希望通过此文能够解释一二。
2016年Heimberg et al开发了一个公式,评估测序数据量对测序样本区分能力的影响(测序数据量对主成分再现度的影响)。研究人员选择了19个不同小鼠转录组数据(平均测序数据量107 reads),分析发现1%的测序数据即可有效区分样本(图1)。具体而言,当测序数据量达到55000 reads/样本时,前三个主成分(PC1、PC2、PC3)再现度超过80%,而若使前九个主成分均达到80%的准确度,则需要145000reads。
图1Bulk RNA-seq测序数据量与主成分再现性能力关系图1
单细胞转录组测序的核心分析内容是构建细胞图谱,区分不同细胞类型,类似于Bulk RNA-seq中的样本PCA分析。为了分析测序数据对细胞类型区分的影响,Heimberg选择了Zeisel et al于2015年发表在Science的文章的数据(3005个大脑皮质和海马区细胞,15000 unique transcripts/cell)进行了分析。使用相同的公式,发现在1000 transcripts/cell情况下,前三个主成分的再现错误率分别是11%、22%和38%(图2A)。当数据量只有100 transcripts/cell时即可区分少突胶质细胞和两类锥体神经元,准确度>90%。而当数据量达到1000 transcripts/cell时,能够区分海马锥体神经元和皮层锥体神经元,准确度>90%(图2B)。
图2:测序数据量对单细胞聚类的影响
Heimberg et al的结果表明表明,低测序深度情况下可以实现样本分群/细胞聚类。而为了进一步分析测序数据量和细胞数对细胞聚类的影响,10X官方设置了不同测序数据量和细胞数对PBMC主要细胞类型检测精度影响的实验:
1、对4000个PBMC细胞测序,平均测序数据量为50K reads/cell;
2、随机抽样设置不同测序深度:500、1K、2.5K、 5K、 7.5K、10K、 15K,、25K和50K reads/cell;
3、随机抽样设置不同细胞数:100、200、400、600、800、1K、2K、 3K和 4K细胞
此次评估过程采用的是10X Genomics 单细胞转录组V2试剂,V2试剂建议的最低测序数据量是50K reads/cell,通过图3可知,当平均测序数据达到50K reads/cell时,测序饱和度、检测到的转录本数量/细胞、基因数量/细胞以及总基因数基本饱和,表明官方推荐数据量足够数据分析。
图3:测序饱和度、转录本、基因检测饱和度分析
对于检测细胞数,低测序数据量(平均506 reads/cell)和高测序数据量(平均86503 reads/cell)相差不大,检测到细胞数分别是4273、4353,但是两种测序深度下,检测到的基因中位数差别很大,分别是160、1234(图4)。
图4:不同测序深度下检测细胞数比较
尽管低测序深度时部分指标灵敏度较低,但是通过graph-based聚类依然推定了不同细胞亚群,t-SNE聚类图见图5A。基于CD3D、CD3E鉴定T细胞; GNLY、NKG7鉴定NK细胞; CD79A、CD79B鉴定B细胞;CD14、FCGR3A鉴定单核细胞(图5B)。
图5:不同测序深度下细胞聚类和鉴定比较
在细胞聚类和鉴定基础上进一步分析,不同测序深度范围内,四种细胞类型(T细胞、NK细胞、B细胞、单核细胞)类型分类准确度范围为93-99%(图6A、B),当测序深度达到2.5K reads/cell时,细胞类型分类准确度达到98%并且相对一致。当测序深度降低到500 reads/cell时,相比饱和测序数据量,细胞类型分类准确度降低幅度(7%)远远低于转录本中位数/cell(94%)、基因中位数/cell(87%)和总基因鉴定数(33%)幅度。
为了评估样品中细胞数量对细胞类型分类准确性的影响,在每个读取深度基础上按照100-4000个细胞进行二次取样。在测序深度为50Kreads/cell时,不同细胞数量下细胞类型分类准确性范围为82-99%(图6 C)。当细胞数是1000时,精确度变化幅度为10%(87-98%),而在100个细胞时,准确度估计值为55-92%,表明随着细胞数的减少,细胞分类准确度变异性增加。综合测序数据量和细胞数,可知在低细胞数情况下,随着测序深度增加,细胞类型分类准确度依然维持在较低水平,但在低测序深度情况下,细胞类型分类准确度可以随细胞数量增加而增加(图6 D),表明细胞数对细胞类型分类准确度的影响大于测序深度,在设计单细胞实验时,在能达到官方推荐测序数据量的基础上(V2试剂,官方推荐数据量50K reads/cell;V3试剂,官方推荐数据量20K reads/cell),需要重点考虑捕获细胞数,而不是一味增加测序数据量(实际做单细胞测序时,虽然细胞活性可能达不到上述模拟实验中的细胞活性,背景干扰多一些,但是测序时一般会提高测序数据量,保证测序数据趋于饱和)。
图6:不同测序深度和细胞数对细胞类型定义准确度的影响
相关标题
【10×单细胞应用解析】Science:儿童肾癌和成年人肾癌的不同发育起源
【10×单细胞应用解析】Science: 小鼠肾脏单细胞转录组测序揭示了肾脏疾病的潜在细胞靶标
Nature:脂肪细胞的“叛徒”——脂肪细胞调控脂肪形成 | 10×单细胞案例解析
Hepatology:单细胞分析显示肝癌干细胞的异质性 | 10×单细胞案例解析