查看原文
其他

优中选优-Nat Biotech系统比较7种单细胞(核)RNA测序技术 | 单细胞专题

市场部-LYR 联川生物 2022-06-07
单细胞转录组测序(scRNA-seq)已成为细胞状态,谱系鉴定和特征分析的主要工具。实验流程和相关分析软件无论在数量还是在稳定性上均呈现明显增长,这为大量的科学发现开辟了道路,在此基础上一项大型国际合作计划,即人类细胞图谱计划 (Human CELL ATLAS)应运而生,此计划的目的是建立人类所有细胞综合参考图谱。
不同 scRNA-seq方法的差别在于它们如何标记原始细胞的转录本并生成测序文库。基于多孔板(plate-based)的低通量方法是将细胞分不到到多孔板的孔中。基于beads的高通量方法是将细胞悬浮液分配小液滴或微孔中,液滴和微孔包含反应试剂试剂和带有barcode的beads,小液滴或微孔会包含一个细胞和一个beads,从而标记该细胞产生的所有cDNA,这种可拓展的索引组合方法,可在每个细胞或细胞核内原位mRNA和Barcodes,而无需物理分离单个细胞。
随着新方法的不断发展和现有方法的改进,scRNA-seq仍然是一个快速发展的领域。因此,有必要将新方法与现有方法进行比较,分析每种方法的优缺点,从而为使用者提供一些基本信息以协助做出正确的选择,通过不同方法的比较也能确定不同方法中共同的不足并作为实验改进的目标,并为算法开发人员开发新的数据处理软件包提供数据支撑。为此,来自Broad Institute of MIT and Harvard的 Joshua Z. Levin团队在 Nature Biotechnology上发表了文章 Systematic comparison of single-cell and single-nucleus RNA-sequencing methods,比较了7种不同scRNA-seq方法,包括两种低通量方法(Smart-seq2和CEL-Seq2)和五种高通量方法(Drop-seq、inDrops、10x-Chromium、Seq-Well和sci-RNA-seq),分析了三种样本类型:人类和小鼠细胞系混合样本、人类外周血单核细胞(PBMCs)和小鼠皮质核。

实验设计

1.样本类型
人类和小鼠细胞系混合样本(50%人HEK293细胞和50%小鼠NIH3T3细胞)、人类外周血单核细胞(PBMCs)和小鼠皮质核(用于单细胞核RNA测序),一次实验中每个样本类型两次重复(Mixture1、Mixture2、PBMC1、PBMC2、Cortex1和Cortex2)以评估重现性。同一个中心中进行了六次独立实验,共构建了36个文库。
图1:样本类型及重复数设置
2.单细胞测序方法选择
两种低通量方法(Smart-seq2和CEL-Seq2)和五种高通量方法(Drop-seq,inDrops, 10x Chromium, Seq-Well和sci-RNA-seq)。
图2:scRNA-seq方法
图3:不同scRNA-seq方法原理

数据结果

1.不同scRNA-seq间read结构和基因组结构比对率比较
首先分析exonic, intronic,intergenic, overlapping different genes mbiguous), multi-mapped和 unmapped reads情况(单细胞测序表达谱分析只使用Exonic reads,而细胞核样本表达谱分析会用到intronic reads)。在混合样本实验中,Smart-seq2在2次实验、inDrops在1次实验中exonic reads比例最高(分别为51.0%、53.7%和56.9%),sci-RNA-seq表现最差(28.7%、29.4%)(图4a)。与混合样本相比,PBMC样本整体exonic reads比例低, inDrops在1次实验中Exonic reads比例最高(46%),Seq-Well最低(20%)(图4b)。10X Chromium在混合样本以及PBMC样本中Exonic reads比例维持在40%左右(图4)。但和细胞相比,在细胞核内,intronic reads比例更高(图4c)。有趣的是,细胞核样本中10x Chromium (v2)的antisense reads率最高(33%和29%),其次是DroNc-seq(10%和12%)和sci-RNA-seq(6% and 9%)(图4c)。
图4:不同scRNA-seq方法reads比对分布
2.线粒体Reads分布
比对到线粒体的reads比例在某些情况下与细胞质量有关,能够反映细胞是否处于压力状态下,另外比对到线粒体的reads还可以用于基于mtDNA突变推断细胞间的谱系关系。作者推断,Bulk RNA-seq由于样本制备过程不会经历细胞解离等操作,因此Bulk RNA-seq线粒体比率能够真实反映样本中细胞线粒体转录本的比例。两次Bulk RNA-seq发现NIH3T3细胞中线粒体数据比例为13.0% 和 15.3%,HEK293细胞线粒体数据比例为8.5% 和 9.1%,在混合样本单细胞实验中,CEL-Seq2具有最高的线粒体数据比例(6.8%和7.2%),这基本真实体现了样本情况(图5a)。PBMC样本的Bulk RNA-seq发现其线粒体数据比例为12.6% 和 12.3%,PBMC单细胞测序中,inDrops (9.9% 和7.9%) and CEL-Seq2 (11.9%和12.9%)线粒体比例最高,另外相对于10x Chromium(v2)数据,10x Chromium v3数据有更多的线粒体基因RNA(图5b)。而在细胞核样本中,线粒体比例都很低(图5c)。
图5:不同scRNA-seq方法线粒体reads比例
3.灵敏度比较
由于单细胞实验起始RNA量很低,评估scRNA-seq方法的一个关键指标是灵敏度,即捕获RNA分子的能力,本研究通过分析细胞中检测到的UMIs或基因中位数来评估每种方法的灵敏度。
针对混合细胞样本,分析细胞中检测到的基因中位数,发现低通量方法CEL-Seq2灵敏度最高,inDrops灵敏度最低,Seq-Well灵敏度介于10x Chromium (v2) 、sci-RNA-seq和Drop-seq 、inDrops之间(图6a)。而当分析细胞中检测到的UMIs的中位数时,发现不同scRNA-seq方法相对排名基本没有发生变化(图6b)。
图6:不同scRNA-seq在混合细胞样本中UMI(a)和基因(b)中位数分布
在PBMCs样本中,低通量方法检测到的细胞UMIs和基因中位数比高通量方法多,Smart-seq2(检测到的基因中位数为2,406和2,632)和CEL-Seq2的性能相似。在高通量方法中,10x Chromium (v3) 细胞UMIs中位数 (4,494)和基因中位数 (1,482) 最高,而inDrops(366和1,118个UMIs、256和568个基因)和Seq-Well(844和577个UMIs、513和372个基因)灵敏度最低(图7)。
图7:不同scRNA-seq在PBMC样本中UMI(a)和基因(b)中位数分布
而在脑皮层细胞核中,Smart-seq2是唯一被测试的低通量方法,正如预期的一样,Smart-seq2在每个细胞中检测到的基因比高通量方法更多。在高通量方法中,10x Chromium (v2)的UMIs中位数最高(5,126和3,127),每个细胞的基因中位数也最高(2,462和1,744) (图8)。
图8:不同scRNA-seq在脑皮层细胞核样本中UMI(a)和基因(b)中位数分布
总的来说,低通量方法Smart-seq2和cell -seq2方法灵敏度最高,而在高通量方法中,10x Chromium方法检测到的细胞UMIs和基因中位数最多。
4.多细胞率比较
混合样本单细胞实验中能够评估多细胞率(2个及2个以上细胞聚合在一起被当成1个细胞捕获),除了第一次inDrops实验以外,所有7种方法的多细胞率均<3.5%(图9),其中低通量方法的多细胞率最低(<1%,主要因为低通量方法会先分选细胞然后再置于平板的每个孔中)。
估计多细胞率和每个细胞检测到的UMIs的数量的相关性,发现一般情况下,在UMIs数量最多的细胞中,多重态率较高(图9),这与预期一致,因为多细胞量标志着有更多的RNA输入。虽然大多数中间数量UMIs的细胞并不是多细胞,但在某些情况下,UMIs数量最少的细胞反而有更高的多细胞率,这表明这些细胞质量较差,或者有更多来自非细胞环境RNA的干扰。
图9:不同scRNA-seq多细胞率比较
利用混合细胞实验还可以分析一个细胞中检测到的基因是否真的来自这个细胞,而不是来自其他细胞的污染,发现随着测序深度的增加,从错误的物种中检测到更多的基因(此指标反映在每个轴对应的细胞Barcode回归线的斜率上,斜率越低越好)。对于低通量方法,Smart-seq2比cell -seq2表现得好得多。在高通量方法中,inDrops的斜率最低(最低),Seq-Well的斜率最高(图10)。
图10:单细胞测序外源细胞污染分析
5.技术精度
混合样本单细胞实验(受控条件下培养的同质细胞系组成)可以评估不同scRNA-seq的技术准确性,以往的研究表明,技术变异一般遵循泊松分布,但是比较发现,CEL-seq2、inDrops和Drop-seq的额外泊松变异系数相对较低,这与之前的研究一致。Smart-seq2数据具有最高的额外泊松变异系数,原因很可能是因为没有使用UMIs(图11)。
图11:不同scRNA-seq技术精度
6.区分和重现细胞能力
选择哪种scRNA-seq方法的另一个关键考量因素是选择的技术方法揭示生物学意义的能力。scRNA-seq最突出的应用是通过聚类识别区分不同的细胞类型,为评估不同scRNA-seq的细胞聚类质量,研究人员对基于已知标记基因聚类得到的细胞类型中每个细胞的基因表达进行评分,并计算每个聚类的受试者操作特征曲线(AUC)面积,以估计每个聚类中的细胞得分,AUC=1是最理想的鉴定结果。
不同scRNA-seq在PBMC样本中区分细胞类型和细胞类型重现能力存在差别,特别是在识别CD4+ T细胞、CD8+细胞毒性T细胞和自然杀伤细胞等转录水平高相关性细胞类型时比较困难。从t-SNE聚类结果看,10X Chromium和inDrops的区分度最好(图12a)。
由于每个实验的文库都源自相同的样本,所以可以评估不同方法之间的一致性。一般来说,大多数方法成功地重现了PBMCs中含量丰富的细胞类型,但分析得到的细胞类型相对丰度存在差别。对于罕见细胞的检测,不同方法间也存在差异,例如浆细胞样树突状细胞和残存的血小板,不同的方法检测得到的比例明显不同(图12b)。对于低通量方法,由于捕获不到足够的细胞而不能重现样本中的罕见细胞(图12b、12c)。高通量方法中,10x Chromium(v2)无论时鉴定的细胞类型数量还是所有细胞类型的平均AUC均表现最佳(PBMC1),其次是Drop-seq和10x Chromium(v3),而Seq-Well和inDrops各自均无法识别到两种细胞类型(图12c)。在PBMC2样本中,10x Chromium(v2)和inDrops表现最好,鉴定到了所有细胞类型(图12c)。
图12:不同scRNA-seq区分和重现细胞能力(PBMC)
与PBMC类似,小鼠皮质也包含多种明确的细胞类型,包括兴奋性和抑制性神经元,星形胶质细胞,少突胶质细胞,少突胶质细胞祖细胞,小胶质细胞,内皮细胞和周细胞。在所有方法的两次实验中,除了sci-RNA-seq,所有方法都可以鉴定除周细胞以外的所有细胞类型,周细胞仅在DroNc-seq (Cortex1)中被发现(图13)。sci-RNA-seq数据中同时还找不到少突胶质祖细胞和小胶质细胞(图13)。Smart-seq2、10x Chromium(v2)和DroNc-seq都具有较高的AUC(图13c)。值得注意的是,与PBMC数据集相比,虽然小鼠脑皮层实验中Smart-seq2方法只捕获了少量细胞(295和349),但也足以分析出足够多的细胞类型(图13)。
图13:不同scRNA-seq区分和重现细胞能力(小鼠皮层)
7.整合数据分析增强细胞检测能力和数据一致性
有两个可能原因会导致无法检测到某些细胞类型:(1)由于实验问题,文库不包含来自某些细胞的cDNA;(2)由于测序深度低和细胞数少,无法对某些细胞进行鉴定。为了区分具体原因,研究人员使用Harmony将每个PBMC实验的所有采样数据合并在一起并重新对细胞进行聚类分析,发现两个混合PBMC文库均可以检测到所有细胞类型,这支持了第二种假说。通过分析混合文库细胞类型和单个scRNA-seq各自分析到的细胞类型间的匹配度,发现10X Chromium(V2)鉴定到的细胞类型在混合数据和独立数据间一致性最高,其次是10X Chromium(V3)(图14).
图14:独立文库和整合文库细胞一致性
此研究为每种方法的相对性能提供了直接的指导,并为评估未来的技术提供了一个实验和分析框架。同时,这项研究为scRNA-seq数据分析中的许多挑战问题提供了解决思路和方案,同时由于这项研究中用到的样本类型都是比较容易获得的,以后当其他研究者需要评估一种新的scRNA-seq方法或改进scRNA-seq方法时,可以直接将他们获得的新数据和本项研究的数据数据进行比较,而不需要重复已有实验。这项研究中的原始数据已经上传GEO数据库(GSE132044),处理后的数据可以在single cell portal下载和在线分析(https://portals.broadinstitute.org/single_cell)。

相关阅读

套路必读:烧钱做单细胞上顶级期刊有哪些潜规则&nbsp;|&nbsp;单细胞专题
单细胞转录组数据分析&nbsp;|&nbsp;界面版数据分析工具简介
单细胞数据预处理原理问题集锦&nbsp;|&nbsp;单细胞专题
不看后悔!GEO数据库10X单细胞测序原始测序测序数据(fastq)下载指南来啦
一文告诉您如何选择合适的解离酶制备高质量细胞悬液&nbsp;|&nbsp;单细胞专题
人皮肤单细胞转录组分析鉴定特应性皮炎中新型成纤维细胞亚群及免疫亚群的富集&nbsp;|&nbsp;单细胞专题

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存