ScRNA-seq技术扫盲|单细胞如何分离质控?数据如何分析?(上)
单细胞RNA-Seq技术
及相关数据分析概述
单细胞RNA测序(scRNA-seq)技术实现了在单细胞分辨率下解析基因表达的可能性,这极大地改变了转录组学研究。目前已经开发了大量的scRNA-seq技术,这些技术都有各自的优缺点。由于技术限制和生物因素,scRNA-seq数据比 bulk RNA-seq数据更复杂。scRNA-seq数据的高可变性给数据分析带来了计算方面的挑战。虽然越来越多的生物信息学方法被提出用于分析和解释scRNA-seq数据,但需要新的算法来确保结果的准确性和再现性。
在本文中,我们为大家介绍下现有的单细胞分离和单细胞测序技术,并对不同的scRNA-seq数据分析方法,包括质量控制、数据比对,基因表达定量、批次效应校正,归一化,降维,特征选择,细胞分群、分化轨迹推理,可变剪接,基因调控网络重构等进行讨论(图1)。
本期先为大家介绍单细胞的分离,单细胞测序技术的比较,单细胞数据的比对和定量,以及单细胞数据的质控和归一化。
图1 单细胞数据分析流程
单细胞的分离技术
目前,分离单细胞有几种不同的方法,包括有限稀释法、显微操作法、流式细胞分选(FACS)、激光捕获微分离(LCM)和微流控。有限稀释技术是利用移液管稀释分离细胞,这种方法的主要缺点是效率低。显微操作法是一种经典的方法,用于从少量细胞样本中提取细胞,如早期胚胎或未培养的微生物,而这种技术是耗时和低通量的。流式细胞仪广泛用于分离单个细胞,在悬浮状态下需要较大的起始体积(>10,000个细胞)。LCM是一种先进的技术,利用计算机辅助的激光系统将单个细胞从固体组织中分离出来。微流体以其样品消耗量低、流体控制精确、分析成本低等特点,越来越受到人们的重视。这些单细胞分离方案具有各自的优点,在捕获效率和目标细胞纯度方面表现出明显的性能。
ScRNA-seq技术
迄今为止,已有许多scRNA-seq技术可用于单细胞转录组研究(图1)。2009年,Tang等人发表了第一个scRNA-seq方法,随后又开发了许多其他scRNA-seq方法。
这些scRNA-seq技术在 (1)细胞分离;(2)细胞裂解;(3)反转录;(4)扩增;(5)转录本覆盖度;(6)链特异性;(7) UMI(独特的分子标识符,可用于检测和量化独特的转录本的分子标记)等方面存在着差异。其中最明显的差异是,他们中的一些可以获得全长的转录测序数据(例如,Smart-seq2 SUPeR-seq, MATQ-seq),而其方法只能捕获和检测3`端 (如Drop-seq Seq-Well DroNC-seq, SPLiT-seq或5`端的序列信息(例如,STRT-seq) (图2)。不同的scRNA-seq方法可能拥有不同的优势和劣势。之前的一项研究表明,Smart-seq2可以检测到比其他scRNA-seq技术更多的表达基因,包括CEL-seq2、MAS -seq、Smart-seq和Drop-seq。最近,Sheng等人表明,另一种全长转录测序方法MATQ-seq在检测低丰度基因方面可以优于Smart-seq2。
图2 scRNA-seq技术综述
与3`端和5`端的检测方法相比,全长转录本的检测方法在转录本覆盖的优越性,等位基因表达检测、RNA编辑鉴定等方面具有无可比拟的优势。此外,对于某些低表达基因/转录本的检测,全长scRNA-seq方法可能优于3`端测序方法。值得注意的是,基于droplet的技术(例如Drop-seq、InDrop和Chromium)通常可以提供更大的细胞通量和更低的每个细胞的测序成本。因此,基于droplet的方法更适合于分析复杂组织或肿瘤样本的细胞亚群。
有些scRNA-seq技术可以同时捕获这两种数据,即包含有polyA的RNA和不包含有polyA的RNA,如SUPeR-seq。这些方法对长链非编码RNA测序 (lncRNA)和环状RNA(circRNA)的检测有较大优势。大量的研究已经证明了lncRNA和circRNA在细胞的各种生物过程中所起的作用。因此,这样的 scRNA-seq方法可以在单细胞水平上全面探索蛋白编码和非编码的RNA。
单细胞数据比对和基因表达定量
数据的比对率是衡量单细胞数据质量的重要指标之一。在此方面,Bulk RNA-seq和scRNA-seq没有区别。最初为Bulk RNA-seq开发的比对工具也同样适用于scRNA-seq数据。通常,序列比对算法主要分为两类:基于间隔种子索引的(spaced-seed indexing)和基于Burrows-Wheeler变换(BWT)的。目前常用的比对工具包括TopHat2、STAR和HISAT在速度和准确性方面表现良好,他们可以有效地将数十亿个序列比对到参考基因组或转录组(图3)。STAR是一个基于后缀数组的方法(suffix-array),它比TopHat2要快,但是它需要很大的内存(对于人的基因组需要28G内存),目前10X genomics所用的比对软件就是STAR。HISAT是基于BWT和Ferragina-Manzini (FM)方法开发的。HISAT是目前最快的工具,可以达到与其他比对软件相同或更好的精度。
对于基因/转录本的定量分析,需要根据scRNA-seq捕获的转录序列的范围,采取不同的方法。由Smart-seq2和MATQ-seq生成的全长转录本的数据可以使用与Bulk RNA-seq相同的定量方法。转录本的组装有两种主要方法:从头组装(de novo)(不需要参考基因组)和基于参考或基因组引导的组装。De novo组装方法主要应用于缺乏参考基因组的生物体,其准确性普遍低于基因组引导组装。常用的基因组导向组装工具包括Cufflinks, RSEM和Stringtie在许多scRNA-seq研究中被广泛应用,以获得相对基因/转录本表达估计量(reads或片段/千碱基/百万定位reads) (RPKM或FPKM)或转录本/百万定位reads (TPM)(图3)。对于3`端的scRNA-seq方法(例如,CELseq2、MARS-seq、Drop-seq和InDrop),需要有特定的算法来通过计算UMI来对基因/转录本定量。SAVER(通过表达恢复进行单细胞分析)是最近提出的一种高效的基于UMI的工具,用于准确估计单细胞的基因表达。在理论上,基于UMI的scRNA-seq可以在很大程度上降低技术含量噪声对绝对值的评估。
图3 单细胞数据比对及定量软件
单细胞测序数据质量控制
scRNA-seq的局限性包括转录本覆盖的偏倚、低捕获效率和测序覆盖,导致scRNA-seq数据的技术噪声水平高于Bulk RNA-seq数据。即使是最敏感的scRNA-seq方法,也经常出现某些特定的转录本检测不出来的现象(称为dropout事件)。一般来说,scRNA-seq的低质量数据主要来源于破碎或死亡的细胞,多细胞中生成。这些低质量的数据将阻碍下游的分析,并可能导致数据的误读。因此,对scRNA-seq数据的质量控制的关键是识别和去除低质量细胞。测序后,需要进行一系列的QC分析来剔除来自低质量细胞的数据。由于测序深度不足可能导致大量低表达和中度表达的基因丢失,因此这些样本只包含少量的reads,应该首先丢弃。然后,可以使用为 Bulk RNA-seq数据QC开发的工具(如FastQC1)来检查scRNA-seq数据的测序质量。此外,数据比对之后,应该删除比对率非常低的样本。细胞质RNA通常会丢失,而线粒体RNA则会保留在受损细胞中,因此,比对到线粒体基因组的reads比率也有助于识别低质量的细胞。此外,在每个细胞中可以检测到的表达基因/转录的数量也可以判断数据质量。如果在一个细胞中只能检测到少量的基因,那么这个细胞很可能已经被破坏或死亡,或者是RNA降解了。考虑到scRNA-seq数据的高噪声,通常用FPKM/RPKM≥1来定义表达基因。目前,scRNA-seq的QC方法有SinQC和Scater。
批次效应校正
批次效应是高通量测序实验中常见的技术变异来源。scRNA-seq技术的创新和成本的降低使得许多研究能够对大量细胞的转录组进行剖析。大规模scRNA-seq数据集可以在不同的时间由不同的操作人员单独生成,也可以在多个实验室使用不同的细胞分离协议、库制备方法和/或测序平台生成。这些因素会引入系统错误,混淆技术和生物变异,导致一个批次的基因表达谱与另一个批次的基因表达谱存在系统差异。因此,批次效应是scRNA-seq数据分析的一个主要挑战,它可能掩盖了潜在的生物学特性,并导致虚假的结果。目前用来处理scRNA-seq数据中的批处理效应的工具有MNN(相互最近邻居)和kBET (k-nearest neighbor batch effect test)。MNN使用来自不同批次中最相似细胞的数据校正批次效果。KBET是一种基于X2的方法,用于量化scRNA-seq数据中的批处理效果。
ScRNA-seq数据的归一化
为了正确地解释和分析scRNA-seq数据的结果,数据的归一化是至关重要的步骤,它是通过调整由捕获效率、测序深度、遗漏和其他技术影响引起的不希望的偏差来获得感兴趣信号的重要步骤。目前可用于scRNA-seq数据归一化的方法有Scnorm,SAMstrt和最近引入的一种反褶积方法,它使用跨单元池的累加表达式值来进行标准化。SCnorm是基于分位数回归的,SAMstrt依赖于spikein。研究者发现,SCnorm能有效地对scRNA-seq数据进行规范化,改善主成分分析(PCA)和差异表达基因的识别。
本期就先为大家介绍到这里,下期内容会对数据降维,特征筛选,细胞亚群鉴定,差异分析细胞谱系,拟时序分析,可变剪切等分析进行介绍。
推荐阅读
免费样本处理就快结束咯!
技术稿
促销 | 热门论文最新CP(单细胞测序+转录组测序)
福利稿
听说⊙▂⊙这是最全空间转录组技术
技术稿
盘它!值得收藏的空间转录组应用方向!
技术稿
咨询电话:17702139967(微信同号)
联系邮箱:Market@shbio.com
我知道你在看哟