综述:高维单细胞RNA测序数据分析工具(下)
呐,等你关注都等出蜘蛛网了~
当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长。
文献速递栏目通过简短介绍,扩充知识面,每天关注,希望你也能有所收获!
Author:Yan Wu and Kun Zhang
Date:2020 Mar 27
Journal:Nat Rev Nephrol(IF:19.684)
前文
综述:高维单细胞RNA测序数据分析工具(上)
综述:高维单细胞RNA测序数据分析工具(中)
2.3 Trajectory inference
虽然聚类有助于将细胞分组为离散的细胞类型,但在许多情况下,细胞的基因表达模式在细胞状态转换时形成连续体,如下图。对于这些数据集,通常首先执行聚类来识别轨迹所经过的细胞状态,以及不属于轨迹一部分的任何细胞状态。与主要由离散细胞类型组成的数据集相比,细胞状态的连续体通常以较少的离散标记基因和较多的沿连续梯度表达的基因的存在为特征。例如,在小鼠肾脏发育过程中,细胞不断地从肾元祖细胞向近端和远端小管分化。在这些类型的研究中,沿着这一连续体将细胞分配到特定的发育点是一个重要的分析目标;这种方法称为伪时间估计。确定连续体分裂为不同分支的点也很重要,因为这些分支点代表关键的命运决定。在一项研究中,确定了祖细胞分离并成为近端或远端小管细胞的分支点,使研究人员能够确定小鼠小管发育的关键调控因子。分析这类连续的细胞状态数据通常被称为轨迹推断,是一个非常活跃的研究领域。一项比较了45种不同轨迹推断方法的研究得出结论,由于这些连续数据集的结构存在很大差异,没有一种方法在所有情况下都表现良好,这意味着应该对任何给定数据集测试多种方法。此外,许多数据集包括离散和连续组件;因此,在分析过程中可能需要同时使用聚类和轨迹推断。
轨迹推断的一个常见问题是,由于技术或生物噪音,生物上不同的细胞可能被放置在这个连续体中彼此靠近,这一现象被称为“短路”(short circuiting)。处理这个问题的一个有趣的方法是基于分区的图抽象(partitionbased graph abstraction,PAGA),在前面提到的比较研究中,它是少数几个在大多数数据集上表现良好的方法之一,同时保持一个合理的计算运行时。在一种类似于图聚类的方法中,PAGA生成数据的最近邻图,然后生成细胞的分组,连接细胞之间的连接比随机期望的更多的组,从而构建数据的摘要图。由于“短路”在细胞群之间的连接比在单个细胞之间的连接更容易识别,所以PAGA排除了细胞群之间的虚假连接。Monocle3建立在这种方法的基础上,它通过构建单个细胞之间的连接来构建细胞级图,其中未在摘要图中连接的细胞组之间的任何连接都将被修剪掉。
已经发展了许多方法来确定细胞沿着发育轨迹的位置,但是它们没有提供关于轨迹方向的信息。预测细胞转录方向的一种方法是估计RNA的速度(RNA velocity)。这种方法是基于对RNA分子是剪接还是未剪接(即仍含有内含子序列的新生RNA)等理论推断的评估。对于一个给定的基因,未剪接的RNA与剪接的RNA的比例很高,这表明该基因的表达正在增加,因为未剪接RNA的数量越高,表明更多的RNA被转录而不是降解。相反,对于一个给定的基因,剪接RNA与未剪接RNA的比例很高,这表明基因表达量下降。因此,RNA velocity能够预测给定细胞未来的基因表达状态,并有助于确定,例如,肾元祖细胞是准备成为近端管状细胞还是远端管状细胞。
2.4 Visualization
在聚类和/或轨迹推断之后,下一步是生成一个二维或三维的单元散点图,以可视化数据中的主要趋势和轨迹。尽管这一步在概念上与降维相同,但在仅仅两到三个维度中,可视地分离密切相关的细胞类型(维护数据的局部结构),同时确保细胞类型和轨迹之间的相对距离反映了这些细胞类型之间基因表达差异的大小(维持数据的整体结构),是一项复杂的任务。许多线性降维方法,如PCA,无法在二维或三维中生成准确的数据视觉表示。因此,可视化方法倾向于使用非线性方法对数据进行转换,如果使用不当,可能会扭曲数据的结构。
t -随机邻接嵌入(tstochastic neighbour embedding ,t-SNE)是目前最流行的可视化方法之一,它利用细胞的两两相似性将细胞嵌入到一个低维空间中,以保证具有相似基因表达谱的细胞在嵌入时位置相近。因此,t-SNE优先考虑数据的局部结构,本质上确保相邻细胞在2D可视化中保持在一起(如下图)。该特性使t-SNE能够可视化地分离具有密切相关细胞类型的复杂数据集。然而,传统实现的t-SNE并没有有效地可视化数据集的全局属性,例如细胞类型之间的相对距离。t-SNE目前可以在Seurat、Pagoda2、SCANPY和CellRanger–Loupe Cell Browser 中实现。
在过去的几年里,UMAP已经取代t-SNE成为scRNA-seq数据的默认可视化方法。与图聚类类似,UMAP生成细胞的最近邻图,根据相似度的强弱对每个细胞间的连接进行加权,然后将图形嵌入到二维空间中。还可以使用PAGA图初始化UMAP,以生成连续开发数据集的高度精确可视化。在实践中,人们发现UMAP在可视化数据集的局部结构方面表现得和t-SNE一样好,包括分离密切相关的细胞类型,同时在可视化数据的全局属性方面表现得更好。因此,对于大多数用户来说,UMAP是一个非常有用的默认可视化选项。对UMAP和t-SNE的其他测试表明,初始化这些方法的方式对它们的整体性能非常重要。实际上,在使用PCA初始化时,t-SNE和UMAP在保存全局结构方面表现得同样好。
SWNE使用NMF降低数据的维数,然后使用维作为一个框架,在二维中投射细胞,使用加权的最近邻图调整细胞的相对位置。这个框架也使基因与细胞一起被可视化,为可视化增加了生物学背景和可解释性。SWNE的表现优于t-SNE,在捕获全局结构方面与UMAP相似,但其对局部结构的表示不如t-SNE和UMAP。
PHATE的热扩散势使用了一个对局部和全局结构都准确的基于扩散的距离度量。PHATE首先计算相邻细胞之间的局部距离,然后传播这些距离(以类似于Dmaps的方式)来计算所有细胞之间的全局距离。PHATE似乎在发展轨迹的数据集上表现得非常好,在捕获全局和局部结构方面,它比t-SNE和UMAP都表现得好。
深度学习方法还可以在二维嵌入中捕获高维数据的结构,因为它们能够捕获数据中的非线性。scvis使用深度神经网络将高维数据压缩成低维嵌入,从而比t-SNE(根据分类精度测量)更好地实现细胞类型分离(捕获局部结构的能力),以及更快的运行时。其他基于深度学习的方法,如scScope、DCA和scVI,也可以用于在二维中对高维数据进行编码。
总的来说,可视化对于理解和交流数据集的属性是至关重要的。一个常见的误解是聚类和可视化是相同的分析。虽然可以基于UMAP或t-SNE坐标创建聚类,但是使用更多的维度和通用方法(如PCA)来创建细胞聚类通常更有用,因为数据集的所有结构和细微差别不能精确地压缩到两维或三维中。事实上,一项基准测试研究发现,适合聚类的降维方法通常不适合可视化。然而,对于轨迹推断,用于可视化的方法,如UMAP、Dmaps和LLE,通常可以作为构建轨迹图的基础。
作为一个起点,UMAP是一个非常有用的默认方法,它忠实地可视化大多数数据集,并且比t-SNE或SWNE更少的参数调整就可以很好地工作。但是,用户仍然需要注意不要过度解释可视化,因为所有的方法都会导致一定程度的数据失真。此外,还需要对这些非线性方法的不同初始化如何影响它们的整体性能进行更多的研究。
2.5 Cell-type annotation
通常,scRNA-seq分析最耗时的步骤是识别数据集中存在的生物细胞类型。这种细胞类型注释的标准协议是找到每个簇中唯一表达的基因,并将这些基因与典型细胞类型标记列表进行匹配。标记基因发现和展示工具的有Seurat、Pagoda2、SCANPY和Loupe Cell Browser中。一项对标记基因发现方法的评估发现,大多数为bluk RNA-seq开发的方法,如edgeR和limma,与scrna - seq特异性方法一样有效。尽管如此,Wilcoxon方法(Seurat和Pagoda2的默认方法)的性能相对较好。
对于新用户来说,解释这些标记基因发现方法的输出可能具有挑战性。对于像Wilcoxon检验这样的单细胞方法,P值通常非常低,因为该试验将每个细胞视为一个独立的重复。在这些情况下,基因表达的对数倍变化可能是一个有用的度量,因为它指示了基因表达差异的大小。当一个实验包含多个生物学或技术重复时,一种有用的方法是通过对单个重复和单个cluster中的细胞计数求和或求平均值,在聚类后创建一个伪块计数矩阵。Bulk方法,如edgeR或limma,然后可以用来评估差异基因表达。
手动检查标记基因列表可能非常耗时,并且需要对所研究的生物系统有一定的了解。因此,生物学家和生物信息学家之间的密切合作在这个阶段非常有帮助。有一类方法可以利用标记基因在功能通路和基因本体论术语中的富集来帮助加速这一过程,这可以极大地提高可解释性。例如,在基因本体论术语“肾上皮发育”中高度富集的标记基因的细胞型簇可能包含与肾上皮相关的细胞。
第二类方法将单个细胞或类匹配到单个细胞或bulk 参考RNA-seq数据集,用于细胞类型的自动分类。对这些自动分类方法的基准分析发现,性能最好的方法是支持向量机,这是一种常见的机器学习分类器。分析还发现,使用之前已知的标准标记基因集(如加内特)的方法并不优于无偏方法。其他自动化细胞类型的注释方法包括scmap和scPred, scmap,使用参考数据集的相关性和基于机器学习的特征选择方法对scRNA-seq集群进行分类,scPred使用降维和分类的组合。
Seurat、CONOS和Scanorama等数据集成方法也提供了细胞类型的自动分类方法。这些方法跨数据集查找mnn,这使它们能够根据参考数据集的标签对数据集中的细胞类型进行分类,而无需预先设置细胞类型标签。例如,如果一个未知类型的细胞在参考数据集中有10个mnn,其中9个是足细胞,则未知细胞很可能也是一个足细胞。
尽管自动化的cell类型注释方法可能很方便,但它们需要现有的参考scRNA-seq数据集。如果数据集包含新的细胞类型或细胞状态,仍然需要使用标记基因进行人工注释。值得注意的是,即使使用参考数据集,对标记基因的人工检查对于验证所识别的细胞类型也是至关重要的。尽管如此,随着诸如人类细胞图谱和其他单细胞基因表达参考目录等单细胞图谱的广泛使用,细胞类型自动分类的应用将变得更加广泛。
2.6 Experimental design considerations
实验设计可以对分析产生实质性的影响。例如,如果要收集和分析多个生物样本,那么每个样本中的细胞都应该标记为允许多路复用(multiplexing),使用诸如细胞散列的方法,然后在相同的scRNA-seq运行中进行分析。例如,在3次scRNA-seq的运行中,对来自5个不同患者的肾脏样本的分析中,每一次运行都应该包含来自每个患者的标记细胞。这种方法能够区分样本特异性效应和实验批处理效应,如果样本来自病例对照研究,这一点尤其重要。例如,当比较基因敲除小鼠和野生型对照组时,来自这两种类型小鼠的细胞最好是在同一个实验中进行。组合标引方法促进了这种方法,因为来自不同样品的细胞可以在第一轮条码中定位在不同的孔中。对于基于液滴的方法,需要某种形式的特定于样本的细胞标记来识别细胞的样本源。然而,从逻辑角度来看,在同一批实验中收集处理的所有样本并不总是可能的,特别是对于跨越不同条件和/或时间点的动物实验,或者对于在临床过程中收集的患者样本。
scRNA-seq方法的选择对每个细胞捕获的分子数和分析的细胞总数也有影响。通常,组合索引方法比基于液滴的方法捕获的每个细胞的UMIs更少,这可能影响它们解析一些密切相关的细胞亚型的能力。然而,组合索引方法可以在每个实验中捕获更多的细胞,这可能使稀有细胞种群的识别成为可能。对于所有这些方法,用户通常可以控制装载到scRNA-seq平台上的细胞的数量。加载更多的细胞可以获得更大的通量,但代价是可能增加细胞的双重态(cell doublets)。
组织分离方法的选择也会对可用于分析的细胞类型产生重大影响。一个关键的选择是将样本分离成单个细胞还是单个细胞核。分离单个细胞已广泛应用于新鲜组织样品。对于冷冻组织,单核分离和测序是更可行的选择。两种方案似乎都有各自的特定偏差,尽管对于某些类型的样本,如人类神经元,只有单核解离被证明是有效的。单核方法的一个局限是,它们通常导致每个细胞捕获的分子更少,因为大多数RNA都在细胞质中。然而,仅从细胞核中获取的信息通常就足以对细胞类型和亚型进行精确分类。
3 Conclusions
scRNA-seq技术的技术进步导致了数据集规模和复杂性的增加。作为回应,一个计算方法的生态系统已经被开发出来,以处理分析这些数据集所涉及的挑战。基于MNNs识别的方法,成功地整合了跨患者、跨条件和跨技术的数据集,解决了scRNA-seq数据中批量效应的关键问题。此外,许多方法已被开发用于模拟细胞轨迹和识别细胞簇。然而,一个仍然存在的限制是,大多数聚类方法要求用户指定聚类的数量,而为给定的数据集找到最优的聚类数量是一个挑战。第二个限制是,使用标记基因手工标注细胞类型可能非常耗时。幸运的是,新的自动化和半自动化的细胞类型分类方法正在开发中,以解决这个问题,尽管新的细胞类型和状态仍然需要手工注释。
跨样本整合数据集的能力,以及最新的scRNA-seq方法增加的通量,将提高我们解析细胞子类型和发现罕见细胞类型的能力。此外,许多较新的方法,特别是用于低级数据预处理的方法,考虑了内存和中央处理单元的使用情况,这是非常重要的,因为单细胞数据集的大小在不断增加。这些计算方法的进一步发展将有助于研究人员进一步了解生物学。尽管在计算方法上取得了这些进展,但仍然需要通过测试多个生物重复或进行额外的实验(如免疫染色或RNA-FISH)来验证任何计算结果。
多组学方法的出现将需要一套新的工具来连接不同细胞参数的数据,如蛋白质表达或表观遗传数据,以提供更多的生物学见解。例如,分析基因表达与增强子和/或启动子可及性之间的关系可能描绘出细胞类型的基因调控特异性图谱,从而最大限度地利用scRNA-seq数据集。
往期精彩
如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
生信爆款入门-全球听(买一得五)(第4期) 你的生物信息入门课
数据挖掘第2期(两天变三周,实力加量)医学生/医生首选技能提高课
生信技能树的2019年终总结 你的生物信息成长宝藏
单细胞天地欢迎你