单细胞多组学数据无偏整合新策略

yan 生信人 2022-06-21

Unbiased integration of single cell multi-omics data

单细胞测序技术极大的推进了研究人员对发育、衰老、疾病等过程的认知，从细胞水平能够更好地理解基因如何影响细胞表型，进而影响个体的表型，具有重要意义。然而，目前的大部分测序技术仅能够较好地捕获单一组学层面的遗传信息，对于转录组、表观组、蛋白质组等多组学的信息往往不能同时获得，为了得到一个细胞的多组学信息，研究人员尝试建立相同生物样本不同组学数据之间的联系，将多个组学的数据整合到一起，更好地刻画细胞功能以及内部的调控过程。美国安德森癌症研究中心的团队开发bindSC，一个强大的单细胞多组学数据整合工具，该文章于2020年12月发表在bioRxiv上。

一、方法简介

先前的计算方法主要分为两个类别：（1）依据经验选择特征基因，然后整合两个数据集；（2）对每个数据集矩阵分别进行降维，进而进行无监督的流形对齐。以scRNA-seq和scATAC-seq数据整合为例，第一类方法通过计算每个基因内部和邻近区域的DNA reads数目，为每个基因构建基因活性矩阵。该策略仅考虑基本的顺式调控关系，而忽略了通过增强子等其他调控元件远端调控关系，简化甚至丢失了转录因子与目标靶基因之间的多因素关系。目前已有的整合策略当中，Seurat应用CCA和MNN识别锚定两个数据集的细胞; LIGER使用iNMF来区分数据集共享的和特异的基因特征；Harmony使用PCA将细胞投影到较低的共享维度中，并反复迭代以删除批处理效应。这三种方法均受到上述限制，因此无法构建一个全面、无偏的基因调控网络。第二类方法是完全无监督的、不要求先验特征基因的方式，例如MATCHER，然而在很大程度上依赖于以下假设——每个数据集中细胞间的特征变异仅仅受几乎很少的潜在变量驱动，但是在涉及分化、重编程、转分化等复杂的生物学过程经常与这一假设相矛盾。

作者开发了新的计算工具bindSC（bi-order integration of single-cell data），核心算法为bi-CCA（bi-order canonical correlation analysis），将相同生物样本不同实验产生的数据集（矩阵）之间建立最优的行、列比对关系，该方法以开源R包的形式发布在https://github.com/KChen-lab/bindSC。

二、基本思想及原理

BindSC的workflow包括以下五个基本步骤（如图1）：（1）每个数据集的预处理，特征基因选择，无监督细胞聚类，聚类结果用于下游的分析。（2）初始化数据集之间的特征匹配，因为两个数据集之间的特征大部分是不同的，需要额外的一个转移矩阵来连接两个数据集。（3）采用bi-CCA算法同时捕获矩阵行、列的相关性信息，不断迭代以优化转移矩阵，最终得到稳定的细胞相关性与特征相关性结果。（4）基于共享近邻策略联合聚类，并将类别中距离相近的细胞融合成一个大的“伪细胞”，构建伪细胞水平的多组学特征矩阵。目前支持的组学数据类型包括转录组、表观基因组、空间转录组、蛋白质组四个组学信息的整合。

图1

三、方法评估

（一）仿真数据评估

作者构建了模拟的仿真数据集，包括1000个基因、由三种“细胞类型”组成的1000个细胞（信噪比0.25），在模拟的仿真数据集中观察bindSC的性能，依据轮廓系数、比对混合得分两个指标与CCA、Seurat、LIGER、Harmony方法进行比较（如图2），发现在不同的错误比对率（MR，Misalignment Rate）下bindSC均具有最佳性能。

图2

（二）转录组+表观遗传组整合：肿瘤细胞系

在地塞米松处理不同时间的A549细胞系数据中评估方法性能，6005个细胞进行sci-RNAseq，3628个细胞进行sci-ATACseq，其中1429个细胞同时具有两个组学的数据，因此作为评估过程中的金标准。图3a上表示细胞的收集时间，图3a下表示测序技术，灰色为sci-RNA，棕色为sci-ATAC。从轮廓系数、比对混合得分、锚定距离三个指标观察bindSC具有最优的性能（图3b），作者进一步比较每种方法对于TF-gene对、 cis-peak-gene对、trans-peak-gene对这三者的基于斯皮尔曼秩的相关性系数（SRCC，Spearman's Rank-order Correlation Coefficients），结果显示bindSC具有最高的准确性（图3c）。

图3

（三）转录组+表观遗传组整合：小鼠视网膜细胞

使用10x Genomics ATAC + RNA kit对成年小鼠视网膜样本进行测序，共计9383个高质量细胞，分别使用转录组与表观组数据进行聚类识别细胞类型（图4a-c），之后应用bindSC成功地将不同组学的相同细胞类型整合到了一起（图4d-f），对于其中一类较为稀有的细胞类型（细胞丰度0.25%）采用多种方法进行10个细胞亚型间整合（图4g-j），尽管ATAC数据集不如RNA数据集细胞注释结果清晰，但不难发现Seurat和LIGER方法难以产生有意义的结果，Harmony只获得了有限的几种亚型。综上所述，bindSC比以往的任何一种方法均具有较高的精确性。

图4

（四）转录组+空间转录组

bindSC能够整合sc-RNAseq数据和空间转录组数据，作者使用相同小鼠脑部额叶组织的SMART-Seq2数据和10x Visium空间转录组（ST）数据，ST数据中1072个位点，sc-RNAseq数据中14249个细胞（图5a-b）。使用不同策略整合sc-RNAseq数据与ST数据，考虑到每个空间位点可能包含多种细胞类型，作者基于降维后维度计算概率得分以代替每个位点的细胞组成比例，计算这种细胞组成比例与sc-RNAseq真实值之间相关性，发现bindSC具有最高的相关性（图5c，R = 0.9）。

图5

（五）转录组+蛋白质组

整合蛋白质组学数据：作者使用人类骨髓细胞的CITE-seq数据（30627个细胞）以及25个抗体相关的蛋白质数据，分别进行细胞类型注释（图6a-b），然而仅仅依靠着25个抗体蛋白及同源基因的RNA表达水平并不能够很好的区分细胞类型（图6c），bindSC能够将蛋白质信息与RNA信息很好的整合到一起（图6d-e），并且具有优于其它方法的锚定距离（图6f）。

图6

2021年，关注我们成为更好的自己

古树普洱茶山头直发，买茶别再花冤枉钱！

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

单细胞多组学数据无偏整合新策略

您可能也对以下帖子感兴趣

古树普洱茶山头直发，买茶别再花冤枉钱！

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

生成图片，分享到微信朋友圈

单细胞多组学数据无偏整合新策略

您可能也对以下帖子感兴趣