首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
百度
2
今日热点
3
微信公众平台
4
贴吧
5
opgg
6
dnf私服
7
百度贴吧
8
知乎
9
dnf公益服
10
百度傻逼
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
上海
2
习近平
3
新疆
4
鄂州父女瓜
5
乌鲁木齐
6
疫情
7
H工口小学生赛高
8
习明泽
9
芊川一笑图包
10
印尼排华
分类
社会
娱乐
国际
人权
科技
经济
其它
古树普洱茶山头直发,买茶别再花冤枉钱!
19岁中国留学生投票被抓,“假装”公民身份!且已无法撤回.........
中国留学生在美国非法投票,后果很严重
19岁中国留学生非法投票美国大选,被控2罪!或被判15年监禁
恶魔医生刘翔峰判了,湘雅二院改好了吗?
生成图片,分享到微信朋友圈
查看原文
其他
单细胞多组学数据无偏整合新策略
yan
生信人
2022-06-21
Unbiased integration of single cell multi-omics data
单细胞测序技术极大的推进了研究人员对发育、衰老、疾病等过程的认知,从细胞水平能够更好地理解基因如何影响细胞表型,进而影响个体的表型,具有重要意义。然而,目前的大部分测序技术仅能够较好地捕获单一组学层面的遗传信息,对于转录组、表观组、蛋白质组等多组学的信息往往不能同时获得,为了得到一个细胞的多组学信息,研究人员尝试建立相同生物样本不同组学数据之间的联系,将多个组学的数据整合到一起,更好地刻画细胞功能以及内部的调控过程。美国安德森癌症研究中心的团队开发bindSC,一个强大的单细胞多组学数据整合工具,该文章于2020年12月发表在bioRxiv上。
一、方法简介
先前的计算方法主要分为两个类别:(1)依据经验选择特征基因,然后整合两个数据集;(2)对每个数据集矩阵分别进行降维,进而进行无监督的流形对齐。以scRNA-seq和scATAC-seq数据整合为例,第一类方法通过计算每个基因内部和邻近区域的DNA reads数目,为每个基因构建基因活性矩阵。该策略仅考虑基本的顺式调控关系,而忽略了通过增强子等其他调控元件远端调控关系,简化甚至丢失了转录因子与目标靶基因之间的多因素关系。目前已有的整合策略当中,Seurat应用CCA和MNN识别锚定两个数据集的细胞; LIGER使用iNMF来区分数据集共享的和特异的基因特征;Harmony使用PCA将细胞投影到较低的共享维度中,并反复迭代以删除批处理效应。这三种方法均受到上述限制,因此无法构建一个全面、无偏的基因调控网络。第二类方法是完全无监督的、不要求先验特征基因的方式,例如MATCHER,然而在很大程度上依赖于以下假设——每个数据集中细胞间的特征变异仅仅受几乎很少的潜在变量驱动,但是在涉及分化、重编程、转分化等复杂的生物学过程经常与这一假设相矛盾。
作者开发了新的计算工具bindSC(bi-order integration of single-cell data),核心算法为bi-CCA(bi-order canonical correlation analysis),将相同生物样本不同实验产生的数据集(矩阵)之间建立最优的行、列比对关系,该方法以开源R包的形式发布在https://github.com/KChen-lab/bindSC。
二、基本思想及原理
BindSC的workflow包括以下五个基本步骤(如图1):(1)每个数据集的预处理,特征基因选择,无监督细胞聚类,聚类结果用于下游的分析。(2)初始化数据集之间的特征匹配,因为两个数据集之间的特征大部分是不同的,需要额外的一个转移矩阵来连接两个数据集。(3)采用bi-CCA算法同时捕获矩阵行、列的相关性信息,不断迭代以优化转移矩阵,最终得到稳定的细胞相关性与特征相关性结果。(4)基于共享近邻策略联合聚类,并将类别中距离相近的细胞融合成一个大的“伪细胞”,构建伪细胞水平的多组学特征矩阵。目前支持的组学数据类型包括转录组、表观基因组、空间转录组、蛋白质组四个组学信息的整合。
图1
三、方法评估
(一)仿真数据评估
作者构建了模拟的仿真数据集,包括1000个基因、由三种“细胞类型”组成的1000个细胞(信噪比0.25),在模拟的仿真数据集中观察bindSC的性能,依据轮廓系数、比对混合得分两个指标与CCA、Seurat、LIGER、Harmony方法进行比较(如图2),发现在不同的错误比对率(MR,Misalignment Rate)下bindSC均具有最佳性能。
图2
(二)转录组+表观遗传组整合:肿瘤细胞系
在地塞米松处理不同时间的A549细胞系数据中评估方法性能,6005个细胞进行sci-RNAseq,3628个细胞进行sci-ATACseq,其中1429个细胞同时具有两个组学的数据,因此作为评估过程中的金标准。图3a上表示细胞的收集时间,图3a下表示测序技术,灰色为sci-RNA,棕色为sci-ATAC。从轮廓系数、比对混合得分、锚定距离三个指标观察bindSC具有最优的性能(图3b),作者进一步比较每种方法对于TF-gene对、 cis-peak-gene对、trans-peak-gene对这三者的基于斯皮尔曼秩的相关性系数(SRCC,Spearman's Rank-order Correlation Coefficients),结果显示bindSC具有最高的准确性(图3c)。
图3
(三)转录组+表观遗传组整合:小鼠视网膜细胞
使用10x Genomics ATAC + RNA kit对成年小鼠视网膜样本进行测序,共计9383个高质量细胞,分别使用转录组与表观组数据进行聚类识别细胞类型(图4a-c),之后应用bindSC成功地将不同组学的相同细胞类型整合到了一起(图4d-f),对于其中一类较为稀有的细胞类型(细胞丰度0.25%)采用多种方法进行10个细胞亚型间整合(图4g-j),尽管ATAC数据集不如RNA数据集细胞注释结果清晰,但不难发现Seurat和LIGER方法难以产生有意义的结果,Harmony只获得了有限的几种亚型。综上所述,bindSC比以往的任何一种方法均具有较高的精确性。
图4
(四)转录组+空间转录组
bindSC能够整合sc-RNAseq数据和空间转录组数据,作者使用相同小鼠脑部额叶组织的SMART-Seq2数据和10x Visium空间转录组(ST)数据,ST数据中1072个位点,sc-RNAseq数据中14249个细胞(图5a-b)。使用不同策略整合sc-RNAseq数据与ST数据,考虑到每个空间位点可能包含多种细胞类型,作者基于降维后维度计算概率得分以代替每个位点的细胞组成比例,计算这种细胞组成比例与sc-RNAseq真实值之间相关性,发现bindSC具有最高的相关性(图5c,R = 0.9)。
图5
(五)转录组+蛋白质组
整合蛋白质组学数据:作者使用人类骨髓细胞的CITE-seq数据(30627个细胞)以及25个抗体相关的蛋白质数据,分别进行细胞类型注释(图6a-b),然而仅仅依靠着25个抗体蛋白及同源基因的RNA表达水平并不能够很好的区分细胞类型(图6c),bindSC能够将蛋白质信息与RNA信息很好的整合到一起(图6d-e),并且具有优于其它方法的锚定距离(图6f)。
图6
2021年,关注我们成为更好的自己
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存