查看原文
其他

sc-GCN:使用图卷积网络进行单细胞组学数据的知识迁移

郭瑞东 集智俱乐部 2022-04-27


导语


单细胞组学数据,例如转录组(scRNA-seq),表观组(scATAC-seq)记录了细胞间的分子水平的差异性和相互作用,使生物学家得以深入了解复杂生物生态系统的单个细胞组成部分。随着相关数据的积累,利用已有标记数据间的关系,去对新数据集进行预测成为可能。一篇6月22日发表于 Nature Communications 的论文,指出图卷积神经网络能够在该任务上取得最好的表现。


研究领域:生物复杂性,多组学,图神经网络

郭瑞东 | 作者

赵雨亭 | 审校

邓一雪 | 编辑



论文题目:

scGCN is a graph convolutional networks algorithm for knowledge transfer in single cell omics

论文地址:

https://www.nature.com/articles/s41467-021-24172-y




1. 单细胞数据的知识迁移为何困难




单细胞转录组测序得到的无标注数据,可以通过和已有的带标注的数据进行相似性比对,给出标签;标签可以是细胞类型、细胞发育中的状态、细胞功能或细胞间的通信模式。鉴于单细胞数据的爆炸性增长,迫切需要利用现有的具有良好标注的数据集作为参考,以确保数据的注释是可靠并一致的。


通过单细胞数据的知识迁移,可找出带标签的参考单细胞数据中不同标签间的拓扑关系,并将标签转移到新生成的数据集中,从而为新数据分配细胞级标注。


然而,现有的数据集和新生成的数据集往往是取材于不同的组织和物种、在不同的实验条件下、来自不同的平台、包含不同的组学类型。这使得单细胞领域的知识迁移方法,必须能够在适应不同实验环境带来的差异,捕捉到不同生物组织间的内在差异。


常用的单细胞知识迁移,使用的模型是Seurat V3,它以某一个数据为锚进行的;而另一方法Conos,则是通过将已知的新的样本的成对比对,生成一个联合图表示,将标签从已知样本传播到新样本上,而CHETAH 为未标注数据,自上而下的构建了一个分类树,所有这些方法,都只从单个细胞中提取共享的信息,而忽略了细胞之间的高阶关系,从而导致其分类效果较差。





2. scGCN是如何使用图卷积网络得




单细胞组学的数据集,都可以看成是一个二维矩阵,横轴是基因,纵轴是标签。在数据预处理的步骤中,研究人员先找出数据中差异最显著的基因,对已标签数据集和新数据集分别正则化后进行数据降维。之后使用典型关联分析(Canonical Correlation Analysis),来计算数据集间的点与点之间的相关性;之后再通过对相关矩阵计算互近邻(mutual nearest neighbor),定义数据集内部和跨数据集的距离。通过上述过程形成的图,就是scGCN的数据输入(下图左半边所示)


       

图1. scGCN的架构,图中原点代表已标记的数据,三角形的点代表未标记的数据


通过预处理,将稀疏的原始数据集转变为包含跨数据相关信息的映射图,这使得在参考数据集和未知数据集之间共享信息,识别标签间相互关系,并迁移到未知数据集上成为可能。之后通过图卷积神经网络,将其映射到隐空间后,可以使用半监督学习的方法,去预测未知数据集上的标签。





3. scGCN的效果明显优于已有方法




由于scGCN 同时利用特征、图形结构和参考标签来克服数据集之间的批处理效应、平台差异和跨物种差异,以半监督而不是无监督的方式将标签从标记样本转移到未标记样本,同时考虑标签间的非线性关系,这使得本方法更加鲁棒和高效。


首先是在十个标准数据集上测试不同方法的预测准确性,可以看到相比已有的方法,scGAN的准确性都优于或等于之前的方法。

       图2. scGCN和已有的方法在预测未知数据标签时的效果对比,虚线代表两者准确率相等,左上方意味着scGCN效果更好。

       
当参考数据集和未知数据集来自不同的测序平台时,对比结果如下:


图3. 不同测序平台的对比,可见scGCN的效果远好于现有方法


不同物种间的单细胞数据,也可以进行标签迁移,例如使用小鼠的胰腺单细胞数据,预测人类的胰腺数据的数据类型,其预测准确度如下图所示:
       
图4. 跨物种标签预测的准确性对比


scGCN还可用于单细胞多组学数据的整合,例如利用转录组数据的标签,预测无标注的表观组数据对应的标签,这是因为虽然不同组学描述的是细胞的不同生化过程,但不同标签的细胞间,发挥功能的基因会呈现相似的模式,从而在高维映射后具有相似性。通过数据整合后,进行聚类分析,使用两种聚类评价方法批次效应熵及silhouette index,可以发现使用不同方法整合后的数据集,scGCN效果更好,UMAP聚类后,不同标记的数据集也分的更开。
       

图5. 不同类型的单细胞多组学数据,使用不同方法进行数据整合后的聚类评价对比


图6. 单细胞多组学数据整合后的聚类效果对比


以上实验证明,scGCN 允许在不同组织、物种、测序平台之间进行标签迁移,并整合多个组学的数据集。即使在参考数据集的细胞数很少的情况下,scGAN也能够精确地进行标签迁移。scGCN 在计算时间和内存使用量方面与主流方法 Seurat v3相当,可用于大型单细胞数据集。


虽然scGCN在可解释性上有所欠缺,不能找出区分不同标签的关键基因,其分类效果也可进一步提升。但该方法的成功证明了图卷积神经网络这一快速发展的方法,可应用于单细胞组学分析。



复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:



推荐阅读



点击“阅读原文”,追踪复杂科学顶刊论文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存