Nat Methods | SODB推动空间组学数据的全面探索
因微信公众号改版,各位老师可将“华大时空”标星🌟,以便及时查看时空组学前沿动态。
来自复旦大学类脑人工智能科学与技术研究院、腾讯AI Lab、德州大学达拉斯分校的研究人员创建了空间组学数据库(Spatial Omics DataBase,SODB),这是一个结合了通用空间组学数据集的大规模数据部署和一套交互式分析模块的在线平台(https://gene.ai.tencent.com/SpatialOmics/),支持用户快速浏览、可视化、读取、处理感兴趣的数据。该文章发表于2023年2月Nature Methods上,以下是文章的详细解读。
文章题目:SODB Facilitates Comprehensive Exploration of Spatial Omics Data
发表时间:2023-02-16
发表期刊:Nature Methods
主要研究团队:复旦大学类脑人工智能科学与技术研究院、腾讯AI Lab、德州大学达拉斯分校等
影响因子:47.990
DOI:10.1038/s41592-023-01773-7
近年来,空间技术(空间转录组学、空间蛋白质组学、空间代谢组学、空间基因组学和空间多组学)快速发展,产生了大量的数据来推动复杂生物组织空间生物学的全面研究,特别是在疾病、肿瘤微环境、正常组织稳态和发育方面。由于研究目的不同和实验室来源差异,这些数据最初存放在各类存储平台。虽然已有几个数据库用于空间数据部署并在线提供基本分析模块,但是它们分别存在诸如用户交互受限、缺少细胞类型/组织区域注释或缺少新发布的数据类型/技术等缺点。并且现有数据库只专注于存储空间转录组学数据集,忽视了其他空间组学数据。
因此,来自复旦大学类脑人工智能科学与技术研究院、腾讯AI Lab、德州大学达拉斯分校的研究人员提出了SODB,将全面的空间组学数据与交互式分析模块相结合,可通过提供组织水平分子图谱和生物学通路的多方面视图,将极大地帮助用户获得更多的功能见解。
1
SODB的数据集及其功能优势
SODB可以根据树结构浏览或根据数据集属性进行搜索来有效地访问空间数据集,并提供了交互式数据探索,包括简单的检查(如鼠标悬停和选择感兴趣的细胞或组织)、自动统计(如用户选择区域内的细胞类型组成和表达值分布)和基本空间分析(如基因比较和空间可变基因分析)(图1)。此外,SODB使用统一的数据格式呈现数据,以便与下游分析软件(如Scanpy和Squidpy)进行交互。
图1 SODB概览
除以上功能外,SODB还有4个独特优势。首先,SODB的空间数据类型广泛、数据量大,涵盖了空间转录组学、空间蛋白质组学、空间代谢组学、空间基因组学和空间多组学技术。其次,SODB提供了一个名为SOView的交互式可视化模块,可用于快速预览组织的整体结构,也可用来识别在以往分析中被忽视的细微但重要的组织结构。再者,SODB提供了交互式显示面板,可以结合SOView自动为用户自定义区域生成分子标记。最后,提供了配套的Python工具包pysodb,可以更高效地为计算组获取数据。
2
SODB的数据特征和统计数据
根据原始出版物和完善的数据处理流程,研究人员手动整理了包含来自7个不同物种(小鼠、人、鸡、斑马鱼、细胞谱系、拟南芥、果蝇)组织样本的2,000多次实验的空间组学数据(图2a)。小鼠和人类是被研究最多的两个物种,分别占所有实验的50.9%和46.1%(图2b)。关于组织类型,不同的大脑区域是研究最多的,包括经常用于基准新空间技术的皮质区域,以及最近BICCN研究的重点区域(图2d)。
随着大视野和高分辨率技术(如Stereo-seq)的发展,有望在不久的将来绘制出全脑的单细胞3D图谱。在SODB中涉及的各种空间技术类别中,空间转录组学和空间蛋白质组学分别占所有实验的62.6%和35.3%(图2c)。
图2 数据特征和统计数据
研究人员通过评估实验的数据质量(图2h,n = 2,139),发现超过98%的实验发表在同行评审的期刊上,其中对照试验占62.9%,重复试验占86.4%。
进一步评估在所有空间技术中表现出空间可变模式的分子特征的百分比(图2i),研究人员发现与基于测序的空间转录组学技术具有较低的空间变化(spatially varying,SE)百分比(-0),而大多数基于成像的空间转录组学技术具有较高的SE百分比较高(-1)。所有空间蛋白质组学技术都有-1的SE百分比,因为目标蛋白质往往是空间信息标记。其他空间技术(如空间基因组学、空间代谢组学),显示出适度的SE百分比(图2i)。
最后,研究人员量化了每种空间技术的数据稀疏性(图2j),结果显示,所有基于测序的空间转录组学技术都显示出较高的数据稀疏性(-1),而基于成像的空间转录组学技术(seqFISH+除外)具有较低的稀疏性。同样,空间蛋白质组学技术也往往具有较低的稀疏性(通常甚至低于基于成像的空间转录组学技术)。
3
SODB的交互模块及其可扩展性
SODB提供了交互式探索数据的便捷方法。对于每个实验,数据包括spots的分子表达式、相关的空间坐标,以及每个spot的一些属性(如细胞类型注释、组织域注释等)。
SODB提供了4个数据探索视图,即表达式视图(Expression view;图3a)、注释视图(Annotation view;图3f)、比较视图(Comparison view)和SOView(Spatial Omics View;图4)。
其中,表达式视图可用于探索选定基因(或其他分子)的空间表达值,一次一个基因,其显示面板支持交互操作。注释视图可用于探索一个spot的选定属性的空间分布。该属性可以是细胞类型注释、组织域注释或spot的其他类别属性。比较视图用于有效比较两个被选基因的相对表达水平,并显示它们在空间上的差异。
图3 SODB的交互式视图
SOView是SODB中的一个独特的交互式可视化工具。利用SOView,用户可以轻松地从一张图谱中获得具有丰富分子特征的组织结构概况。作为空间组学可视化工具,SOView可以:
(1)支持组织结构的整体概述,并揭示亚结构内的异质性;
(2)通过其自动颜色分配的颜色差异来反映分子表达谱的差异,从而揭示组织的潜在连续性;
(3)很好地与细胞类型图进行比较,其中SOView更适合可视化目的,这可以避免聚类参数调整,费力的细胞类型标记,避免细胞类型数量多的情况下颜色拥挤的问题。
接下来,研究人员展示了SOView在发现意料之外组织结构方面优于其他方法的优势,以及它通过结合SODB交互功能来发现区域特异性标记的能力。
图4 各种空间组学数据集的SOView演示
4
SODB推动时空组学计算方法的发展
以空间转录组学领域为例,研究人员收集了近期6篇综述文章中涵盖的主流计算方法,包括11类共68种方法。通过总结这些方法使用的数据集,并将它们与SODB中的数据集进行匹配,研究人员证明了SODB通过提供用于复制和基准化现有方法的数据集,并为新方法开发提供潜在的新数据等,能够促进计算方法的革新与发展(图5)。
图5 SODB推动计算方法的发展
综上所述,SODB提供了各种类型的空间组学数据集(如空间转录组学、空间蛋白质组学、空间代谢组学、空间基因组学和空间多组学),具有可下载和统一的数据格式,可以直接输入许多主流分析包。
除了数据,SODB还提供了一套交互式数据探索模块。其中,SOView是SODB的一个关键特性,可用于可视化整体组织结构,并识别一些细微但重要的局部或亚组织结构。结合SOView和SODB的交互界面,可以使用自动生成的标记基因来表征用户定义的感兴趣区域。此外,SODB还可以推动各种空间组学计算方法的未来发展。
开放性数据资源
SODB网站:
https://gene.ai.tencent.com/SpatialOmics/
Python工具包:
https://pysodb. readthedocs.io/en/latest/
系列导读
推荐阅读
联系我们
对时空组学或单细胞组学整体解决方案感兴趣的老师,可选择以下方式和我们联系,我们将及时为您进行详细的介绍:
1. 在公众号留言;
2. 发送信息至邮箱:
collaboration@stomics.tech;
3. “阅读原文”查看文章。
让我知道你“在看”