Cell 50周年专刊 | 华大发表长篇综述:时空组学在生物学和医学的新机遇
20年前,六国(中、美、日、德、法、英)科学家历时13年,耗资38亿美元,绘制出首个人类基因组草图,全面揭开生命最底层“代码”,成为“人类20世纪三大科学工程”之一。当时,华大的科学家们代表中国完成了其中1%的工作,贡献了中国力量。人类基因组计划的完成为生命科学和医学的发展带来了翻天覆地的变化,并为全球带来了超过万亿美元的经济价值。经过20余年基因组工具快速迭代升级,我们今天已经正式迈进千元时代,大人群基因组、国家级基因组已经成为现实,人人基因组的生命健康时代已经到来。
同时,科学家们仍在持续努力解读这部由30亿碱基对组成的生命“天书”,近年来,从细胞组学到时空组学的全面突破,使得我们可以在时间和空间的维度上,清晰地看到我们身体每个细胞的全景特征,彻底颠覆了我们认知生命的方法论,为理解这部基因组“天书”、为生物学和医学研究带来了前所未有的机遇。
为了庆祝创刊50周年,国际顶级学术期刊《细胞》(Cell)技术专刊特邀华大生命科学研究院团队发表32页长篇综述,系统阐述了时空组学如何帮助理解我们的基因组、推动生物学认知和医学变革。
文章截图
读懂生命:
从生命“中心法则”向“时空法则”迈进
时间回到1958年,英国科学家弗朗西斯·克里克(Francis Crick,DNA双螺旋结构发现者之一,1962年诺贝尔奖获得者)首次提出生命“中心法则”,揭示了DNA中的遗传信息如何转录成信使RNA,并进一步翻译成蛋白质,形成遗传信息流动的路径,成为了生命科学的基石,揭示了遗传、变异、演化和适应背后的生物学基础。
在此基础上,人类基因组计划的完成解析了人类遗传密码的30亿个DNA碱基对和大约25,000个基因,开启了研究遗传信息如何决定生物功能的新时代,帮助我们揭示了人类与其他物种的差异及大量表型和疾病背后的遗传变异基础。
然而,即使知道了这30亿个碱基对,我们却依旧不能完整地理解基因组。就像我们能看懂“生命天书”上的每一个字,却未必能真正读懂它。问题出在哪呢?
首先,人体的这30亿对碱基如何转化为一个完整的生命?例如,一个受精卵是如何发育成复杂的个体,并随着时间慢慢变老的?其次,过去发现的与表型和疾病相关的遗传变异与我们的组织器官有什么关系?目前基于大规模人群的基因组分析,如千人基因组计划和大规模全基因组关联研究,已经揭示了与人类表型和疾病相关的众多变异,但这些变异如何具体影响特定器官或细胞的功能,仍有许多未知之处。那么问题又来了,如何将这些影响生命成长发育过程的时间和空间因素加入考虑范畴,从中心法则推演到生命的时空规律?
从“中心法则”到“时空规律”研究
如何定义细胞?
---细胞的“多维身份证”
你知道吗,成年人体内大约包含37万亿个细胞,这些细胞通过特定方式排列,形成了各种功能的器官和组织。但要全面理解这些器官或组织的功能,还需要对我们的细胞进行多维解析,包括:
(1)定性 - 由于基因表达调控产生的细胞类型多样性;
(2)定量 - 每种细胞类型的计数、比例和密度等;
(3)定位 - 每种细胞类型的空间排列及细胞间相互作用;
(4)定时 - 细胞类型和状态变化的时间点;
(5)定向 - 每种细胞类型经历的命运转变路径。
只有综合以上过程才能真正理解细胞,定义细胞并形成标准(定标)。因此,构建细胞“多维身份证”,才能真正揭示基因组与特定生物过程之间的联系及其调控机制。
读懂生命的核心技术:
从基因组学、细胞组学到时空组学
测序技术的进步,尤其是高通量测序技术的出现,使大规模的多组学解析成为可能。这些方法可以分析组织水平上的遗传信息表达调控异质性,但无法完全揭示组织内不同细胞类型的异质性。简单来说,就是只能比较不同器官和组织的遗传信息,而无法深入到单个组织内的不同细胞进行分析。而细胞组学技术的快速发展则解决了这个问题。细胞组学能够精确分析单个细胞内的遗传信息,在多个维度上定义细胞类型和状态,成为解码基因组信息如何转录并转化为特定细胞类型信息的关键技术手段。
然而,细胞组学缺乏位置信息,传统的成像方法如X射线、计算机断层扫描(CT)和磁共振成像(MRI)可以可视化组织和器官的3D结构,但又缺乏分子和细胞分辨率。免疫组化(IHC)或原位杂交(ISH)包含特定基因或蛋白质的空间定位,但只能检测有限数量的目标。
时空组学技术的发展,使我们能够全面解析细胞组成、定位、细胞间相互作用和细胞微环境的时空动态。从功能角度看,这些变量对于理解发育过程中的形态发生、不同器官的结构及其随后的功能变化,以及与疾病过程相关的细胞微环境变化至关重要。
基因组学、细胞组学和时空组学多维解析技术(DCS)
时空组学:技术和挑战
时空组学虽技术种类较多,但总体可以分成两大类,即基于成像的方法和基于测序的方法。基于原位成像的方法,如荧光原位杂交(FISH)和原位测序(ISS),使得科学家能够在细胞内直接观察到RNA和DNA的分布。早期的技术,例如smFISH,已经能够实现对单个RNA分子的高分辨率成像。随着技术的发展,现代时空转录组学技术如MERFISH和seqFISH,可以在单个细胞中同时检测到成千上万个基因的表达。相比而言,基于测序的时空转录组学技术能够进行全基因组范围的分析。早期的Tomo-seq和Geo-Seq通过物理空间标记实现了最初的全基因组空间定位分析,随着高通量标签方法的出现,时空组学技术从早期的ST/Visium、DBiT-seq、Slide-seq等微米级分辨率技术,进一步发展成为Stereo-seq、Seq-scope和Pixel-seq等纳米级分辨率技术。
虽然转录组显著提升了我们对基因表达和调控的理解,但这也仅是单层信息,目前时空组学在其他组学检测方面,包括基因组学、表观组学、翻译组学、蛋白质组学和代谢组学相关的技术不断出现,实现在时空维度对DNA序列、调控元件、转录后调控、蛋白质功能和代谢途径的深入理解。在时间分辨率方向,虽然目前的时空研究主要限于连续采样,最终只能生成时间进程的快照,但基于DNA条形码的时间信息可以与成像或测序的技术整合,为细胞分化和发育的精确追踪提供可能,这些技术展示了在特定生物过程中研究细胞命运动态的潜力。当然,时空组学技术仍面临挑战,未来的技术发展应朝着更高的空间精度、多维度分析、以及更好的可及性方向努力,具体改进包括:(1)更高的灵敏度和精度;(2)多组学检测;(3)单分子长读长测序;(4)更广泛的样本兼容性;(5)提高通量、降低成本和增强可及性。
时空组学技术概览
时空组学:算法和数据库
时空组学正在彻底改变我们对组织结构和功能的理解,对时空组学数据的分析不仅仅是分析细胞类型异质性,还需要准确定位细胞的时空特征,从而扩大输入信号的维度和模式,映射出从细胞分布到细胞间连接、通讯和细胞形态等全景、动态信息。
在分子水平,时空组学通过精确定位分子,研究这些分子的空间分布及其在组织功能中的作用。例如,识别空间可变基因(SVGs)可以帮助寻找特定细胞类型、区域或功能相关的分子特征。这些分析有助于揭示基因表达的调控机制,并在更广泛的层面上帮助理解基因调控网络(GRNs),从而揭示生命过程中的关键调控特征;在细胞水平,基本分析包括细胞分割和注释,对于基于成像的技术,通常在染色图像上进行细胞分割;对于基于测序的技术,因在原位成像和异位测序之间存在差异,背景噪音及技术灵敏度的原因,细胞分割方法有较大的提升空间;在区域水平,图神经网络(GNNs)的应用结合了辅助染色组织图像和解剖特征,全面提升了区域的空间鉴定,然而,当前的算法依然面临过拟合问题,并且大多数算法基于相对有限的数据集进行测试,因此扩大数据库以包含更多维的数据成为迫切需求。
在数据库方面,随着时空组学技术的进步,对大规模在线数据库的需求也在不断增加。这些数据库有助于数据共享、探索和分析,支持跨模式数据整合、实施稳健的元数据注释,以及处理大规模空间数据集的可扩展计算基础设施的构建。然而,开发具有最先进分析能力的强大、综合且用户友好的时空组学数据库仍然是重要挑战。
从时空维度理解生物学和医学
时空组学为我们打开了探索生命奥秘的全新窗口。它就像一个强大的“生命GPS系统”,能精确定位和追踪每个细胞在时间和空间上的变化,为我们揭示生命运作的时空动态背后的机制。从器官结构解析到发育动态追踪,从生命演化探索到疾病机制揭示,时空组学正在各个领域展现出巨大的潜力。
(1)从器官结构到功能解析:从大脑到肝脏、心脏、睾丸,再到植物器官等结构的绘制,时空组学帮助我们以前所未有的精度绘制出各种器官内的基因特征、细胞类型、密度及其互作关系,为理解器官结构和功能提供了丰富的数据。例如,猕猴全脑“地图”的绘制工作,全面解析了大脑的神经细胞分布特征及其与大脑层级结构的关系,发现大量兴奋性神经元、抑制性神经元以及非神经元细胞,其分布都呈现显著的皮层及脑区特异性,不同皮层层级脑区有着不同类型的细胞,处于相同层级的脑区往往聚集相似的细胞类型。这些为理解脑细胞相互作用、神经信息传递、脑区功能、脑疾病等问题都提供重要的基础。
时空组学用于解析器官结构
(2)寻找发育和再生过程的秘钥:时空组学已被应用于解析包括大脑、心脏、肠道和脊髓等发育中的器官,以及包括人类、小鼠、斑马鱼和果蝇在内的多种物种胚胎的时空动态,这些图谱为理解器官发生过程提供了重要的思路,如人类胚胎大脑功能区的形成和抑制性中间神经元的迁移轨迹等。除了正常发育之外,时空图谱还扩展到了组织再生的研究领域,包括蝾螈大脑损伤再生和涡虫损伤再生过程等。然而,当前的研究主要集中在转录组学上,未来通过结合表观组学、蛋白组学等多维时空解析,将全面促进我们对发育再生过程的理解,帮助寻找启动该过程的“秘钥”。
时空组学解析生命发育和再生过程
(3)生命演化的时空规律:时空组学在生命演化研究中扮演越来越重要的角色,它提供了比基因组和细胞组学更详细的组织结构层面的证据。例如,时空组学对爬行动物和哺乳动物大脑图谱的绘制,实现在时空分辨率揭示不同物种中同源细胞类型及其分子基础,为理解神经系统的起源和进化提供了更系统的视角。在植物演化研究中,时空组学能够绘制出参与这些光合作用途径的基因在叶片中的表达模式,揭示了这些基因在细胞类型、空间排列和功能区分中的特定变化,阐明C3和C4光合作用机制的进化过程和适应性。这些都预示着比较时空组学研究新时代的到来。
时空组学解析生命演化过程
(4)理解人类疾病发生发展原因:时空组学能够精细地揭示组织内基因变异、转录和表观信号的时空分布,为理解疾病机制提供了新的视角。例如,在侵袭性肝癌的研究中,空间组学揭示了受损肝细胞通过招募巨噬细胞促进癌症进展的关键因素,在肺癌患者的研究中,发现特定癌相关成纤维细胞(CAF)在肿瘤巢中的分布,这些CAF的存在与显著的纤维组织沉积相关,影响T细胞的浸润,并可能影响免疫治疗的效果。未来,通过全面整合时空组学的分子特征和细胞类型的信息,以及临床病理数据,将为理解疾病的发生和进展提供了更全面的图景,不仅在癌症研究中展现出巨大的潜力,也将在其他如出生缺陷、慢性病和传染病的研究中发挥关键作用。
时空组学解析疾病发生发展机制
时空组学将推动临床病理的变革
时空组学在临床诊断中具备巨大潜力,特别体现在高异质性疾病的分型、个性化治疗和预后的方案制定方面。对于未分化肿瘤和原发灶不明的癌症,与过去单一标记检测方法相比,空间组学分析方法通过在单个切片中整合多个生物标志物及其共定位,提供了更高的诊断敏感性和准确性。过去研究已经表明,基于时空组学分析在预测癌症患者对PD-1治疗的反应时具有最高的准确性。此外,基于基因或细胞的原位数据与组织病理染色图像的结合,可以实现原位空间信息训练过去基于病理染色的AI算法,这种方法有望降低成本、减少数据存储需求并提高AI诊断的准确性。然而,这些技术的临床转化仍然面临挑战,包括缺乏详细的操作规范、数据质量控制难题以及多中心随机临床试验的缺乏等。为了使时空组学方法成为临床常规,需要在临床实验室中实施标准化的、可靠的操作流程,并结合数字病理学工作流程进行客观和定量分析。总之,结合时空组学和AI算法,未来将实现临床病理诊断的新变革。
时空组学大科学计划:机遇与挑战
自人类基因组计划完成以来,大规模基因组研究已从初期的基因组解码(如国际HapMap计划和千人基因组计划)发展到功能基因组学分析(如DNA元素百科全书ENCODE和人类蛋白质图谱HPA),最终进入细胞基因组学的新时代。这一转变使科学家能从细胞层面对生命过程进行更深入的探索。人类细胞图谱(HCA)是在细胞水平解析人体的首个国际大科学计划,旨在绘制出从发育到成年及老年阶段的所有细胞类型的图谱。人类生物分子图谱计划(HuBMAP)则致力于构建人类组织的详细生物分子地图。
2022年,时空组学联盟(STOC)成立。其旨在通过联合全球科学家的力量,基于大规模的时空多组学分析,在器官图谱、发育与衰老、人类疾病和生命演化四大方向上加速我们对生物学过程的理解。时空组学技术在通量、成本和可及性方面迅速发展,推动了全球科学合作的广泛展开,然而,实现更高效的团队合作,充分发挥大平台和大数据的价值,仍然面临挑战,需重点考虑以下方面:(1) 组建跨学科团队,促进技术和算法协同研发;(2) 建立全球多中心组学平台,实现中心化数据产出,确保不同团队之间数据的一致性和可整合性;(3) 建立数据协作组,促进多中心数据共享、分析方法共享和数据库建设;(4) 成立标准协作组,制定技术、平台和数据相关标准,推动不同团队之间统一技术和数据标准。
结语
随着从基因组、细胞组学到时空组学的相关技术、算法和应用的快速突破,我们得以在时间和空间维度上以细胞分辨率创建人体的“谷歌地图”。这将极大推动我们对生物过程的细胞和分子基础的理解。同时,人工智能和计算生物学的快速进展将显著推动细胞图谱数据、成像和临床表型数据与AI算法的整合。这一整合将大大推动疾病诊断、治疗和预后方法的进步,加速精准医学的临床应用。
本工作在“十四五”国家重点研发计划“前沿生物技术”重点专项“高精度全景转录组深度解析技术”(2022YFC3400405),以及“时空组学联盟STOC”(www.cell.com/consortium/spatiotemporal-omics)的支持下完成。徐讯为本文通讯作者;华大生命科学研究院刘龙奇、陈奥、黎宇翔,瑞典卡罗林斯卡医学院Jan Mulder,西班牙国家基因组中心Holger Heyn为共同作者。本工作的完成特别感谢来自华大生命科学研究院时空组学技术、算法和应用团队科研人员大力支持。
*本文转载自华大集团BGI
近期热文
🔍点击图片即可阅读
↓↓↓点击“阅读原文”查看文献