查看原文
其他

基因组学是如何用“复杂”分析复杂的?|HCare

HCare 高瓴创投 2023-10-03

HCare, We Care. 欢迎来到「HCare」专栏,在这里,我们聚焦前沿科技,突破创新。我们将和你分享细胞疗法、基因编辑、分子诊断、AI制药、手术机器人 、AI影像等听起来遥远又实际上离我们很近的技术,你将看到我们对创新的狂热,对世界的好奇和对科学的敬畏。

「HCare」 Vol.22,我们分享如何使用“复杂”的组学思维对生命活动进行整体化的研究分析。

没有人是一座孤岛。

约翰·多恩的这句布道词,描述了现在的人类社会:没有人是一座孤岛,我们绝大多数的活动都是通过和他人互动合作完成的,圣经中关于巴别塔的故事,同样揭示了合作的伟大力量。

人与人之间合作,细胞和细胞之间也会合作,蛋白、核酸之间也会合作。

没有生命是一座孤岛。

生命活动是一个极其复杂的过程,许多功能并不是通过某一组分独立完成的,而是许多因子相互配合,形成复杂的通路乃至网络。同一个因子有时也会兼具多种功能,在不同的条件下发挥不同的作用。研究哪些因子在什么条件下参与了某个功能,因子之间又是怎样配合,成为了科学家面前巨大的难题。

通常,科学家会从单个核酸或者蛋白等因子出发,研究他们在特定条件下独立的功能,然后通过相互作用实验调查能够和他们产生互动的因子,再继续研究这些相关的因子……直到再也没有相关因子被发现。这样一个个排查的方法极其繁琐耗时,而且很容易漏掉许多间接参与作用的因子。 

生命活动和我们的社会一样,充满了各种各样的联系,各个组分相互互动合作,最终完成了生命活动 插画:青柠

要怎么样才能更快更全面地研究生物的某一功能,而不被单一因子的视野束缚的问题,被美国遗传学家Thomas H. Roderick率先提出的组学(Omics)概念很好的回答:

我们不需要拘泥于单一因子的研究,而是将研究对象视为一个整体,用共同特征来研究它们。

用复杂研究复杂,犹如用魔法击败魔法。

“基因组学”是组学这一概念诞生的鼻祖。

自16世纪开始,理性的力量带领人类从神学统治的世界走了出来,科学技术让人类相信未来是能够被过往的重复经验预测的,而不是被上帝计划好的。几个世纪以来,科学始终与稳定、有序、可预测等名词紧密联系在一起。但是生命科学从诞生开始,就一直践行着“凡事总有例外”。

单一的定律或推论只能勾勒出未来的大致轮廓,在细节上却往往存在偏差,一些绝望的人甚至认为生命其实是上帝掷骰子的产物——上帝也不知道自己要做什么。

直到20世纪,科学家慢慢意识到生命并不是一件毫无规律的事情,生命特征受到一些叫做“基因”的遗传密码的控制,生命的活动与功能则大多由蛋白来完成。随着生物化学的发展,“基因”慢慢揭下了她的面纱:通常它存在于由碱基互补配对DNA(脱氧核糖核酸)组成的双螺旋结构里,并通过“转录-翻译”这一过程产生RNA和蛋白质,最后完成生命活动。但基因里究竟包含了什么样的密码,依旧是一个谜。

1977年,Frederick Sanger突破性的使用双脱氧核苷三磷酸链终止法完成了世界上第一次核酸测序,“基因”不再是一个模糊的概念,而变成了一系列可读的核苷酸序列。利用测序技术,科学家相信可以理解“上帝的谜语”,并在世纪末开展了宏伟的“人类基因组计划”,包括中国华大基因在内的研究机构参与了对人类体内的所有基因进行测序的工作,试图破译基因密码。

生命活动并不是上帝掷骰子的结果,但是它极其复杂。全基因组测序虽然破译了基因的编码,以及这些基因在染色体上的位置,但是这些编码意味着什么,执行了怎样的功能,又或者又怎样的相互作用,依旧是一个谜团。

在组学这一概念产生之前,科学家习惯性的将生命因子独立出来研究,像把一个人孤立出来进行观察,就把复杂的问题变成简单的问题。我们也知道,很少有完全独立生活的人,绝大多数的人都会和其他人发生各种各样的关系,基因也是一样。除了基因序列之外的表观遗传等注释系统,基因之间还存在大量的相互作用,一个看似简单的生命活动会同时需要许多基因参与。孤立、简化的研究思路在复杂的基因关系面前显得无所适从。

既然不能用简单的思维分析复杂的问题,那我们就用“复杂”的思维分析复杂的问题。

得益于计算机和测序技术的进步,科学家能够同时分析大量基因数据,这样就可以按照指定特征打包分析一个一系列的基因。用整体的思维研究基因,就是“基因组学”的概念。基因组学的工作不仅包括了对基因本身的序列和功能的研究,还包括了其之间、蛋白与其间相互作用的研究。

每个个体的同一基因并不一定具有完全一致的序列,即使是同一个细胞的同一基因也可能存在序列上的差别,这些在基因组中的微小变化被称为单核苷酸多态性(SNP)。这些多态性在给予生物表征丰富性的同时也暗藏了危险,一个核苷酸序列的变化可能并不会影响一个蛋白的功能,也有可能将一个原本正常的蛋白转变成致癌因子。在单核苷酸多态性以外,基因还存在长度、区域核苷酸序列等许多的多态性。因此,即使对于单一基因的研究,也需要大量的数据完成,任何一个单一团队都无法完成如此浩大的工程。

计算科学的发展让同步大量处理数据不再是令人头疼的事情。现在,科学家只需要寻找合适的样本,就能通过高通量的测序与分析技术对基因进行分析研究。高通量处理让样本在短时间内被完全一致的处理与分析,解决了由于不同实验产生的人为误差,在大量输出数据时保证了结果的一致性。同时,统一的算法模型和可视化处理也使得基因组学分析变得更加简单直观,通过图像就能知道哪些基因之间存在联系。

 

高通量与可视化让组学研究更加便捷直观,原本需要逐个分析的数据,一张图表就能清晰展现各个基因直接的关系 图自github/Micha Sam Brickman Raredon

基因数据库的建立加速了基因组学研究的合作,基因研究的数据能够及时共享并讨论,全世界科学家各显神通,共同描绘基因的神秘蓝图并为疾病研发武器。例如在新冠早期,Moderna等就通过多国团队对新冠病毒的测序结果设计并生产了mRNA疫苗,有效遏制了疾病的传播。

基因组学的概念让科学家能够用“复杂的视角”面对复杂的问题,高保真地获得基因的特征细节以及相互关系,这些大量又必要的信息在进行分析注释之后,在数据库中像自助餐一样被科研人员使用,基因组学极大的推动了生物学的发展。

基因组学还让基因疾病的诊断变得更加快捷。对癌症患者的肿瘤组织进行组学分析,能够精准掌握肿瘤所具备的基因特征,并由此选择最合适的靶向治疗药物;对正常人或肠道菌群进行基因组学分析,能够得出一些疾病的患病风险,及时防患于未然;对胚胎进行组学分析能够在胎儿出生前分析患有遗传疾病的可能,及时作出干预。

在基因组学蓬勃发展后,蛋白质组学紧随而来。

和基因组学类似,蛋白组学也是同时获取并分析一个基因组表达的大量蛋白特征数据,研究一个蛋白质组的功能以及蛋白间的相互关系。但是蛋白具有比核酸更加复杂的高级结构,即使具有同样的氨基酸序列,蛋白的高级结构遭到破坏后也不再能发挥原有的功能。因此,在分析蛋白质的序列组成以外,蛋白质的结构也是组学所关注的重点。

质谱(MS)与2D电泳分析是最经典的蛋白组学分析手段。质谱通过将样品在离子源中电离并通过加速场进入质量分析器,通过电场和磁场的叠加作用得到质谱图,分析物质的质量-电荷比;凝胶电泳则将蛋白全部赋上负电荷,在具有阻力的凝胶电场中运动,来分离分析不同大小的蛋白。

蛋白和核酸一样可以测序,利用化学或蛋白酶将蛋白裂解成简单的肽链结构后,逐步测定每一个小肽段的氨基酸组成,再利用氨基酸序列中的重叠区域排列测序结果,最终得到完整的蛋白质序列。而对于蛋白质的三维结构,利用X射线晶体衍射图谱或核磁共振的方式为蛋白质“拍照片”,再利用计算机比较分析获得较为精准的蛋白质立体结构。

这些传统的生物实验原理看上去很简单,但是会耗费大量的时间和金钱,单次的实验结果也不一定理想。计算生物学的出现彻底引发了蛋白质组学的革命,科学家发现,通过换算分析就可以预测一个基因组中能够产生蛋白的氨基酸序列,通过将这些序列与已知蛋白的结构进行比对,就能够得到较为精准的蛋白质结构。DeepMind团队基于人工智能系统研发的蛋白质结构预测系统AlphaFold则以极高的蛋白质3D结构预测结果彻底颠覆了生物研究,蛋白质组学研究不再是一件困难的事情。

在基因组学、蛋白质组学外,代谢组学、转录组学、功能基因组学等一系列“组学”如雨后春笋般产生,在探索生命奥秘的同时,也利用精准的分析技术为医疗服务。

贝普奥西湖欧米将AI赋能于蛋白组学研究,凭借过硬的蛋白质组学分析能力,助力精准医疗、药物研发与基础研究,与百余家高校、研究所、医院、药物研发机构建立合作。凯莱谱则专注于代谢组学,搭建的CalOmics代谢组学技术平台能够对低分子量代谢产物进行精确统一分析,统计分析并进行代谢通路解读,评估个体或组织细胞的生长状态,为临床治疗提供重要的参考。

组学研究在需要可靠的计算和分析能力外,同样需要可靠的实验设备获得最新最可靠的实验数据。华大智造领衔的基因组学正在服务医疗、农业、健康等行业,为基因组学的研究与应用提供可靠的仪器设备与试剂耗材,自主研发并生产的临床级高通量基因测序仪正在引发肿瘤等临床诊断的革命。齐碳科技专注于纳米孔基因测序仪器与配套试剂,在纳米孔测序高读长的技术优势上优化测序精度,并降低测序成本,为基因组学提供可靠的数据。

生命活动虽然很复杂,我们依然可以使用“复杂”的组学研究思维对生命活动进行整体化的研究分析,凭借平台化和智能化的分析平台,以及高效可靠的分析仪器,当复杂的生命活动遇上复杂的组学,长期来看则会变得简单。

# 参考资料:

[1]Smith, Yolanda. "History of Genomics". *News-Medical*. 04 May 2022. <https://www.news-medical.net/life-sciences/History-of-Genomics.aspx>.

[2]Del Giacco, Luca, and Cristina Cattaneo. Introduction to genomics.” *Methods in molecular biology (Clifton, N.J.)* vol. 823 (2012): 79-88. doi:10.1007/978-1-60327-216-2_6

[3]McArdle, Andrew James, and Stephanie Menikou. What is proteomics?.” *Archives of disease in childhood. Education and practice edition* vol. 106,3 (2021): 178-181. doi:10.1136/archdischild-2019-317434

[4]Aizat, Wan Mohd et al. Recent Development in Omics Studies.” *Advances in experimental medicine and biology* vol. 1102 (2018): 1-9. doi:10.1007/978-3-319-98758-3_1

[5]Subramanian, Indhupriya et al. Multi-omics Data Integration, Interpretation, and Its Application.” *Bioinformatics and biology insights* vol. 14 1177932219899051. 31 Jan. 2020, doi:10.1177/1177932219899051

[6]Zhou, Min et al. Multi-omics approaches to improve malaria therapy.” *Pharmacological research* vol. 167 (2021): 105570. doi:10.1016/j.phrs.2021.105570

[7]Zhou, Min et al. Multi-omics approaches to improve malaria therapy.” *Pharmacological research* vol. 167 (2021): 105570. doi:10.1016/j.phrs.2021.105570

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存