查看原文
其他

AlphaFold:利用 AI 获得科学发现

Google TensorFlow 2021-07-27

今天,我们很高兴与大家分享 DeepMind 在论证人工智能研究如何推动并加速科学新发现方面的首个重要里程碑。由于我们的研究涉及大量学科领域,DeepMind 汇集了结构生物学、物理学和机器学习领域的多方专家,以应用前沿技术单独根据蛋白质的基因序列预测其 3D 结构。


在过去两年中,我们一直在研究 AlphaFold 系统,该系统基于之前使用海量基因组数据预测蛋白质结构的多年研究构建。AlphaFold 生成的蛋白质 3D 模型远比过去的任何模型都要精确,也因此在某个生物学核心挑战方面取得了重大进展。



什么是蛋白质折叠问题?

蛋白质是维持生命所必需的复杂大分子。人体的每项功能几乎都可以追溯至一种或多种蛋白质,以及这些蛋白质的移动和变化过程,例如收缩肌肉、感知光线或将食物转化为能量。这些蛋白质的配方(即基因)则以编码形式留在我们的 DNA 中。


任何一种蛋白质的功能,都取决于其独一无二的 3D 结构。例如,构成人体免疫系统的抗体蛋白呈 “Y 字形”,类似于形状独特的钩子。通过黏附在病毒和细菌上,抗体蛋白能够检测并标记致病微生物,从而将其消灭。与之类似,胶原蛋白的形状像绳子,可在软骨、韧带、骨骼和皮肤之间传递张力。Cas9 等其他类型的蛋白质以 CRISPR 序列为导向,像剪刀一样剪切并粘贴 DNA 片段;抗冻蛋白的 3D 结构使其能够与冰晶结合,并防止有机体冻结;核糖体的行动如同程序化的装配线一般,帮助蛋白质实现自身构建。


然而,仅依靠蛋白质的基因序列来找出其 3D 形状是一项非常复杂的任务。几十年来,这项难题一直困扰着科学家。这项任务的难点在于,DNA 仅包含关于氨基酸残基(可形成长链)这一蛋白质组成块的信息。所谓的 “蛋白质折叠问题” 便是预测这些链如何折叠成错综复杂的 3D 蛋白质结构。


蛋白质越大,需要考虑的氨基酸相互作用就越多,进行建模的复杂性和难度也就越高。正如利文索尔佯谬中所述,在我们获得正确的 3D 结构之前,我们枚举所有可能的典型蛋白质构型所需的时间可能比宇宙的年龄还要久远。




为什么蛋白质折叠很重要?

预测蛋白质形状的能力对科学家而言非常实用,因为这种能力对理解蛋白质在人体内的作用,以及诊断和治疗业界认为是由错误折叠的蛋白质所引起的疾病(例如阿尔茨海默症、帕金森症、亨廷顿舞蹈症和囊肿性纤维化)至关重要。


尤其令我们兴奋的是了解到蛋白质折叠可能会如何增强我们对人体及其工作原理的理解,进而帮助科学家更高效地设计出能够有效治愈疾病的新疗法。随着我们通过模拟和模型深入了解蛋白质形状及其工作原理,它不仅在药物发现领域展现出新潜力,同时还降低了实验的相关成本。最终,这会改善全世界数百万患者的生活质量。


此外,对蛋白质折叠的理解还将助力蛋白质设计,这将为我们不可胜数的益处。例如,生物可降解酶(可通过蛋白质设计实现)领域的进展有助于管理塑料和石油等污染物,进而帮助我们以更环保的方式分解废物。事实上,研究人员已经开始对细菌进行工程改造,令其分泌出使废物可经过生物降解并更易处理的蛋白质。


为了促进研究和衡量用于提高预测准确度的最新方法取得的进步,业界于 1994 年成立了名为蛋白质结构预测技术关键评估 (CASP) 的社区范围实验,该全球竞赛每两年举行一次,现已成为评估此类技术的黄金标准。



AI 如何大显身手?

在过去 50 年间,科学家已经能够在实验室中使用低温电子显微技术、核磁共振或 X 射线晶体学等实验性技术确定蛋白质的形状。但每种方法都要经过大量尝试与失败,每个结构都需耗时数年,且成本高达数万美元。这正是为什么生物学家将目光转向 AI 方法,希望用其取代这种漫长而艰苦的复杂蛋白质处理过程。


幸运的是,得益于基因测序成本的迅速降低,基因组学领域的数据相当丰富。因此在过去几年里,越来越多的研究人员利用深度学习方法来处理依赖于基因组数据的预测问题。在 DeepMind 对此类问题的研究中,AlphaFold 应运而生。今年,我们已向 CASP 提交了该作品。令我们引以为傲的是,CASP 的组织方评价 AlphaFold 是 “在预测蛋白质结构的计算方法能力方面取得的空前进展”,并在入围的众多参赛团队中,将第一名的桂冠颁发给我们(我们的参赛名称是 A7D)。


我们的团队特别关注从零开始对目标形状进行建模这一难题,而且并未使用此前已经解决的蛋白质结构作为模板。我们在预测蛋白质结构的物理属性时实现了高准确度,然后使用两种截然不同的方法来构建对蛋白质完整结构的预测。


利用神经网络预测物理属性

上述两种方法均依赖深度神经网络,这些经过训练的神经网络可以从其基因序列中预测蛋白质属性。该网络预测的属性包括:(a) 氨基酸对的间距和 (b) 连接这些氨基酸的化学键之间的角度。此方法的首要进步是改进了常用技术,这些技术可以估算氨基酸对是否彼此接近。


我们训练了一个神经网络,以预测蛋白质中每个残基对之间的单独距离分布。然后,我们将这些概率合并为分数,以估计所提出的蛋白质结构的精确程度。我们还训练了一个单独的神经网络,其综合使用所有距离来估算所提出的结构与正确答案的接近程度。



构建蛋白质结构预测的新方法

使用这些评分功能,我们能够搜索蛋白质结构,以找到符合预测的结构。第一种方法基于结构生物学的常用技术构建,并使用新的蛋白质片段反复替换蛋白质片段。我们训练了一个生成式神经网络来创建新片段,并针对所提出的蛋白质结构,利用这些片段不断提高其分数。



第二种方法通过梯度下降(机器学习领域常用的一种数学技术,能够不断产生微小的改进)来优化分数,进而生成高度精确的结构。此技术应用于整条蛋白质链,而非在组装前须分开折叠的片段,因而可简化预测过程。



未来如何发展?

我们首次涉足蛋白质折叠领域便取得成功,展示了机器学习系统如何整合各类信息来源,帮助科学家快速提出解决复杂问题的创造性解决方案。正如我们所见,AI 可通过 AlphaGo 和 AlphaZero 等系统帮助人们掌握复杂的游戏。同样地,我们希望某一天 AI 技术的突破也能帮助我们处理基本的科学问题。


我们很高兴看到蛋白质折叠领域的早期发展迹象,这证明了 AI 在科学发现中的作用。尽管该技术在对治疗疾病、管理环境等方面产生可量化影响之前仍需深入研究,但我们明白,AI 的潜力不可限量。在拥有重点研究机器学习如何推动科学世界进步的专门团队后,我们期待自己的技术能够在众多领域大展身手。




在我们发表关于此项研究的论文之前,请将其引用为:
《通过基于评分的深度学习进行从头结构预测》(De novo structure prediction with deep-learning based scoring)
R.Evans、J.Jumper、J.Kirkpatrick、L.Sifre、T.F.G.Green、C.Qin、A.Zidek、A.Nelson、A.Bridgland、H.Penedones、S.Petersen、K.Simonyan、S.Crossan、D.T.Jones、D.Silver、K.Kavukcuoglu、D.Hassabis、A.W.Senior
发表于 2018 年 12 月 1 日至 4 日举行的第 13 届蛋白质结构预测技术关键评估(摘要)。如需查看摘要,请点击 此处(https://deepmind.com/documents/262/A7D_AlphaFold.pdf)

 

此项研究是与以下人员协作完成:Richard Evans、John Jumper、James Kirkpatrick、Laurent Sifre、Tim Green、Chongli Qin、Augustin Zidek、Sandy Nelson、Alex Bridgland、Hugo Penedones、Stig Petersen、Karen Simonyan、Steve Crossan、David Jones、David Silver、Koray Kavukcuoglu、Demis Hassabis 和 Andrew Senior



更多 AI 相关阅读:



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存