再看DeepMind的AI蛋白质结构预测突破:生物计算时代正在到来
01
轰动的新闻
2020年11月30日,DeepMind宣布了一项重要突破:他们最新版本的AI系统AlphaFold,被CASP的组织者认定为是生物学50年来重大挑战“蛋白质折叠问题”的解决方案。
CASP联合创始人兼主席John Moult教授说,我们已经被蛋白质如何折叠起来的问题困扰了近50年,看到DeepMind为这个问题提供了解决方案……是一个非常特殊的时刻。
诺贝尔奖获得者兼皇家学会主席Venki Ramakrishnan教授说,这项工作代表了在蛋白质折叠这一问题上的惊人的进展,这是一个已有50年历史的生物学重大挑战……看到它将从根本上改变生物学研究的多种方式是令人兴奋的。
《Nature》报道称,DeepMind的AI在解决蛋白质结构方面取得了巨大飞跃,“它将改变一切”。
《Science》的评论称,“游戏已经改变”,AI在解决蛋白质结构方面取得了胜利。
该突破获得诸多媒体纷纷报道。
02
DeepMind做了什么工作
DeepMind究竟做了什么工作呢?
先说蛋白质折叠。
蛋白质对生命来说至关重要,几乎支持生命的所有功能。作为由氨基酸链组成的复杂大分子,蛋白质的功能很大程度上取决于其卷曲折叠形成的独特的三维空间结构。弄清楚蛋白质折叠成什么结构被称为蛋白质折叠问题。
蛋白质折叠问题-生物学50年来的重大挑战
在1972年诺贝尔化学奖的获奖感言中,Christian Anfinsen提出假设,蛋白质的氨基酸序列应该能够完全决定其结构。该假设希望能够基于蛋白质的氨基酸序列(一维)来预测蛋白质的三维结构,因为实验的方法昂贵且耗时。
这其中的一个主要挑战是蛋白质最终形成三维结构之前,理论上可以折叠的方式是天文数字。1969年Cyrus Levinthal说,如果要通过蛮力计算来枚举典型蛋白质的所有可能的构型的话,所需的时间要比已知宇宙的时间还长。
再说国际蛋白质结构预测挑战大赛(CASP)。
为了评估蛋白质结构预测的最新技术水平,John Moult教授和Krzysztof Fidelis教授于1994年创立了CASP,至今已举办14届。
CASP每两年邀请参与者为一组尚未公开实验结构的蛋白质提交预测模型。然后,独立的评估人员将模型与实验的结果进行比较。
CASP被认为是评估蛋白质结构预测技术的黄金标准。
CASP14简要时间表
2020年3月,CASP14预测实验的注册开始。
2020年5月18日,第一个CASP14建模目标发布。
2020年9月,CASP14要求参与者描述所用方法的摘要发布。
2020年9月至10月,评审阶段。
2020年11月,邀请模型最准确和方法最有趣的小组在CASP14会议上进行演讲。
2020年11月30日至12月4日,CASP14会议。
接下来说DeepMind做了什么。
CASP用来衡量预测准确度的主要度量标准是GDT(Global Distance Test,全局距离检验),简单地说,GDT可以近似地认为是氨基酸残基在正确位置阈值距离内的百分比。
根据Moult教授的说法,如果预测的分数达到90 GDT左右,那么可以非正式的认为,预测的结果具有与实验方法获得的结果一样的竞争力。
在CASP14发布的评审结果中,作为CASP14的参加者之一,DeepMind最新的AlphaFold系统在所有目标中获得了92.4 GDT的平均分。这意味着DeepMind预测的RMSD(平均误差)约为1.6 埃,这相当于一个原子的宽度(或0.1纳米)。
如图所示,DeepMind预测的蛋白质结构(蓝色)和实验确定的蛋白质结构(绿色)几乎完全匹配。
即使对于最困难的蛋白质目标,即最具挑战性的自由建模类别,AlphaFold也达到了87.0 GDT的中值。
AlphaFold 2的算法比其他参赛队伍的性能要好,比它之前的版本AlphaFold的性能也要好。该机构的深度学习网络比其他团队要领先得多。
03
方法、数据和过程
DeepMind于2018年首次使用初始版本的AlphaFold参加CASP13,该版本AlphaFold的预测准确性在所有参加者中也是最高。
在最新版本的AlphaFold中,DeepMind创建了一个基于注意力的神经网络系统,经过端到端的训练,来解释蛋白质空间图的结构,同时做出推理。
经过多次重复,该系统可以对蛋白质的基本物理结构进行强有力的预测,并能够在几天之内确定高精度的结构。此外,AlphaFold通过使用内部置信度测量,来预测每个预测的蛋白质结构的哪些部分是可靠的。
该系统使用了可公开获得的数据进行训练,数据由来自蛋白质数据库的约170,000种蛋白质结构,以及尚未确定结构的蛋白质组成。该测试数据与2018年使用的测试数据非常相似。
AlphaFold2的团队成员
今年的比赛并非一帆风顺。DeepMind的AlphaFold负责人John Jumper说,DeepMind进行了三个月而没有任何进展。“我们坐在那里,担心会耗尽数据”。
即使临近比赛截止日期,Jumper和他的团队仍然担心他们可能会犯错。他说:“机器学习系统中总会出现错误”。
04
新版本AlphaFold的影响
提出了解决方案不等同于解决了问题。然而此次突破的意义仍然十分重大。
AlphaFold展示了将计算结构预测作为生物学研究核心工具的潜力。
在过去的十年中,冷冻电子显微镜已成为许多结构生物学实验室的首选工具。《Nature》报道称,在某些情况下,AlphaFold的结构预测与使用“金标准”的实验方法(例如X射线晶体学,以及冷冻电子显微镜)确定的预测结果没有区别。虽然AlphaFold可能不会消除对这些费力且昂贵的方法的需求,但AI将使人们有可能以新的方式研究生物。
蛋白质结构的预测可以帮助我们更好的理解生物医学。
例如,蛋白质结构预测可以识别出已经失效的蛋白质,并推断出蛋白质是如何相互作用的;根据氨基酸序列准确的预测蛋白质结构,将极大地加速人们对细胞组成部分的理解,也有助于理解生物信号如何跨细胞膜传导。
AlphaFold使更快更先进的药物发现成为可能。
这主要是由于:AlphaFold大大提高了蛋白质结构预测的准确性,相当于药物设计和开发有了高度精细的作战地图;并且,AlphaFold能够更快地预测蛋白质结构,这有助于加快药物靶点的发现速度,缩短药-靶匹配研究的周期,提高药物发现成功率,加快药物的开发进程。
AlphaFold对蛋白质结构预测领域的影响不言而喻。
05
DeepMind公司的情况
DeepMind拥有约1000名员工,几乎没有收入,是由Alphabet(Google的母公司)提供支持的公司。2018年的亏损将近6亿美元。但是,它已经与Facebook AI Research、Microsoft和OpenAI等一起成为全球AI竞赛的领导者。
2016和2017年,DeepMind开发的AI围棋程序AlphaGo先后击败李世石、柯洁等人类冠军。此次引起轰动的新版本AlphaFold可以认为是AlphaGo的亲兄弟。
06
关于未来
正在准备的论文将揭示更多具体的细节。此前,参加2018年CASP13的AlphaFold的详细内容在2020年1月的《Nature》上发表。
CASP仍然在继续,人们对自身生命与身体的探索仍然在继续。
用计算的语言和数学逻辑构建并模拟生物,将为生物医疗等多个行业提供强大的底层平台、动力和工具。这也将改变科学发现的方式,促进新的突破。
CASP14有微软、腾讯的团队参加;今年9月,百度的生物计算技术公司百图生科宣布成立。生物计算正在受到越来越多的关注。
在某些情况下,基于AI的软件能在数个小时内准确预测某个蛋白质的结构,而不是实验所需的数周、数月或数年。这意味着药物研发工作可以大大加快。
在这背后,一个生物计算时代正在到来。
1.https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
5.https://www.cnbc.com/2020/11/30/deepmind-solves-protein-folding-grand-challenge-with-alphafold-ai.html
6.https://baijiahao.baidu.com/s?id=1628031806519188805&wfr=spider&for=pc
(Chris整理)
----------- End -----------
与经典统计学相比,机器学习的数据处理有哪些不同
临床试验数据共享:挑战和前进之路
虚拟临床试验:挑战和机遇
美国FDA如何监管医疗AI:监管框架和当前获批产品
合作制药时代,虚拟制药公司发展的新契机
近两年AI药物发现领域国内外重要投资:7项上亿美元,21项超千万美元
跨界者在行动:互联网巨头在AI药物发现方面,都做了哪些工作
涉及AI的临床试验的国际指南SPIRIT-AI和CONSORT-AI在顶尖医学杂志发布
AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例
CDE征求意见的模型引导的药物研发(MIDD)是什么