查看原文
其他

Nature社论|结构生物学中的人工智能将会继续

智药邦 智药邦 2022-06-15
2021年7月27日,Nature发表社论,对近期AlphaFold的热点报道进行了点评。

以下是全文内容。

机器学习将会改变我们对蛋白质折叠的理解。所有的数据开放至关重要。

"我没想到在我的有生之年,我们会走到这一步"。对于上周报道的AlphaFold的研究结果,一位结构生物学的研究领导者如此回应。

在这个研究报告中,人工智能(AI)被用来预测超过2万种人类蛋白质的结构,以及由20种模式生物(如大肠杆菌、果蝇和酵母,以及大豆和亚洲水稻)产生的几乎所有已知蛋白质的结构。大约是36.5万个预测结构。

AlphaFold机器学习工具可以预测98%的人类蛋白质全蛋白链的三维结构

7月22日,谷歌母公司Alphabet旗下的位于伦敦的人工智能公司DeepMind的研究人员,以及位于英国剑桥附近的欧洲分子生物学实验室(EBI-EMBL)的欧洲生物信息学研究所在网上发布了这些数据,这些数据是首次公开访问(见https://alphafold.ebi.ac.uk)。

DeepMind团队开发了一个名为AlphaFold的机器学习工具。该团队根据DNA序列(包括其进化历史)和EBI-EMBL研究人员托管的公共访问蛋白质数据库中包含的数千种蛋白质的已知结构来训练这个程序。一周前,DeepMind还发布了AlphaFold的源代码,并详细说明了它是如何构建的,与此同时,来自西雅图华盛顿大学的研究人员公布了另一个蛋白质结构预测程序(称为RoseTTAFold,受AlphaFold启发)的细节。

如果数据和方法不是公开和免费提供的,那么这个预测结构目录的发布就不会是那么好的消息。结构生物学家和其他研究人员已经开始使用AlphaFold来获得更精确的蛋白质模型,这些蛋白质很难或不可能用目前的实验方法来分析。



加快结构预测的速度

自从1953年发现DNA本身的结构以来,预测蛋白质折叠成的三维结构一直是生物学中未解决的 "大挑战 "之一。在人工智能之前,根据序列进行结构预测是一个非常耗时的过程,更不用说它是劳动密集型的,几乎不能保证得到准确的结果。新的数据仍然需要得到验证和实验的证明。但人工智能工具可以在几分钟到几小时内准确地预测蛋白质结构。相比之下,过去确定一两个蛋白质的结构需要几个月,甚至几年的时间。这为应用提供了可能性,例如在分解环境污染物(如微塑料)的酶工程中。

上周的突破不仅取决于开放数据的共享,还取决于基础科学和技术的进步。自20世纪60年代以来,结构生物学家一直在研究理解蛋白质折叠科学的平行方法。一种方法是通过了解潜在的物理作用力来拼凑蛋白质的结构。另一种试图通过与密切相关的蛋白质进行比较,利用生物体的进化史来预测其形状。然后成像技术非常重要,从X射线晶体学开始,到现在的低温电子显微镜。

在结构生物学的基础科学中,关键问题仍有待解决。虽然科学技术中的人工智能擅长产生准确的结果,但它(至少现在)并不能解释这些结果是如何发生的,或者为什么发生。DeepMind、EBI-EMBL、华盛顿大学和其他地方的团队应该为关键的突破而受到祝贺。但仍有工作要做,以解开蛋白质如何以及为何折叠的基本的生物学、化学和物理学的科学问题。



公共和私有

就重要性而言,一些人将最新的进展与20年前人类基因组序列的第一份草案相比较。确实可以进行比较。人类基因组计划和DeepMind的人类蛋白质结构预测目录都为他们的领域提供了一个工具,该工具将明显加速发现。

人类基因组草案是一场竞赛的结果。解决蛋白质折叠问题也得益于一种竞争:一个名为"蛋白质结构预测关键评估"(或CASP)的年度活动,这对于取得成果至关重要。

今天的研究团队需要开放数据访问,就像那些参与早期基因组测序的团队一样。在向所有人开放数据和方法的过程中,DeepMind现在树立了一个基准,这将使这个领域的其他公司(如Facebook和微软)更难继续争夺专有数据。

Today’s research teams — just like those involved in early genome sequencing — needed open access to data. In making the data and the methodology openly available to all, DeepMind now sets a benchmark that will make it harder for other corporations in this space, such as Facebook and Microsoft, to continue arguing for proprietary data.)

那么,未来会怎样呢?在过去的一周里,《自然》杂志采访了该领域的近十位研究人员。大家的共识是,现在预测人工智能在生命科学领域的应用到底会产生什么影响还为时过早,除非任何影响都将是变革性的。

准确预测人工智能将如何改变生物学需要良好的训练数据,而我们现在还没有这种数据。但是人工智能,结构生物学研究界以及它在其他领域的合作者拥有大量的新鲜数据。除了研究和数据之外,人工智能还为研究组织和管理模式(大学应该研究的)提供了一个窗口。对于今天的研究人员,以及未来的研究人员来说,有很多工作需要跟进。

参考资料
https://www.nature.com/articles/d41586-021-02037-0

----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向






历史文章推荐    


DeepMind|将AlphaFold的力量传递给世界
BioRxiv|基于表型和化学结构预测化合物活性
Drug Discov Today|药物研发风险地图
Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力
苏安|人工智能在药物合成设计中的应用
Drug Discov Today|量子计算在药物发现中的潜力:早期的行业动态
Drug Discov Today综述|分子从头设计和生成模型
AI药物发现公司继续寻求最佳商业模式
郭天南|人工智能+蛋白质组学:药物研发的生物学底层变革
人工智能在药物研发中的应用


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存