查看原文
其他

DeepMind划时代杰作!AlphaFold蛋白结构预测击败人类夺冠

李艳瑜 动脉网 2019-04-18



11月2日,在墨西哥坎昆举行的第13届全球蛋白质结构预测竞赛(Critical Assessment of protein Structure Prediction,CASP)上。组织者宣布,DeepMind 的最新人工智能程序 ——AlphaFold 在一项极其困难的任务中击败了所有对手,成功预测生命基本分子——蛋白质的三维结构。

 

作为一项基础技术,DeepMind在自己博客中,将AlphaFold 称为在展示人工智能研究推动和加速新科学发现方面的“第一个重要里程碑”。

 

通过跨学科方法,DeepMind汇集了来自结构生物学,物理学和机器学习领域的专家,以应用尖端技术,仅根据其基因序列预测蛋白质的3D结构。

 

在获悉这一划时代的技术性突破后,动脉网试图通过以下逻辑,还原DeepMind再次战胜人类模型的“里程碑”事件,以及DeepMind在医疗领域所做的探索。

 

1. 蛋白质结构预测的划时代意义

2. DeepMind凭借什么夺冠

3. AI算法将漫长费力的预测过程缩短至几小时

4. DeepMind的AI落地将给医学带来多少颠覆

 


曾获得诺贝尔奖的科学难题


蛋白质是维持生命所必需的大而复杂的分子。几乎我们身体所执行的所有功能 : 收缩肌肉、感知光线或将食物转化为能量, 都可以追溯到一种或多种蛋白质以及它们如何移动和变化。这些蛋白质的配方, 称为基因。


任何给定的蛋白质可以做什么取决于其独特的3D结构。例如,构成我们免疫系统的抗体蛋白质是“Y形”的,并且类似于独特的钩子。通过锁定病毒和细菌,抗体蛋白能够检测和标记引起疾病的微生物以进行消灭。


类似地,胶原蛋白的形状像绳索,其在软骨,韧带,骨骼和皮肤之间传递张力。其他类型的蛋白质包括CRISPR和Cas9,它们像剪刀一样起作用,切割和粘贴DNA;抗冻蛋白,其3D结构允许它们结合冰晶并防止生物冻结;核糖体就像一个程序化的装配线,帮助自己构建蛋白质。


但是纯粹从其基因序列中找出蛋白质的三维形状是一项复杂的任务,科学家们已经发现了几十年的挑战。挑战在于DNA仅包含有关蛋白质构建块序列的信息,称为氨基酸残基,形成长链。预测这些链如何折叠成蛋白质的复杂3D结构就是所谓的“蛋白质折叠问题”。


预测蛋白质3D结构模型示意(图片来源:DeepMind官网


“蛋白质折叠”是一种令人难以置信的分子折叠形式,科学界以外很少有人讨论,但却是一个非常重要的问题。生物由蛋白质构成,生物体功能由蛋白质形状决定。理解蛋白质的折叠方式可以帮助研究人员走进科学和医学研究的新纪元。

 

因此,蛋白质折叠(Protein Folding)问题被列为“21世纪的生物物理学”的重要课题,它是分子生物学中心法则尚未解决的一个重大生物学问题。蛋白质可在短时间中从一级结构折叠至立体结构,研究者却无法在短时间中从氨基酸序列计算出蛋白质结构,甚至无法得到准确的三维结构。

 

美国NIH的Christian Anfinsen博士因为发现蛋白质不需要其他帮助就可以自发地完成蛋白质折叠的过程,于1972年获得了诺贝尔化学奖。

 

DeepMind的联合创始人兼首席执行官Demis Hassabis说:“对DeepMind来说,这是一个非常关键的时刻,这是一个‘灯塔’项目,是我们在人员和资源方面的第一项重大投资,同时也是正在成为一个基本的、非常重要的、现实世界的科学问题。”


早在2017年,美国科罗拉多大学“JILA物理研究中心”的生物物理学家们通过更细致地测量了蛋白质折叠后发现,其折叠过程比科学家们曾经的预测更为复杂。这意味着,有关蛋白质,我们的了解程度尚在皮毛。

 

蛋白质分子的基本组成是氨基酸链。通过一系列中间过程,像折纸一样,氨基酸链折叠成三维结构,之后才具有功能。准确地描述这个折叠过程,需要已知所有中间状态的形态。最新研究就揭示这个过程中许多未知的状态,这一研究成果公布在3月3日的Science杂志上。

 


AI如何成功预测蛋白质3D结构?


此次让DeepMind再一次崭露头角的CASP, 被认为是蛋白质结构领域“奥林匹克竞赛”。在这次比赛上,DeepMind团队(参赛名为“A7D”)成功在43个参赛蛋白中拿到25个单项最佳模型,累计总分120.35排名第一。


而根据第13届全球蛋白质结构预测竞赛官方披露的成绩,总分第2名的团队是一支名为“Zhang”的团队,总分为107.03。

 

据DeepMind介绍,该项成果的设计源于使用神经网络预测物理特性以及构建蛋白质结构预测的新方法。

 

这两种方法都依赖于深度神经网络,这些神经网络经过训练可以从其基因序列中预测蛋白质的特性。DeepMind的网络预测的属性是:(a)氨基酸对之间的距离和(b)连接这些氨基酸的化学键之间的角度。第一个发展是对常用技术的进步,这些技术估计氨基酸对是否彼此接近。

 

鉴于要研究的新蛋白质,AlphaFold使用神经网络预测氨基酸对之间的距离,以及连接它们的化学键之间的角度。在第二步中,AlphaFold调整草图结构以找到最节能的布置。

 

DeepMind训练了一个神经网络来预测蛋白质中每对残基之间的距离的单独分布。然后将这些概率组合成评估所提出的蛋白质结构的准确度的分数。此外,还训练了一个单独的神经网络,该网络使用汇总的所有距离来估计建议的结构与正确答案的接近程度。

 

使用神经网络预测物理特性(图片来源:DeepMind官网)


第二种方法通过梯度下降优化得分- 通常用于机器学习的数学技术,用于进行小的、渐进的改进这导致高度精确的结构。该技术应用于整个蛋白质链而不是在组装之前必须单独折叠的碎片,降低了预测过程的复杂性。


 构建蛋白质结构预测的新方法(图片来源:DeepMind官网)


使用这些评分函数,DeepMind能够搜索蛋白质图像,找到与我们的预测相匹配的结构。第一种方法建立在结构生物学中常用的技术上,并且用新的蛋白质片段反复替换蛋白质结构的片段。


为了构建AlphaFold,DeepMind在数千种已知蛋白质上训练了一个神经网络,直到它可以预测单独使用氨基酸的3D结构。

 

一旦AlphaFold被提供了一种新蛋白质,它就会利用其神经网络来预测其组成氨基酸对之间的距离,以及它们连接化学键之间的角度,形成一个牵伸结构。然后,AlphaFold调整此结构以找到最节能的结构。

 

虽然AlphaFold花了两周的时间来预测第一个蛋白质结构,但该程序现在可以在几个小时内完成。


 

AI将漫长费力的预测过程缩短至几小时


根据英国《卫报》报道中的数据显示,截至2010年,只有0.6%的已知蛋白序列被解析出了相应的结构。

 

在过去的五十年中,科学家们已经能够使用冷冻电子显微镜,核磁共振或X射线晶体学等实验技术来确定实验室中蛋白质的形状,但每种方法都依赖于大量的试验和错误,这可能需要每年高达数万美元的成本。这就是为什么生物学家正在转向人工智能方法,以此作为这一漫长而费力的过程的替代方案。

 

对于蛋白质折叠的复杂性,曾有外媒载文称,用当今最快的计算机模拟计算蛋白质折叠,要花100年。不过是在当时最快的计算机每秒几万亿甚至十几万亿次浮点运算的速度下,虽然目前性能最强悍的超级计算机每秒运算速度峰值可达20亿亿次,对于蛋白质折叠的模拟计算仍有可能耗费科学家数年乃至数十年的时间。

 

每个蛋白质都是一个氨基酸链,而后者的类型就有 20 种。蛋白质可以在氨基酸之间扭曲、折叠,因此一种含有数百个氨基酸的蛋白质有可能呈现出数量惊人(10 的 300 次方)的结构类型。通常,已经发现功能失常的蛋白质会导致疾病,并且历史上,用药物瞄准其结构、激活或停用它们会产生治愈效果。由于计算机的算法和算力局限,直到现在,了解蛋白质的结构并不容易。

 

根据中国科学院生物物理研究所生物大分子国家重点实验室研究员,中国科学院院士王志珍的观点,蛋白质的折叠和构象发生错误将会造成一些疾病,如阿尔茨海默氏症,帕金森氏症,亨廷顿氏症和囊性纤维化等。随着蛋白质折叠研究的深入,人们会发现更多疾病的真正病因和更加针对性的治疗方法,从而设计更有效的要素。

 

如果科学家能够学会从化学成分中预测蛋白质的形状,他们可以弄清楚它的作用,它可能会误导和造成伤害,并设计新的抗击疾病或履行其他职责。简而言之,了解蛋白质如何折叠,研究人员可以开创科学和医学进步的新时代。

 

以老年痴呆症(学名为阿尔茨海默氏症)为例,它在人体的潜伏期长达十几年之久,且病因复杂,以目前的医学技术,临床上甚至很难在发病前几年检测出这一疾病。

 

幸运的是,由于基因测序成本的快速降低,基因组学领域的数据非常丰富。因此,在过去几年中,依赖于基因组数据的预测问题的深度学习方法变得越来越流行。DeepMind关于这个问题的工作产生了AlphaFold,并于今年提交给了CASP。

 

DeepMind在博客中称:“我们很自豪能成为CASP组织者称之为‘计算方法预测蛋白质结构能力的前所未有的进步’的一部分,在进入的团队中排名第一。我们的团队专注于从头开始建模目标形状的难题,而不使用先前解析的蛋白质作为模板。我们在预测蛋白质结构的物理性质时达到了高度的准确性,然后使用两种不同的方法来构建完整蛋白质结构的预测。”

 

在2013年的某科技课题年度报告中(点击文末左下方“阅读原文”即可阅读,该报告仅作参照,不代表任何实际预测或判断)我们发现这样的描述:“虚拟药物筛选及计算生物学受计算机资源及计算方法与软件的限制,难以对数千万个化合物进行比较系统的虚拟筛选,也难以实现一般蛋白质结构的从头折叠模拟,无法满足创新药物和计算生物学研究的需求。因此,迫切需要开发超大规模并行的虚拟筛选,蛋白质折叠分子动力学模拟平台,来满足生命科学及创新药物研究的需求。”

 

从这个方向来看,DeepMind的蛋白质结构预测的应用场景之一将是用于药物创新的化合物筛选。

 

实际上,早在2016年AlphaGo计划击败李世石之后,DeepMind就迅速将目光投向了蛋白质折叠。2017年10月,DeepMind在一次公开采访中表示,团队开始对人工智能在药物开发中的应用感兴趣,而新药开发的关键一步,就是对靶点蛋白质三维结构的精准测算。

 

雷丁大学研究员Liam McGuffin表示:“预测任何蛋白质折叠形状的能力是一个大问题。它对解决许多21世纪的问题具有重大意义,影响健康、生态、环境,并基本上解决任何涉及生命系统的问题。”

 


屡屡突破技术创新,DeepMind在医疗领域的探索


在AlphaGo一战成名后,DeepMind曾经尝试过许多用于数据驱动的工具和技术,特别是支持人工智能的机器学习方法,为改善医疗保健系统和服务提供了希望。Alphabet的执行主席 Eric Schmidt曾表示,以AlphaGo为代表的新的深度学习能力可以提高日常生产力,为企业带来无数的机会,特别是在医疗保健、交通运输和政府领域。

 

眼底筛查

2016年3月,DeepMind Health(现已纳入Google Health)使用与AlphaGo系统相同的深度学习技术。已经与伦敦大学学院和Moorfields眼科医院的研究人员使用深度学习技术创建软件,通过3D扫描识别数十种常见眼病,然后建议患者进行治疗。

 

这项工作是三个机构之间多年合作的结果。虽然该软件尚未准备好用于临床,但它可以在几年内部署在医院中。

 

根据发表在《Nature Science》上的论文中描述,该软件在基于深度学习的既定原则,该原理使用算法来识别数据中的常见模式。在这种情况下,数据是使用称为光学相干断层扫描或OCT的技术对患者眼睛进行3D扫描,创建这些扫描大约需要10分钟,并且需要从眼睛内部表面反射近红外光,这样做可以创建组织的3D图像,这是评估眼睛健康的常用方法。

 

该软件接受了来自约7,500名患者的近15,000次OCT扫描的培训。这些人都在Moorfields眼科医院接受治疗。在一项测试中,AI的判断与八位医生组成的诊断进行了比较,该软件在94%的时间内提出了同样的建议。

 

乳腺癌筛查

2018年4月,Deepmind 加入了伦敦帝国理工学院英国帝国癌症研究中心领导的一项开创性的新研究合作伙伴关系,探讨人工智能技术是否可以帮助临床医生更快更有效地诊断乳腺癌乳腺癌。

 

研究将分析2007年至2018年期间在医院采集的大约30,000名妇女乳房X线照片。这些将通过AI技术与已经提供的历史去除乳房X线照片一起进行分析。通过英国OPTIMAM乳腺X线摄影数据库,研究该技术是否能够比现有的筛查技术更有效地发现这些X射线上癌组织的迹象。在项目过程中,Jikei大学医院也将分享来自大约30,000名女性的乳房超声检查和3,500次乳房MRI检查。

 

这些合作为通过提供DeepMind可用于培训医疗保健工作算法的数据在NHS中更多地使用AI奠定了基础。

 

协助医生制定放疗计划

2018年9月,Deepmind 伦敦大学医院NHS基金会信托基金放射治疗部门正在开发一种人工智能(AI)系统,该系统能够分析头颈癌的医学扫描图像并作为专家临床医生以类似的标准将其分类。在计划放射治疗时,器官分割过程是一个必不可少但耗时的步骤。Deepmind正在开发一种新的性能指标,用于评估认为更能代表临床过程的模型性能,以及一个测试集,帮助医生进行器官分割与危及器官勾画。

 

预测急性肾损伤恶化风险

2018年2月,Deepmind与美国退伍军人事务部(VA)建立医学研究合作伙伴关系,该部门是世界领先的医疗保健组织之一,负责为美国各地的退伍军人及其家人提供高质量的医疗服务。

 

该项目正在与世界知名的VA临床医生和研究人员一起,分析来自大约700,000个历史脱敏医疗记录,以确定机器学习是否能够准确地识别患者恶化的风险因素并正确预测其发病,主要专注于急性肾损伤(AKI)。

 

从DeepMind的上述研究可以发现,其在人工智能技术在诸多领域的探索仍处于试验阶段,并未进入临床阶段。

 

有媒体观点认为,实际上,AI在生物学的整合并非个例。近年来以google为首的人工智能团队在生物医药领域全面开花,已经在癌症病理图片识别,基因组突变检测,疾病风险评估等诸多领域取得了等于与人类水平,甚至超过人类水平的耀眼成绩。但这些表面看上去很成功的模型也都不可避免地受到普适性、可用性、可解释性的障碍。

 

 

从算法上来看,DeepMind对于蛋白质折叠基础研究的技术突破具有划时代的意义。尽管Hassabis表示,DeepMind并没有完全解决蛋白质折叠问题,预测只是第一步。“蛋白质折叠是一个极具挑战的问题,但我们有一个很好的系统,以及一些尚未实施的想法。”

 

一个事实是,虽然AlphaFold的成就确实值得称赞,但只有在研究论文中详细介绍并进行同行评审时,才能理解该方法的独创性,并成为一项研究成果。

 

话虽如此,AlphaFold在该事件中的全面成功是一个明显的迹象,科学界可能很快就能够借助技术有效地预测蛋白质的结构。


随着其视野从游戏转向现实世界的问题,看看DeepMind下一步把目光投向哪些科学问题也将是有趣的。

 


参考链接:

https://deepmind.com/blog/alphafold/

https://www.theguardian.com/science/2018/dec/02/google-deepminds-ai-program-alphafold-predicts-3d-shapes-of-proteins

https://mp.weixin.qq.com/s/QAzcRAnZOmlBAm3PM7ZLNA

https://mp.weixin.qq.com/s/6BTN7WTQlIyrEEgNYUR7kQ


文 | 李艳瑜

信  | halapotato

添加时请注明:姓名-公司-职位

后台发送关键词即可获得相关好文

网站、公众号等转载请联系授权


“2018未来医疗100强论坛”是动脉网打造的属于医健领域创新者的年度盛会。本论坛将以未来医疗100强榜单&奖项的发布为契机,举办12场主题论坛,邀请近200位行业大咖,聚集国内外最为活跃的医疗健康创新企业、上市公司、金融机构、医疗机构等产业核心力量,促进产业链有效互动合作,推动创新健康医疗产业的变革进程。长按识别图中二维码,即可报名!


近期推荐

★ 健康险的2018:政策加持但监管趋严、开放度提高、创新成挑战

★ 医疗器械上市将有新规!FDA将淘汰510(K)

★ 北美放射学年会现大批“黑科技”:中国企业表现抢眼

VB100

★ 健康险的2018:政策加持但监管趋严、开放度提高、创新成挑战

★ 互联网医疗2018:医院成新兴力量,头部企业业务线多

★ 面对百亿级新市场,电子病历“掘金者”正如何各显神通?

★ 医药电商:互联网医院成“标配”,多业态融合抢食“处方外流”

声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。文中出现的采访数据均由受访者提供并确认。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存