今日,深势科技重磅推出蛋白质结构预测工具 Uni-Fold,成功复现曾引起生物学界轰动的 AlphaFold2 的全规模训练,并开源训练代码与推理代码。相应解决方案已集成至深势科技自主研发的药物设计平台 Hermite,供广大用户测试使用。
Uni-Fold 克服了 AlphaFold2 未开源训练代码、硬件支持单一、模型不可商用等局限性,在训练与推理环节进行了 NVIDIA GPU上的适配、性能优化及功能完善等工作,为更多人参与推动领域进一步发展提供了基础。
蛋白质是组成生命体的重要物质基础。不同的蛋白质通过折叠构成形态各异的三维结构,执行多种多样的生理功能。长期以来,从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一。在过去几十年的研究中,科学家们为探测蛋白质结构发展出三大实验手段:X射线晶体学、核磁共振和冷冻电镜。但实验方法成本高、周期长。目前人类已知有数十亿蛋白质序列,还原出结构的却只有十几万。生物学发展因此颇受掣肘。近年来AI的发展为解决这一问题带来了新的可能。在2020年的国际蛋白质结构预测顶级竞赛 CASP14(Critical Assessment of protein Structure Prediction 14)上,Google DeepMind 推出的 AlphaFold2 预测的大部分单体蛋白质结构准确度与实验足够接近,远超此前所有方法。这一结果也标志着蛋白质单体结构的问题在一定意义上得到了解决。尽管 DeepMind 在半年后开源了 AlphaFold2 模型的推理代码,但其训练代码并未被公布,且模型不可商用。研究者难以通过训练或调整模型进一步提升 AlphaFold2 的表现,或迁移至更多应用场景,如蛋白质复合物结构预测、蛋白质与小分子相互作用、与电镜实验结合等。此外,该代码基于 Google 自研的可微分计算框架 JAX 及 TPU 硬件平台开发,高度依赖 Google 生态系统,造成了一定的使用限制。深势科技推出的 Uni-Fold 是蛋白质结构研究领域首款完全开源并成功复现大规模训练的工具。在过去一年里,深势科技团队克服了算法生态不佳、计算资源有限等难题,成功突破技术壁垒,复现了 AlphaFold2 的训练过程,并决定将训练代码全部开源,让这项高精度的蛋白质结构计算预测软件真正惠及结构生物学领域研究者。开源地址:
https://github.com/deepmodeling/Uni-Fold
Uni-Fold 为领域提供开源的深度蛋白质模型训练方案,并将训练所得模型在深势科技推出的药物设计平台 Hermite 中上线,提供用户友好的端到端使用体验,供使用者免费测试(方式见文末)。Uni-Fold 训练代码经过 MPI 并行、数据异步读取、混合精度训练等优化工作,支持在 NVIDIA GPU 上进行高效训练,无需 Google 提供的 TPU Pod;基于优化后的训练代码,深势科技团队实现在128块 NVIDIA GPU 上进行 AlphaFold2 模型的全规模训练,并将持续优化所得模型。在此感谢并行科技与阿里云在计算资源的协调方面做出的重要贡献。在相同的测试条件下,Uni-Fold 的预测精度超越了华盛顿大学蛋白设计研究所 David Baker 教授课题组研发的 RoseTTAFold,与 DeepMind 官方发布的 AlphaFold2 模型接近。深势科技团队使用 Uni-Fold 对 CASP14 蛋白预测任务中的序列数据集进行了直接测试,平均 Cα-lDDT 达到82.6。此外,Uni-Fold 的推理代码更加轻量、高效,在相同硬件环境下,能够获得与公布的 AlphaFold2 代码相比2-3倍的效率提升。中科院院士、北京大学教授、深势科技首席科学顾问鄂维南表示:“尽管 DeepMind 开源了推理代码,但模型的训练技术才是核心竞争力。在资源比较匮乏的情况下,深势科技团队在较短时间内实现模型训练、开源训练代码,这是很不容易的。深势科技在物理模型方面具备丰富的经验, Uni-Fold 进一步弥补了团队在数据驱动方面的短板。下一步,物理模型和数据驱动结合的解决方案将为蛋白结构和药物设计行业提供更好的基础。”作为领域内首个接近 AlphaFold2 精度且开源训练代码的项目,Uni-Fold 的出现能够真正普及蛋白质结构预测大模型的训练。深势科技希望以此工具赋能结构生物学研究,让每一位研究者都能根据场景需求自主优化迭代训练模型,拥有定制化的蛋白质结构预测工具。Uni-Fold 能够实现蛋白质结构预测在效率与精度上的协调飞跃。作为药物设计的第一环节,Uni-Fold 将与深势科技AI辅助计算模拟的算法有机衔接,并与电镜实验技术相结合,为药物设计领域打造一套模拟-AI-实验三者驱动的解决方案。鄂维南院士曾在多个场合呼吁:“科学是人工智能下一个主战场。”算力、算法、数据的协同发展正在缩短理论研究与解决实际问题之间的距离。AI 在科研领域与应用场景深入的过程中,需要各领域、多学科的交叉与合作。Uni-Fold 是深势科技运用 AI + Science 范式在结构生物学领域的一次实践。在 AI +Science 的路径探索中,开源将会成为未来长远发展必要的协同机制。过去三年,深势科技致力于推动 Deep Potential 系列开源解决方案的普及与 DeepModeling 开源社区的发展。目前,社区中的开源软件已得到国内外一千余个研究组的近万名科学家使用,涉及物理、化学、材料、生物、地质等多个领域,形成了良好的“飞轮效应”。未来,深势科技将继续以开放的心态,与业界学界研究者们共同探索新的协同机制,攻克科研难题。Uni-Fold 现已在 Hermite 药物设计平台上线开放公测,诚邀体验!无需下载模型、配置环境,不必担心计算资源,只要打开浏览器键入 hermite.dp.tech,就可以在友好的图形化界面中提交蛋白结构预测任务,体验 Uni-Fold 的预测效果。今后,我们也会在 Hermite 药物设计平台持续更新 Uni-Fold 最新模型,让用户能在第一时间触达 Uni-Fold 最强大的预测能力。Uni-Fold在深势科技Hermite药物设计平台上的使用
关于深势科技
深势科技有限公司(“深势科技”)是一家成立于2018年的科技公司,于2019年开启规模化发展之路,致力于以新一代分子模拟技术解决微观尺度工业设计难题。 以打造切实服务于药企、材料商和科研机构的模拟研发平台为主要业务方向,以解放研发工作者的生产力为主要业务目标。 深势科技具有强大的科研与产业落地能力。其新一代分子模拟算法在保持量子力学精度的基础上,将分子动力学的计算速度提升了至少五个数量级,且对算力的需求与体系的原子数量呈线性依赖;结合高性能计算,能够对数十亿原子规模的体系进行量子力学精度的计算模拟。团队核心成员获得2020年全球计算机高性能计算领域的最高奖项“戈登·贝尔奖”,相关工作当选2020年中国十大科技进展,以及2020年全球人工智能十大科技进展。----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。