查看原文
其他

《自然》子刊发表实验室最新成果:预训练框架GPIP,AI驱动计算物质科学研究新范式

Shanghai AI Lab 上海人工智能实验室
2024-12-09

近日,上海人工智能实验室(上海AI实验室)推出首个针对机器学习势函数模型的自监督预训练框架GPIP(Geometry-enhanced Pretraining on Interatomic Potentials),为AI驱动计算物质科学研究提供了新范式。


研究人员将AI与基础科学深度融合,提出了创新的自监督学习策略,使机器学习势函数的性能可靠度提升超过30%,同时,使用GPIP获取数据的计算量仅为传统方法的1%,大幅降低了研究成本。

由于能够精准模拟物质体系中分子的行为,势函数模型已成为当前实现高性能分子模拟的关键,在材料设计、药物研发等领域具备巨大应用潜力。上海AI实验室持续布局计算物质科学等AI for Science相关研究,深入探索AI在物质科学研究中的应用。

该成果相关论文Geometry-enhanced Pretraining on Interatomic Potentials已发表于Nature旗下刊物Nature Machine Intelligence

论文标题

Geometry-enhanced Pretraining on Interatomic Potentials

论文链接

https://www.nature.com/articles/s42256-024-00818-6(点击文末“阅读原文”查看)


势函数助力物质科学研究
作为理论与实验科学之间的纽带,计算科学在自然科学研究中扮演着重要角色。分子动力学(Molecular Dynamics, MD)模拟通过模拟原子的运动,揭示了原子尺度上的微观细节和动态过程,被广泛应用于材料设计、生物制药、化学工程、环境科学及基础理论研究等领域。
近年来,随着算法发展和算力提升,传统的大规模“试错”实验已逐渐被“计算设计-实验验证”的方法所代替。
当前,MD模拟描述原子间相互作用力主要基于两种方法:通过求解复杂物理方程(如Density Functional Theory, DFT)得到原子受力信息,这种方法精度高但速度慢;通过拟合经验公式,即势函数或力场的方法,虽计算速度快,但精度较差,往往无法提供有价值的结论。
为此,学术界提出机器学习势函数,结合了DFT的高精度和经验势函数的高效率,可在保持计算精度的同时显著提高计算效率。然而,高性能的机器学习势函数往往依赖大量的带标注原子结构数据,当前存在数据稀缺、DFT计算资源消耗大等问题,限制了机器学习势函数的应用范围。


结构高效生成,数据准确可靠

针对上述挑战,上海AI实验室AI for Science团队推出GPIP几何增强预训练框架,旨在解决原子结构数据的获取与利用问题。
在GPIP框架中,经验势函数通过MD模拟,能够快速生成大量的目标体系原子结构数据。研究团队进一步设计了一套几何增强的自监督学习策略,通过掩码、去噪和对比学习等方法,从原子结构数据中提取出有用的三维几何和拓扑信息,强化了模型的学习能力。通过MD及算法策略,使得原子结构数据在高效生成的同时亦符合物理学约束条件。

通过GPIP生成的符合物理规律的有效水分子结构数据(左)与不符合物理规律的无效水分子结构数据(右)。右图中,原子位置分布与键长键角等特征不合理。


性能提升超三成,算力需求下降百倍

为验证GPIP在实际任务中的可靠性,研究人员使用多种势函数模型作为基座模型进行测试,测试数据集涵盖了从小分子到周期性复杂体系。评测结果显示,GPIP在各种任务上的平均绝对误差下降了30%-50%,且任务执行不依赖于具体的基座模型和下游任务数据集。
得益于自监督预训练的引入,初始生成的结构数据仅需二至三次迭代即可满足实验需要。此外,预训练使用的原子结构数据通过经典MD模拟生成,数据获取所需算力仅为传统方法的1%。

预测值与真实值的误差(MAE)随训练数据量的变化情况(左)以及计算资源消耗量(右)。

上海人工智能实验室Al for Science团队

面向物理、化学、生命、地球等科学领域,通过深入研究各学科基础理论,结合最新人工智能理论,探索AI驱动重大科学问题的研究范式,搭建微观到宏观自然科学的跨学科数据和算法开放生态平台,使人工智能紧密结合自然科学,通过基础及应用研究,构建从底层创新到产业落地的完整体系,加速人工智能在化学、新材料、气象、药物研发等领域的渗透与落地,赋能各行业发展。

继续滑动看下一个
上海人工智能实验室
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存