公开催化剂挑战赛冠军模型、通用AI分子模拟库Graphormer开源!
(本文阅读时间:9分钟)
编者按:微软亚洲研究院创新提出的可应用于图结构数据的 Graphormer 模型近日迎来重大升级!研究员们将此前开源的 Graphormer 升级为基于人工智能的分子模拟通用工具包。关注分子模拟领域的科研人员和算法工程师们可通过新版 Graphormer 工具包更好地对材料发现、药物发现等应用中的重要问题进行最前沿的深度学习模型与算法建模。在全新升级的 Graphormer 模型助力下,微软亚洲研究院的研究员们在刚刚结束的公开催化剂挑战赛中也取得了第一名的佳绩。一起来看看此次升级都带来了哪些更新吧!
Graphormer 模型是微软亚洲研究院提出的新一代对图(Graph)数据进行建模的深度学习模型(典型的图数据包括分子化学式、社交网络等等)。相比于上一代传统的图神经网络(Graph Neural Network),Graphormer 模型具有更强大的模型表达能力、更高效捕捉图结构信息的能力以及可拓展性的更大潜力。在近期举办的 KDD Cup 2021 上,Graphormer 模型在 OGB-LSC 图预测赛道上击败了全球包括 DeepMind 在内的多个技术实力强劲的公司和研究机构,夺得冠军。
近年来,基于人工智能算法的分子性质预测与模拟在材料科学、生物制药等领域都有着极其重要的应用。然而,在机器学习的开源社区中却缺少支持前沿分子模拟深度学习的算法与模型以及可方便使用的工具包。为了弥补领域内这一空白,微软亚洲研究院的研究员们在过去一段时间内不断迭代更新,将此前开源的 Graphormer 升级为基于人工智能的分子模拟通用工具包,以帮助科研人员和算法工程师更好地运用最先进的机器学习算法进行分子模拟、分子性质预测、分子生成等任务。此次重大升级包括了最前沿的算法、更易用的预训练模型、更灵活的使用接口、更高效的架构与更完善的文档等。无论是科研人员,还是算法工程师,Graphormer 都能在 AI 分子模拟上助你一臂之力。
GitHub 地址:
https://github.com/microsoft/Graphormer
项目主页:
https://www.microsoft.com/en-us/research/project/graphormer/
刚刚结束的公开催化剂挑战赛(Open Catalyst Challenge)由 Facebook AI 研究院、卡耐基梅隆大学联合机器学习顶级会议 NeurIPS 共同举办,旨在使用人工智能算法对新催化剂材料进行建模与发现,并助力解决新能源存储、气候变化等问题。
催化剂的发现和优化是解决许多社会和能源挑战的关键,包括太阳能燃料合成、长期储能和可再生肥料生产等。新的催化剂结构可以使用基于量子化学的分子与化学反应模拟(如密度泛函理论等)进行筛选与评估。然而,过于高昂的计算开销与时间开销不仅限制了可模拟的通量与规模,也大大限制了整个领域的发展。为此,使用机器学习算法为分子和反应模拟提供高效的近似正逐渐成为催化剂发现中新的趋势。
尽管催化界为将机器学习模型应用于计算催化剂的发现过程做出了相当大地努力,但构建可以泛化表面元素组成和吸附物特性的模型仍然是一个开放的挑战。为了解决该挑战并推动催化剂领域的发展,本次公开催化剂挑战赛要求参赛队伍开发机器学习算法模拟超过66万个密度泛函理论计算的催化剂-吸附物反应系统(超过1亿4千万个结构-能量估计),其中每个系统要模拟吸附物从初始状态到松弛状态(能量最低)过程中的结构与能量。
催化剂与吸附物反应松弛过程系统示意图
由于该公开催化剂挑战赛具有重大的科研意义,赛题富有且挑战性,数据集规模也十分庞大,因此吸引了包括 DeepMind、FAIR、CMU 等在内的众多科研机构与高校实验室的关注和参与。在 NeurIPS 2021 大会上,竞赛主办方公布了 Direct Track(直接预测松弛能量)的成绩:微软亚洲研究院达到了0.547eV的绝对误差,以较大优势夺冠。赛事的算法性能分析显示,对于多吸附物的复杂系统,Graphormer 模型能以89%的准确率预测最低能量系统,可以节省至少50%的密度泛函理论计算开销。
Direct Track 公开(左)与非公开(右)测试集排行榜:微软亚洲研究院的 Graphormer 模型均取得第一名
为了持续提升 Graphormer 模型的性能,微软亚洲研究院的研究员们对模型进行了升级,包括支持对 3D 分子建模以及保持等变性的辅助任务等。
此前,为了更好的捕捉 2D 图中的结构信息,Graphormer 模型使用最短路距离作为空间编码刻画节点之间相互的空间位置关系;使用度信息作为中心性编码刻画每个节点的结构重要性。然而 3D 分子中不存在化学键信息,因此整个系统可视为由所有原子组成的全连接图,所以研究员们使用了高斯核函数对节点之间的欧式距离进行了编码作为空间编码,并对每个节点的空间编码进行求和,从而得到刻画节点重要性的中心性编码。
除了让 Graphormer 模型直接预测系统松弛状态下的能量,研究员们还为算法设计了辅助任务:预测每个原子从初始状态到松弛状态的坐标位移。在分子动力学任务中常常需要预测原子受力情况或坐标位移等,因此模型的输出需要对系统的旋转平移等保持等变性。为此,研究员们为 Graphormer 模型设计了一个特殊的 3D 注意力层,使图中目标节点对源节点的作用可以投影到 x,y,z 三轴上,从而让模型输出达到等变的效果。
公开催化剂挑战赛中夺魁的 Graphormer-3D 模型
最新的开源 Graphormer 工具包中已经包括了此次公开催化剂挑战赛所使用的全部模型、训练推理代码与数据处理脚本等,希望相关领域的科研人员与算法工程师们可以方便地将 Graphormer 应用到分子动力学等任务中,助力人工智能算法在材料发现、生物制药等领域的进展。
当下,人工智能算法与自然科学的研究正在加速交叉融合,微软亚洲研究院也在生物、材料、环境科学等多个领域的重要问题中取得了突破性进展。作为微软亚洲研究院在人工智能与自然科学交叉领域的第一个开源工具包,Graphormer 希望推进人工智能与分子科学交叉领域的重要前沿研究与应用,如新型储能材料发现、药物发现等。除了前沿的算法升级,Graphormer 还提供了在不同数据集上训练的强大预训练模型。
众所周知,分子的精确物化性质或药化性质往往需要在实验室中测定,或临床试验中获得,因此高质量的数据往往十分缺乏,导致一些前沿的深度学习模型无法发挥其强大的表达能力。而有了强大的预训练模型,科研人员们往往只需要在自己特定的任务上使用非常少的数据对模型进行微调,即可得到性能强大的深度学习模型。例如在此次升级后,工具包中提供了在 PCQM4M 数据集上预训练好的 Graphormer 模型,PCQM4M 数据集包含超过380万个分子的量子化学属性,可以让预训练 Graphormer 模型学到丰富的化学知识,并具有很好的迁移性。比如,当将在该数据集上预训练的 Graphormer 模型迁移到生物测定任务(如 OGBG-PCBA 等数据集)上时,可以获得远超上一代图神经网络的性能与效果。
此外,Graphormer 工具包目前支持 PYG、DGL、OGB 等多种主流图工具包与数据库,方便科研人员们快速在基准数据集或私有的特定数据上进行算法开发与验证。相比于上一版本,升级后的 Graphormer 效率更高,并且可提供高性能的大规模并行训练以及灵活的自定义模型算法。除了丰富的接口、强大的前沿算法与预训练模型以外,本次更新的 Graphormer 工具包还完善了文档支持,丰富的样例程序也可帮助用户们更容易理解、快速上手。
在未来,除了分子性质预测、分子动力学等,Graphormer 工具包还将支持多种科研与工业界的常见应用,如药物分子与蛋白质相互作用、化学反应预测(逆合成)、分子生成、大体量分子(聚合物、蛋白质)模拟等等。大量的公开数据集、业界基准以及统一的评价标准将能够帮助科研人员与企业用户省去不必要的麻烦,专心于算法或应用。
一直以来 Graphormer 都得到了社区成员和用户的积极反馈。现在 Graphormer 的更新非常活跃,未来也将有更多功能开放出来,欢迎关心分子建模相关问题的用户关注并使用微软亚洲研究院 Graphormer 工具包。也希望通过更多的交流和分享可以助力分子建模领域形成大规模的良性循环。
Graphormer
GitHub地址:
https://github.com/microsoft/Graphormer
文档地址:
https://graphormer.readthedocs.io/en/latest/
项目主页:
https://www.microsoft.com/en-us/research/project/graphormer/
你也许还想看: