查看原文
其他

数据与原理双驱动:百度飞桨螺旋桨发布第一性原理启发的化合物表征大模型HelixGEM-2

百度AI 2023-03-16


导读:单纯数据驱动的模型构建方式已不足以支撑生物计算领域的技术创新,百度飞桨螺旋桨团队发布第一性原理启发的化合物表征大模型 HelixGEM-2,首次提出基于长程多体交互的分子建模新技术,同时刷新大规模量子化学属性预测任务及虚拟筛选任务,显示出其在药物研发领域的巨大应用潜力。


今年2月,百度飞桨螺旋桨团队在《Nature》旗下子刊 《Machine Intelligence》上发表了题为《Geometry Enhanced Molecular Representation Learning for Property Prediction》的文章,首次将化合物的空间结构信息引入到大规模的预训练模型中,在下游十多项的药物属性预测任务中取得 SOTA,即 HelixGEM 模型。HelixGEM 从数据驱动的角度出发,使用千万级别的化合物数据进行预训练,并设计基于几何构象的自监督学习任务,使得模型具备推理化合物三维空间结构的能力。


但在标注数据相对稀少的场景上,数据+领域知识驱动的模型构建方式已经不足以更好的表征分子特性,而需要引入更多的原理机制,以提升模型的泛化能力。基于此想法,螺旋桨团队近期发布了第一性原理启发的化合物表征大模型 HelixGEM-2,并公开文章《Next Generation Molecular Property Prediction Network by Modeling Full-range Many-body Interactions》,在业界首次提出基于长程多体交互的分子建模新框架,并同时刷新大规模量子化学属性预测任务及虚拟筛选任务,取得新的技术突破。


 第一性原理启发的长程多体交互的化合物表征模型 HelixGEM-2 

在微观层面上,化合物的性质取决于它的分子内部相互作用以及与环境中其他分子的相互作用,这些相互作用的尺度是如此之小,以至于无法通过经典力学规律来描述,而必须考虑非经典的量子力学效应。从量子力学的角度来看,化合物及其环境是一个多粒子体系,预测其性质的难点在于如何准确描述粒子间复杂的多体(Many-body)和长程(Long-range)相互作用。为了描述这些相互作用,螺旋桨团队受到量子力学仿真方法的启发(如:密度泛函理论 density functional theory,简称 DFT),创新性地设计网络结构,从而高效地建模化合物中的多体以及长程相互作用,以全面提升化合物建模在属性预测与药物筛选中的效果。


⬇️文章 arxiv 链接:
https://arxiv.org/abs/2208.05863

⬇️开源地址:
https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/pretrained_compound/ChemRL/GEM-2

 核心创新点1:多体长程关系的基础建模 

化合物中的多个原子作为一个整体可看作是一个多体,而多体之间的关系建模已被量子力学的方法证明其重要性。一个化合物被表示为多个高阶张量,分别表示单体(1-body),双体(2-body),三体(3-body),…,的表征。HelixGEM-2的网络中包含多个轨道(track),每个轨道分别学习同阶的多体之间的长程关系,并更新相应的表征。此外,不同阶的多体的信息亦可跨轨道进行相互间的传输,进一步提升建模的效果。


 核心创新点2:多体长程建模的加速 

直接完整建模所有多体之间关系的开销代价非常大,建模包含 N 个原子的化合物的所有 m 阶多体间关系的时间复杂度为 O(N^(2m)),而当原子数量与阶数增加时这个复杂度往往难以容忍。鉴于此,HelixGEM-2堆叠多个维度的 Axial Attention 模块去逼近直接完整建模的效果,极大地降低了时间复杂度。


 结果:大幅提升量子化学属性预测与药物发现的效果 

PCQM4Mv2是国际权威榜单 Open Graph Benchmark(OGB)上的一个与量子化学属性预测相关的任务,该数据集关注与量子化学属性 HOMO-LUMO gap 的预测,与化合物的反应性,光激发和电荷传输等息息相关,是目前规模最大的分子属性预测数据集。LIT-PCBA 是斯特拉斯堡大学 Didier Rognan 团队创建的专门为虚拟筛选和机器学习而设计的无偏数据库,收集自 PubChem 湿实验数据集,包括15个靶标,9780个确认的活性化合物和407893个确认的非活性化合物,也是目前进行虚拟筛选算法验证的最佳数据集。

HelixGEM-2不仅在 PCQM4Mv2 上取得了不俗的成绩,大幅度超越无多体建模或长程建模的方法,而且也在在药物研发直接相关的虚拟筛选数据集 LIT-PCBA 上,超越现有方法,展现出巨大的应用潜力。



与 NLP、CV 等领域的基于数据驱动的大模型不同,生物计算需要对物理、化学、生物等基础原理进行深入探究,以数据驱动+原理驱动结合的方式来构建大模型。百度飞桨螺旋桨团队已基于该思想,对化合物表征问题进行了验证。接下来,螺旋桨团队还将针对蛋白领域,深入挖掘大模型潜力,结合数据驱动和第一性原理驱动,构建蛋白领域的表征大模型,更好的服务于下游抗体设计和结构预测等任务。

⬇️更多信息可访问:
  • https://paddlehelix.baidu.com/
  • https://github.com/PaddlePaddle/PaddleHelix


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存