查看原文
其他

让新药研发加速,广州超算用AI这么做!



导 读

药物研究是关系着人类生命健康的事业,而新药研发是一个周期长、风险高、投入大的一个过程。据有关部门统计,传统药物研发耗时耗力,一般需要超过15年,耗资30多亿美元。近年来,利用计算模型和已知的分子性质数据对化合物进行虚拟药物筛选可有效降低研发成本并加速研发进程,已被越来越多的研究人员采用。而构建合理的分子表征是分子性质预测和药物筛选等任务的核心。近日,国家超算广州中心研究团队依托超算开发出一种新型分子表征学习框架CMPNN,“超算+AI”有效改善了分子表征效果,其研究成果于本月成功发表在人工智能顶级会议“International Joint Conference on Artificial Intelligence 2020”上。

在新药研发的过程中,准确预测化合物分子的成药性质一直是医药学界重要的研究主题,其目标是去除在下游开发过程中更可能产生副作用的化合物,从而节省试验成本并缩短研发周期。早期的成药性质预测主要是根据专家编制的物理化学描述符或分子指纹,通过定量结构-性能关系或者简单的机器学习进行。显然,这些预定的有限理化性质描述难以对化合物分子进行精确描述。近年来,随着海量实验数据的获取,借助超算超强的数据处理能力,利用机器学习特别是深度学习进行端到端的预测,显示出了强劲的应用潜力。

新型图卷积算法CMPNN

化合物分子由原子和共价健组成,与图模型的节点和边具有天然的对应关系,因此,图模型长期广泛应用于化合物分子的计算。随着图卷积网络模型(GCN)于2016年被首次提出,Google紧跟着于2017年开发出针对化合物小分子学习的消息传递网络(MPNN)模型,在分子性质方面展现优异的性能。在此基础上,2019年提出的DMPNN模型,在MPNN的消息传递方向进行了约束并做了进一步优化,进一步超过了其它方法。然而,这些方法只是单方面地关注于节点(原子)消息或者边(化学键)消息,而忽视了两者之间的相互关系。


为了解决这个问题,广州超算研究团队结合多年的分子研究经验,借助“天河二号”超级计算机的强大算力,并充分利用生物医药应用平台所集成的丰富数据库和应用软件,开发出一种增强节点和边消息交互传递的新型图卷积算法(Communicative Message Passing Neural Network,CMPNN),进一步发掘出图卷积算法在分子表征中的应用潜力,在6个公开的性质和毒性数据集上均取得了当前最佳性能。该项研究成果被CCF A类会议、人工智能顶级会议IJCAI 2020接受(论文接受率12.6%),并于7月初正式发表。

CMPNN模型的主要结构

在CMPNN模型框架中,分子采用SMILES文本表示,分子在框架中进一步被还原成平面拓扑结构(Graph),分子中的原子特征、键特征,和原子相互之间的连接关系被传入到CMPNN框架中,详见下图所示。

🔻 消息传递示意图

🔺 Message Booster示意图

CMPNN采用了相较于MPNN效果更好的边消息有向传递机制,同时在边消息传递的过程中与节点消息产生交互,最大程度地捕捉分子图的消息表征。值得注意的是,该框架在整个消息传递的过程保证了函数单射性这一特点(如下图所示),保证了模型在理论上能够更好地逼近Weisfeiler-Lehman算法的极限。除此之外,在边消息聚合的过程中,研究人员设计了消息增强(Message Booster)模块,对于2018年提出的的加和池化(Sum Pooling)进行了优化和改良,从而进一步提高了模型的性能。

C

M

P

N

N


实验结果显示CMPNN具有独特优势

在CMPNN的基础上,研究人员用大量实验证明了多种不同的消息交互方式的影响,并进行了充足的消融实验。相较于目前最先进的预测方法如MPNN、DMPNN等算法,对比试验数据表明CMPNN在行业标准性质预测数据集MoleculeNet中的6个性质和毒性数据集上表现出了明显的竞争优势(如下图所示),均为当前最佳性能。该模型在数据集 Blood-Brain Barrier Penetration(血脑屏障穿透,BBBP)和数据集ESOL(水溶性)上表现尤为突出,充分显示出了CMPNN的优势。

CMPNN在6个数据集上与最新的预测方法的部分比较结果(随机划分)


▲ CMPNN在6个数据集上与最新的预测方法的部分比较结果(按分子骨架划分)

除了在数值上的预测精度提升,CMPNN模型的另一个优势是其在毒性基团的区分上表现优异。其t-SNE聚类可视化结果显示,CMPNN能够对于毒性原子(红色)和非毒性原子(蓝色)进行很好地聚类,相较于MPNN和DMPNN有更好的区分度,充分展现出了CMPNN框架的表征优势。

原子嵌入向量的t-SNE降维可视化结果



新药研发过程中,不合适的药物体内过程是其失败的重要原因。虚拟药物筛选是人工智能药物研发过程中的重要一环,而利用计算模型和已知的分子性质大数据对化合物进行虚拟筛选能够节省大量资金投入并有效缩短研发时间,可在较大程度上加速新药研发的过程。

广州超算研究团队通过大量的对比实验证明,其提出的基于消息交互的消息传递网络CMPNN模型在6个基准数据集上达到了当前最先进的结果,并且在吸收率/溶解性相关的数据集上表现尤为突出。关于该模型的最新源代码已经公开到github官网上,供同行参考并欢迎共同探讨交流。未来,广州超算研究团队将依托天河二号进一步丰富与完善人工智能药物研发平台,充分利用现有的数据优势和平台性能优势,推动我国药物研发迈出关键步伐。

论文地址:https://www.ijcai.org/Proceedings/2020/0392.pdfCMPNN框架源代码地址:https://github.com/SY575/CMPNN

热门文章推荐

┣超算+拓扑优化,使超长悬索桥设计成为可能

┣连续2篇顶级期刊!和天河二号一起探索地球深部水的奥秘

中山大学新设“冯·诺依曼”实验班,为国家培养高素质计算机人才

超算— — NSCC-GZ — —特别鸣谢:宋颖撰稿:万园园微信编辑:岳苹
初审:王栋审核:万园园审核发布:李奈青

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存