德睿智药Briefings in Bioinformatics|利用3D结构进行分子性质预测
近日,厦门大学、湖南大学和德睿智药(MindRank AI)团队在国际生物信息学重要期刊《Briefings in Bioinformatics》(Impact factor: 8.990 )联合发表了“ A spatial-temporal gated attention module for molecular property prediction based on molecular geometry”。该工作提出了一种基于分子几何学的新型深度神经网络结构,Drug3D-Net。它是一种基于网格的三维卷积神经网络,并具有spatial-temporal gated attention模块。该模型可用于准确预测分子性质以及生物活性。
01
背景
准确预测分子性质是药物发现领域的关键任务之一。传统方法往往是基于化学家或药学家的经验,并依靠模拟和实验来了解药物的相关性质。随着分子数据量的指数级增长和深度学习在各个领域的快速发展,深度学习被成功地应用于药物设计和虚拟筛选,包括对药物性质的识别和预测。这种数据驱动的计算方法加速了药物的开发和发现,并加快了对新药特性的预测进程。
精确的分子表征是分子性质预测的基础。目前药物分子表征形式主要表现为基于序列的一维表示、基于分子指纹以及分子图的二维表示,然而,这些方法忽略了分子的三维结构信息,从而限制了模型准确学习和提取相关特征的能力。在三维领域中,要准确获得分子的三维结构信息并不容易。目前在三维空间中如何指定构象来生成三维描述符仍是一个挑战。如果所选的构象不是预测任务最优构象,它将导致模型性能比一维或二维分子表征方法更差,而三维分子表征是基于结构的药物研发的基石。现有的研究已经表明,基于三维结构的模型能够成功地预测新的活性分子或结合位点,而基于一维和二维分子表征的模型很难做到。然而,现有的三维分子表示方法仍存在一些缺点,如鲁棒性不足和预测性能不理想等问题。
本文提出了基于spatial-temporal gated attention模块的Drug3D-Net模型——一种3D药物分子表示的分子性质预测模型。实验证明了Drug3D-Net能够提高分子性质预测的准确性,且模型能够快速收敛进而大大减少训练时间和内存的使用量。大量的实验表明,与目前最先进的模型相比,我们提出的方法在四个分子数据集上都取得了优异的预测性能。
02
方法
2.1 模型概述:
Drug3D-Net模型结构如图1所示,主要由三部分组成:
Xgrid:3D grid描述符作为模型输入;
堆叠的3D CNN和Spatial-temporal gated attention layer;
得到分子的3D grid特征表示并用于各种预测任务;
对于SMILES数据集中的样本,我们基于原子间的相互作用势能,将3D分子构象离散化成3D grid,再将3D grid输入Drug3D-Net。
图1:Drug3D-Net模型架构图
如图1,我们搭建了3层带有3D grid attention模块的3D CNN。模型将学习到基于空间结构的3D特征的分子表征,并用于下游预测任务。
2.2 构建spatial-temporal gated attention模块:
Spatial-temporal gated attention模块的详细设计如图2所示。3D grid attention由空间注意力、通道注意力和门控机制构成。空间注意模块通过3D CNN提取3D分子特征并获得空间注意力分数。通道注意力模块通过全连接层获得不同通道上(原子类型)的注意力分数,并采用门控机制来获得全局3D grid attention。
图2:spatial-temporal gated attention模块示意图
03
数据及其处理
论文中使用的数据集主要有四个,分别为:ESOL,FreeSolv,Tox21以及HIV。
ESOL数据集包含了1128个药物分子的SMILES字符串及其对应的水溶性,分子重量等相关属性信息;
FreeSolv数据集提供了642个小分子在水中的水化自由能;
Tox21数据集记录了7381个药物分子的毒性信息;
HIV数据集收集了超过40000种化合物对HIV病毒复制的抑制作用信息。
其中,ESOL和FreeSolv数据集用于回归任务,Tox21和HIV数据集用于分类任务。
在处理完每个数据集上的数据不平衡问题后,作者通过RDkit包根据分子的拓扑结构信息计算conformers,最终将SMILES字符串转化成48x48x48x10的3D grid表示,这里的10表示10个通道,每个通道上包含一种原子的分布。
04
实验结果
表2 在ESOL数据集上的结果
表3 在FreeSolv数据集上的结果
从表2,表3可以看到,在回归任务上,作者提出的Drug3D-Net模型可获得较好的性能。在ESOL数据集上,Drug3D-Net性能大幅优于随机森林(RF),XGBoost这类机器学习算法,以及基于2D分子指纹ECFP的CheMixNet模型、基于3D指纹的E3FP以及基于3D体素的Protein-ligand 相互作用模型。在将CBAM模块替换成作者所提出的3D grid attention模块后,模型效果确实得到了提升,说明相比于CBAM,后者确实能更好地整合空间上的注意力。
在FreeSolv数据集上,Drug3D-Net达到的回归效果也仅次于Graph convolutional Model,作者认为这是由于FreeSolv数据集的数据量过小,不能提供更丰富的结构信息所导致的。但相比于其它几个baselines,这里的差距是微不足道的。
表4 在Tox21数据集上的结果
表5 在HIV数据集上的结果
从表4和表5中可以看到,在分类任务中,Drug3D-Net也达到了非常出色的效果,超过了一众机器学习算法以及其它基于图和3D的分子表示方法。作者认为,优越的性能一方面来自于3D grid attention机制,另一方面则是因为作者做了保证3D旋转不变性的数据增强操作。
05
讨论
在本篇文章中,作者提出了基于spatial-temporal gated attention模块的3D CNN模型来提取3D grid的特征,并将其整合到“端到端”的Drug3D-Net模型当中。在多个对比实验中,作者所提出的模型在回归和分类任务上都达到了state-of-the-art的效果。与CBAM模块的对比实验结果,进一步证明了作者提出的3D grid attention机制能更好地整合空间上的注意力信息。
参考资料
Chunyan Li, Jianmin Wang, Zhangming Niu, Junfeng Yao, Xiangxiang Zeng, A spatial-temporal gated attention module for molecular property prediction based on molecular geometry, Briefings in Bioinformatics, 2021;, bbab078, https://doi.org/10.1093/bib/bbab078
联系我们
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
远程机器人实验室在AI药物发现中的应用价值与前景
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(五) 2018-2020的主要突破性事件
图卷积神经网络用于解决小规模反应预测
IBM的AI系统通过深度生成模型和分子动力学模拟加快抗生素发现
数据增强和迁移学习策略解决小数据集化学反应预测问题
利用人工智能增强表型药物发现
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动
虚实结合的AI药物发现:现场数据生成,模型迭代更新