查看原文
其他

JCIM|结合AI与Docking的基于结构的分子从头生成模型

曹璐靖 段宏亮 智药邦 2022-06-15

今天给大家介绍的是Journal of Chemical Information and Modeling上AI结合Docking模拟,使用生成模型进行基于结构的分子从头设计的文章"Structure-Based de Novo Molecular Generator Combined with Artificial Intelligence and Docking Simulations"。
作者研究了一种新的基于深度学习的分子从头生成模型SBMolGen,该模型将循环神经网络(RNN)、蒙特卡洛树搜索(MCTS)和对接模拟联系起来,可以基于靶蛋白的结合亲和力和构象高效地生成分子,同时优化分子生成过程。该模型不仅能产生新的具有结合活性的分子,还能与靶蛋白三维对接,并使生成的分子具有更广阔的化学空间分布。

1.研究背景

基于结构的药物设计(SBDD)已成为加速先导化合物发现和优化的重要工具。由于高通量筛选(HTS)既耗时又昂贵,所以现在更多的会将虚拟筛选(VS)替代高通量筛选(HTS)来作为SBDD的第一步。现有的筛选方法有一个严重的局限性:尽管估计存在1023-1060种可合成化合物,但可用化合物库的化学空间仍不够大。为了解决这一局限性,人们开发了许多分子生成方法来设计类药物分子,其中基于深度学习的方法最近引起了人们的注意。这些基于深度学习的生成模型在扩展化学空间方面相当有效。然而,它们只生成类药物分子,在此之后,需要进一步的结构优化来进行实际的药物开发。在以往的研究中,可以在生成候选分子之后通过与靶蛋白对接模拟,进一步筛选出有希望的候选分子。然而,这些方法只是在模型生成分子后才与对接模拟联系起来,最终选择的化合物与靶蛋白的三维结合亲和性和构象并不总是最优的。因此,虽然目前已经开发了许多分子生成模型,但还没有基于深度学习的生成模型能够优化与靶蛋白的三维结合亲和力和构象。为此作者设计了一种基于深度学习(RL)、蒙特卡洛树搜索(MCTS)、和对接模拟的基于结构的分子生成模型(SBMolGen)。通过结合循环神经网络(RNN)和蒙特卡洛树搜素(MCTS),SBMolGen可以高效地生成新分子,同时优化分子生成过程。并且通过将对接模拟结合到生成过程中,可以基于靶蛋白的结合亲和力和构象生成分子。

2.模型框架

ChemTS 提供了一个 python 库,用于使用 RNN 实现蒙特卡洛树搜索(MCTS),以此生成新分子。ChemTS通过重复MCTS的四个步骤:选择(Selection)、扩展(Expanse)、模拟(Simulation)和反向传播(Backpropagation)来生长搜索树,从而搜索有希望的候选分子。对于扩展和模拟步骤,ChemTS借助了RNN模型,RNN模型是使用来自ZINC数据库的大约250000个分子进行训练的。在SBMolGen中,ChemTS生成的分子(图1中的步骤1)基于分子对接模拟进行评估(图1中的步骤2和3)。评估值随后反映在搜索树中(图1中的步骤4)。通过重复这个循环,SBMolGen实现了结构感知分子的生成。并且作者从RNN产生的SMILES字符串中通过RDKit获得了一个3D结构分子。随后使用rDock对接该分子,在对接仿真中,生成了各种三维结构,最终选出了对接得分最高的三维结构。

图1:研究中使用的模型与概念

3.实验

在开始分子产生过程之前,作者准备了四种靶蛋白用于对接,包括两种激酶:细胞周期蛋白依赖性激酶2 (CDK2)和表皮生长因子受体erbB1 (EGFR)和两种G蛋白偶联受体(GPCRs):腺苷A2a受体(AA2AR)和β-2肾上腺素能受体(ADRB2)。

表1:研究中使用的靶蛋白的已知活性或诱饵化合物

3.1 生成分子
使用SBMolGen对四种靶蛋白进行分子生成,探索时间设置为120小时,五个C参数用于MCTS,在试验期间,每个靶蛋白平均产生约25000个分子。对接分数越小,对应更高的结合亲和力,图2A-D表明表明后期生成的分子具有更好的对接分数,两种激酶蛋白的结果很好地证明了这一趋势。然而也有一些例外,例如参数C设置为0.6、0.8和1.0的AA2AR蛋白,以及参数C设置为0.8的ADRB2蛋白,对接分数几乎没有观察到重大变化。这可能是因为参数C的值越大,生成的分子越多样,但对接分数的收敛性越差。为了更清楚地观察参数C的不同值对生成分子的影响,作者计算了在相同参数C设置下,所有靶蛋白生成的分子平均对接分数。如图2E所示,随着C也下降,对接得分迅速下降。

图2:生成分子的对接分数在不同C值下随时间的分布

3.2 生成分子的结构分析图3为当参数C设置为1.0时,CDK2每隔10h从生成分子中挑选出对接分数最小的新分子,以及新分子与靶蛋白口袋中相关残基之间的蛋白-配体相互作用。图3表明,当一个磺基样片段和一个氨基与ASP145相互作用时,生成的CDK2分子的对接分数更小。图4为当参数C设置为1.0时,对接分数最小分子的结合模型及其晶体结构。灰色和彩色部分分别显示的是已知的活性化合物和生成的新分子结构。A-C对应CDK2;D-F对应EGFR;G-I对应AA2AR;J-L对应ADRB2。C、F、I和L表示已知化合物和生成分子的蛋白质-配体相互作用。每个面板底部显示的数字是对接分数(单位是千卡/摩尔)。M是交互类型的描述。发现生成的分子获得的最佳对接分数优于已知化合物。

图3:每隔10h对接分数最优的新分子及其与相关残基之间的蛋白-配体相互作用

图4:生成分子与已知活性化合物的结合模型及其晶体结构

3.3 与已知化合物的差异分析
为了评估生成分子的新颖性,作者可视化了它们在SBMolGen探索的化学空间中的ISOMAP分布(图5)。其中灰点代表锌数据库中的分子,热图点代表生成分子随时间的分布,通过将ISOMAP算法应用于从ZINC数据库获得的训练数据集,构建了从指纹到二维空间的映射。随后,生成分子被映射到二维空间。
图5:生成分子的ISOMAP可视化和来自锌数据库的训练数据图5显示生成分子的化学空间比ZINC数据集的大。例如,在C = 0.2时,在CDK2中,SBMolGen最初产生接近训练数据的分子,但逐渐产生训练数据之外的分子(向上);一旦它回到图的中心,搜索将继续向右下。这表明SBMolGen在搜索过程中改变方向时,会搜索未包含在训练数据中的分子。此外,在图2中显示分数递减的搜索表明SBMolGen搜索不包含在训练数据中的数据。然而,一些孤立的情况没有显示出显著的差异,因为生成的分子没有很好地收敛。观察所有情况下的ISOMAP分布,作者还注意到当参数C的值较小时,生成分子最初从类似于ZINC数据的分布区域(右上)扩散,然后随着时间的推移逐渐向右下扩展。当参数C变大时,生成的分子分布在两个明显不同的区域,不会逐渐从一个区域过渡到另一个区域。为了证实生成分子的新颖性,作者还比较了生成分子与每个靶蛋白的已知活性化合物之间的分子相似性和分子支架相似性。RDKit模块用于提取支架,并从由SMILES字符串表示的分子结构中计算Morgan指纹和相似性分数(Tanimoto分数)。相似性分数的范围从0到1,其中接近1的分数表示更高的相似性。图6显示了相似性分数的分布。在这里,可以观察到大多数生成的分子和已知的活性分子之间的相似性得分大约为0.2,而分子支架的相似性得分大约为0.3,这意味着我们生成的分子具有很高的新颖性。
图6:生成的化合物与已知活性化合物的最近邻相似度值的分布。上行为一般分子的相似性。下行为分子支架的相似性
3.4  通过FMO计算评估蛋白质-配体相互作用为了评估生成的分子与目标蛋白质的相互作用,作者对生成的CDK2分子进行了额外的计算实验,使用了更精确的FMO计算。在评估生成的分子之前,选择9个具有实验确定的结合数据的CDK2抑制剂作为基准。结果,研究获得了与已知抑制剂的实验结果很好相关的计算结果。这九种化合物的相关系数(R2)的平方被确定为0.4233,并且在除去其中一种化合物,即具有最大分子量并且可能具有两种不同总电荷(0/+1)的CS261之后,R2值变为0.9006。随后,作者对生成的9个分子(如图3所示)进行了FMO计算,在参数C最初设置为1.0的实验中,每10小时选择这九个分子作为得分最高的分子;30 h后,对接评分开始提高。换句话说,我们可以期望在我们产生过程的后期产生与靶蛋白具有高结合亲和力的分子。
3.5 与现有方法比较

为了与现有方法进行比较,作者选择了GENTRL,在DDR1 (PDB ID: 3ZOS)上使用SBMolGen方法进行了分子生成实验,并使用了与上述CDK2和EGFR相同的参数,而GENTRL生成的分子是从GENTRL出版物的支持信息中获得的。研究比较了使用GENTRL和SBMolGen生成的分子的对接分数分布,SBMolGen生成的分子显示出优异的对接分数。这可能是因为作者的方法使用对接分数作为回报函数。

4.总结

作者设计了一种新的模型SBMolGen,该模型使用对接分数作为回报函数来生成针对特定目标具有高亲和力分数的化合物,可在分子生成过程中通过模拟分子对接来评估生成的分子与给定靶蛋白之间的结合亲和力。总的来说,使用四种靶蛋白的评估结果表明,生成的分子比已知的活性化合物具有更好的结合亲和力分数(对接分数),并且它们具有更宽的化学空间分布。此外,所产生的分子在某种程度上是合成可行的(即低合成可及性分数),并且它们表现出与已知药物相似的物理化学性质和结构特征(即高药物相似性分数)。作者还通过片段分子轨道计算分析了蛋白质和生成分子之间的相互作用。这些结果表明了SBMolGen在未来药物设计中的应用潜力。最后需要指出的是,这种方法仍有改进的空间。例如通过并行蒙特卡洛树搜索减少计算时间。此外,多种性质的优化对于药物发现是必要的,作者正尝试采用多目标MCTS算法来实现多目标优化。

参考资料

Biao Ma,Kei Terayama,Shigeyuki Matsumoto,Yuta Isaka,Yoko Sasakura,Hiroaki Iwata,Mitsugu Araki,and Yasushi Okuno,Structure-Based de Novo Molecular Generator Combined with Artificial Intelligence and Docking Simulations ,Journal of Chemical Information and Modeling. DOI:10.1021/acs.jcim.1c00679


----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向






历史文章推荐    


浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
JCIM|XGraphBoost:基于图神经网络提取特征的一种更好的分子特性预测模型
CHEM SCI|基于约束贝叶斯优化,采用变分自编码器进行自动化学设计
Nat Commun|增强的用于直接合成和单步逆合成的NLP的Transfermer模型
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物CHEM SCI|分子Transformer模型预测酶促反应
Transformer-CNN:用于 QSAR 建模和解释的先进工具
基于文本表示推断化学反应的实验步骤
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Drug Discov Today|药物研发风险地图

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存