JCIM｜利用深度学习进行基于结构的从头药物设计

Original 智药邦智药邦 2022-12-15

2021年11月，印度IT巨头TCS的Sowmya等人在JCIM上发表文章，提出了一种基于深度学习的从头药物设计方法，该方法可以根据靶蛋白活性位点结构信息进行从头药物分子设计。该方法运用广泛，可以针对任何结构已知的蛋白质进行全新的分子生成。

摘要

近年来，基于深度学习的方法已成为新药设计的重要工具。多数类似方法都是基于配体的，这需要一个初始的靶标特异性配体数据集，来设计具有优化性质的强效分子。尽管已经有人试图开发设计靶标特异性配体数据集的替代方法，但在设计针对新型蛋白的分子时，此类数据集的可用性仍然是一个挑战。

本研究提出了一种基于深度学习的从头药物设计方法，这种方法知道目标蛋白的活性位点结构信息就足以进行新的分子设计。

首先，利用图形注意模型研究了蛋白质活性部位氨基酸的结构和特征，这些氨基酸已在实验上被验证是蛋白质-配体作用的关键氨基酸。接下来，将学习到的活性位点特征与预先训练好的生成模型一起用于新分子的条件生成。然后，在强化学习框架中使用生物活性预测模型对条件生成模型进行优化。

本研究利用Janus激酶2 (JAK2) 和多巴胺受体D2 (DRD2)，进行了性能测试，在这两个靶点上这种方法产生了和已知抑制剂类似的分子。图形注意模型能够识别可能的关键活性位点残基，从而影响条件分子生产器设计出具有与已知抑制剂相似的药理学特征的新分子。

1引言

治疗疾病的首要目标之一，是鉴定能够负责调节疾病的蛋白质活性的靶向分子。为了提高药物设计过程的成功率，人们开发了各种计算方法。近年来，基于深度学习的方法在药物设计领域的进展和应用引起了人们对加快药物设计进程的兴趣和希望。事实上，这些方法有几个优点。其中一个主要优点包括探索潜在未勘探的化学空间，估计为10⁶⁰个。研究还表明，深度学习方法不仅可以探索广阔的化学空间，而且可以针对特定的靶蛋白设计更优化的理化性质的概念新分子。在深度学习技术的帮助下，从早期药物设计和优化到实验验证的时间大大减少。

针对感兴趣的靶蛋白的药物设计方法大致可分为基于配体的药物设计和基于结构的药物设计。

大多数基于深度学习的药物设计研究都是基于配体的，这些研究利用已有的靶标特异性小分子的知识，通过转移学习和/或强化学习，设计出一组具有优化性质的更强大的靶标特异性分子。虽然基于配体的药物设计方法为几种流行的药物靶点提供了可靠的结果，但它们对现有靶点特异性配体数据集的依赖限制了它们对已知配体数据有限的新靶蛋白的运用。

相比之下，基于结构的药物设计方法只依靠靶蛋白的结构特征，生成具有互补特征的小分子，从而促进更好的结合。传统的基于结构的药物设计采用片段生长或片段连接的方法。最近的一些研究也应用深度学习技术，利用蛋白质结构信息进行新型小分子的de novo设计。这些研究大致可分为两类：无监督和半监督方法。

在基于结构的深度学习药物设计方法中，有研究利用结合位点和配体的图形表示，也有研究利用蛋白质结合位点的体素化表示，预测与结合位点互补的配体的SMILES。以上两种研究均可归为基于无监督结合位点的分子生成方法。

另一方面，最近的研究将整个蛋白质序列作为生成模型的输入。研究人员采用了一种无监督的方法，在这种方法中，蛋白质序列由编码器编码成一个潜在的表征，这个表征被SMILES解码器用来产生目标特定的小分子。另一项研究报道了强化学习训练在利用完整的蛋白质序列生成目标特异性分子中的应用。这些研究可分为基于无监督和半监督蛋白质序列的分子生成方法。

在本研究中，我们提出了一个半监督的多模态深度学习模型，利用蛋白质结合位点的图形表征和配体的SMILES表征，为任何已知结构的靶蛋白质设计新的小分子。将图和SMILES模型结合起来，形成一个靶标特定的分子发生器，在进一步优化之前需要经过短暂的再训练阶段。其次，利用多模态药物-靶点亲和力(DTA)预测模型，建立目标特异性生物活性最大化的奖赏函数，并以此为目标优化强化学习框架中的分子生成过程。据我们所知，这是第一个利用蛋白质在半监督环境中的结合位点表示来指导分子生成过程的方法。

利用该方法，针对两个研究较好的蛋白靶点JAK2和DRD2设计分子，并与已知的抑制剂进行比较。与现有的抑制剂相比，该方法可以产生相似和相同的分子，同时也保持了多样性。生成的分子也保留了现有抑制剂的特征，尽管模型仅有靶蛋白的活性位点信息。最后，基于图注意模型，识别出一组能够对生成的新化学实体有利特征负责的关键活性位点残基。

2方法

利用靶蛋白的活性部位信息设计新的小分子，首先将活性部位表示成图形，从活性部位周围的氨基酸中了解相互作用的结构和类型。

使用多传感头图形注意(GAT)神经网络嵌入活性位点图。使用SMILES表示小分子，其语法由递归神经网络(RNN)捕获。接下来，使用变分自编码器(VAE)学习活性位点图和小分子嵌入图。使用活性位点图嵌入来描述生成过程。采用强化学习(RL)框架，以条件分子生成器(预训练图与SMILES-VAEs相结合)为主体，以预训练药物-靶点亲和力(DTA)预测模型为评价指标。具体的设置细节可查阅文末参考文献。

图1. 利用深度学习技术进行从头药物设计的工作流程

3预训模型的性能

本研究使用GuacaMol分布学习基准(v0.5.3)，用ChEMBL数据集评估了预先训练模型的性能 (SMILESVAE)。

SMILES-VAE模型从其潜在表征中解码SMILES串准确率为93.22%，在采样的小分子中具有99%的唯一性和96%的新颖性。与GuacaMol基准中凸显的基线VAE模型相比，本研究中预训练的SMILES-VAE模型在效度指标上优于基准模型(表1)。

表1. 性能评估统计表

在用两个距离阈值创建的活性位点图数据集上训练了两个不同的GAT-VAE模型进行边定义：(A)模型1以4Å为界，(B)模型2以5Å为界。模型训练任务是从活性位点图的潜在嵌入中重构邻接矩阵。模型1和模型2的ROC评分分别为0.89和0.84。根据验证ROC评分、边缘扰动测试和蛋白质相互作用网络文献中的线索，选择模型1进行进一步分析。用PDBbind核心数据集验证了药物-靶点亲和力预测模型，并用Astex多样性集进行了测试。

采用皮尔森相关系数(r)和均方根误差(RMSE)作为模型的评价指标。经过5次交叉验证，PDBbind核心数据集和Astex多样性数据集的相关系数(Rp)分别为0.851 (RMSE=1.21)和0.565 (RMSE=1.52 )。值得注意的是，本工作中的DTA模型比现有的Astex分集DTA模型表现更好。

4生成靶向Jak2和D2的新颖小分子

利用预先训练好的条件VAE模型作为强化学习框架中的主体，结合DTA预测模型进行评估，生成新的靶蛋白的小分子。

选择两个研究较好的属于激酶家族的胞内蛋白JAK2(PDB ID: 3UGC )和存在于中枢神经系统的G蛋白偶联受体DRD2 (PDB ID: 6CM4)。大量有效的JAK2和D2抑制剂为该方法的计算验证提供了机会。

对于每个靶蛋白，使用相应的结合位点图分别训练条件分子生成器，直到生物活性值(DTA模型预测)的分布发生足够的偏移。训练过程后得到的最终生物活性分布如图2所示。在强化学习训练过程后，采用目标特异性条件分子发生器模型对10000个小分子进行了采样。化学无效的分子被去除，余下的分子在进一步分析前被标准化。

在两种情况下，强化学习后的模型平均能产生90%的有效分子，表明该模型有效地克服了灾难性遗忘。

图2. DTA模型预测靶向JAK2(a)和DR2（c）结果

5对生成的小分子进行分析

通过比较靶蛋白的现有抑制剂与生成的分子，对该方法进行了计算验证。根据Tanimoto系数和药物分布，这里验证了所生成分子的相似性。

基于Tanimoto系数的生成分子相似性

首先以ECFP4指纹为输入表征，利用Tanimoto系数(TC)计算生成的小分子与靶蛋白数据集的相似性。TC阈值为0.75，用于识别目标蛋白生成的与已有分子相似性较高的分子子集。

在比较的基础上，鉴定出30个和80个生成的小分子分别满足JAK2和DRD2蛋白的TC截止要求(图2，b和d部分)。此外，还发现5个生成的小分子与现有的DRD2抑制剂完全相同(TC=1.0)，表明条件生成模型能够重现针对某一靶蛋白的现有抑制剂。

基于TC的ECFP4指纹图谱评分的局限性之一是没有考虑到两个分子中存在的官能团之间的特征相似性。这导致只能识别出与现有抑制剂结构极其相似的分子子集，而忽略了其他多样的分子，这些分子仍然可以拥有所需的官能团或生物反应所必需的药效团特征。

基于配体基药效团的相似性

利用PharmaGist程序提取配体基药效团，对生成的小分子进行筛选，识别特征重叠评分高的分子。尽管与现有的抑制剂相比，这些分子基于ECFP4的Tanimoto相似性较低，但可以被认为是有效的抑制剂。如果分子与靶标药效团的特征重叠分数至少为最大特征重叠分数的一半，则认为是一个新小分子。

靶向JAK2和DRD2蛋白生成的小分子结果汇总于表2。解雇表明，87 %的JAK2特异性生成分子和84 %的DRD2特异性生成分子可以被各自蛋白的靶特异性配体基药效团所复盖。

表2. 靶向JAK2和DRD2蛋白分子生产命中率

与DRD2相似，根据JAK2活性位点的覆盖情况，鉴定了两个药效团。一些例子中JAK2特异性产生的分子具有较高的药效团水平的相似性，但基于ECFP4的Tanimoto相似性较低(小于0.60)。从药效团筛选结果可以明显看出，生成的小分子捕获了靶点活性位点的关键药效团特征。为了进一步证实生成的小分子与现有抑制剂的药效团水平的相似性，在最近的研究基础上，计算了两个药效团指纹图谱(ErGFP和PharmaceuticalPFP)。

利用余弦相似度比较了生成的小分子和现有抑制剂的药效团指纹图谱。所有两两比较的余弦相似值的分布表明，90%以上生成的小分子与现有抑制剂具有较高的药效团级相似度(余弦相似度大于0.8)。

6重要活性位点残基来自GAT-VAE模型

本研究分析了GAT-VAE模型对活动点图中每个残基物节点及其邻域的注意系数。

从本质上讲，注意系数定义了图中每个节点及其邻居上的交互概率分布。通过分析每个节点的注意系数，可以识别出模型频繁给予更多注意的残基对，并阐明GAT-VAE模型学习到的潜在表征背后的生物学意义。

将节点邻域的注意系数作为概率，利用Shannon熵可以计算出系数的信息内容。Skewness在熵分布上与均匀分布相比表明，模型已经学会了对节点邻居的一个子集给予重要性，而不是为给定节点的所有邻居提供等权重。

图3. 多巴胺受体D2活性位点残基的注意系数热图

从注意系数热图中识别出的DRD2结合位点处的关键残基和相互作用如图3所示。注意系数大于0.5的残基对被认为是重要的。对于DRD2蛋白的结合位点(PDB ID: 6CM4)，149个相互作用中只有17个的注意系数(αij)高于GAT-VAE模型的0.50。8个活性位点残基(Leu94、Trp100、Asp114、Thr119、Ile184、Phe198、His393、Tyr416)的注意系数在0.5以上。

已知这8个活性位点残基与文献报道的多种高选择性DRD2抑制剂相互作用。这些残基还被发现与生成的分子相互作用。两个具有代表性的生成分子与这些关键活性位点残基的相互作用如图4所示。DRD2的活性位点是部分疏水的(Leu94，Trp100，Ile184，Phe110)。这些残基与生成的分子形成疏水相互作用。

然而，另一方面，它含有极性和带电残基(Asp114，Thr119，Ser193，His393和Tyr408)，它们与生成的分子形成氢键相互作用。此外，Tyr408还可以与生成的分子形成堆叠相互作用。

图4. 从注意系数中识别出的关键活性位点残基与选定的DRD2特异性生成的小分子之间的相互作用

DRD2活性部位残基His393与Tyr408(αij=0.6)、Ile184与Trp100(αij=0.5)、Trp100与Leu94 (αij=0.6)之间存在三种稳定相互作用。

有趣的是，突变研究证明了Leu94、Trp100和Ile184之间的相互作用对稳定蛋白-配体复合物以及配体从结合位点解离的重要性。研究还发现His393与Tyr408之间存在一个螺旋间氢键，可以稳定DRD2跨膜螺旋Ⅵ的外向运动，从而控制蛋白活性态和非活性态之间的切换。活性部位残基Asp114附近存在一个仲胺基团，有助于氢键的形成。

根据以往文献报道，Asp114相互作用负责将小分子锚定在活性位腔内。如图4所属。总体而言，发现了注意系数较高的残基对为生成的分子提供稳定性，其作用也从以往文献中可知。

深度学习模型经常被批评为黑箱，但本工作提出的方法可以解释活性位点的残基的重要性。这些残基在分子生成中起作用，这可以从DRD2蛋白情况下与生成分子相互作用的互补性来解释。图5详细讨论了JAK2活性中心的关键结合位点残基，这些残基控制着与生成的小分子的相互作用，并从注意系数热图中识别出来。

图5. JAK2蛋白活性位点残基的注意系数热图

这些观察表明，GAT-VAE模型通过学习更尖锐的注意系数，可以区分关键的结合位点残基和相互作用，并将这些信息纳入活动位点图的潜在表示中。这也说明了基于注意的方法在从生物学角度更好地理解深度神经网络模型学习到的特征方面的有用性。

7总结

本研究利用深度学习开发了一种新的基于结构的设计新颖小分子的方法。该方法利用一个图注意网络和一个堆栈增强的递归神经网络相结合，形成条件生成模型。它可以在药物靶点亲和力预测模型的指导下生成特定于靶点活性位点的小分子。

图注意模型能够通过注意系数区分关键活性位点残基和残基间相互作用，利用熵直方图和注意系数热图进行可视化。以活性位点图和ECIF指纹的形式使用活性位点信息有助于生成特定于感兴趣的目标蛋白的分子。

本研究在两种不同的靶蛋白上验证了条件生成模型，发现与现有的抑制剂相比，条件生成模型生成的小分子具有较高的相似性。

本研究开发的方法无论从实验方法还是分子建模方法都可以用于任何三维结构已知的目的蛋白。同样，在目前的工作中，假设靶蛋白的活性位点仅由20个标准氨基酸残基组成。今后，会考虑将结合到活性中心的辅因子(金属离子、血红素等)和分子生成过程中常见的非标准氨基酸的贡献纳入其中。

参考资料

Krishnan S R, Bung N, Vangala S R, et al. De Novo Structure-Based Drug Design Using Deep Learning[J]. Journal of Chemical Information and Modeling, 2021.

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。

- 历史文章推荐 -

【AI药物设计】

●CAS博客｜首批进入临床试验的AI设计的候选药物：结构新颖性评估

●JMC｜用于从头药物设计的生成模型

●用机器学习预测药物在靶点上的停留时间

●Drug Discov Today｜人工智能增强的药物设计和开发：迈向计算型精准医学

●Drug Discov Today｜用于从头药物设计的图神经网络GNN

●Nat Commun｜AI结合基因表达特征，从头生成类苗头化合物

●BioRxiv｜基于表型和化学结构预测化合物活性

●Drug Discov Today综述｜分子从头设计和生成模型