AI提高从头设计的新化合物的可合成性
本文为《Artificial Intelligence in Drug Design》一书第17章的内容,作者是来自Biogen公司生物治疗学和药物学部门的Govinda Bhisetti和Cheng Fang。
该书的总体介绍见Springer推出新书《Artificial Intelligence in Drug Design》,其他部分章节见文末。
摘要
在过去的三十年里,药物发现科学家们一直关注计算机辅助从头药物设计方法的发展,以快速发现新化合物,治疗人类的疾病。一开始,研究工作主要集中在通过构建(atom-by-atom 和/或 group-by-group的方式)来生成适合靶点蛋白活性位点的分子,同时探索所有可能的构象,以优化与靶点蛋白结合的相互作用。
近年来,深度学习方法被用于生成分子,这些分子根据结合假说(以优化效力)和药物相似性预测模型(以优化特性)进行了迭代优化。由这些新方法生成的分子的可合成性仍然是一个挑战。
本文将重点介绍最近开发的合成规划方法,这些方法适用于提高由从头方法设计的分子的可合成性。
1 引言
20世纪80年代,蛋白质晶体结构的快速测定、分子模拟方法的发展、以及超级计算机的出现,开创了计算机辅助基于结构的药物设计(SBDD)的新时代。这些进展帮助药物化学家,加快了新型小分子药物的发现。
20世纪90年代,几乎所有用于治疗艾滋病的临床候选药物,都得到了基于结构的设计方法的帮助。这些方法主要用于加快优化先导分子与靶点蛋白的结合。
后来,在20世纪80年代末和90年代,利用靶点蛋白的晶体结构从头设计产生先导分子的方法开始发展起来。在接下来的几年里,我们看到了30多种方法被发表。明显的动机是探索整个可能的化学空间(1060个分子),以找到适合结合口袋的新分子,从而产生新的高质量的先导候选物,可以迅速优化为成功的临床候选药物。
然而,这些方法产生的成功是有限的,因为大多数生成的分子不在类药空间中,而且不易合成。同时,用于高通量筛选的大量内部和商业化合物数据集、以及用于虚拟筛选的更大的虚拟化合物库的可用性,抑制了人们对从头设计方法的兴趣。
然而,在过去的5年左右,由于人工智能的发展,新方法得到了另一种推动,一些算法正在被用于新化合物的设计和合成。有几个小组已经报告,人工智能能够快速发现有效的抑制剂。然而,将新型分子的设计和合成这两个方面成功结合起来的报告却很少。
2 计算分子生成
Schneider和Fechner对早期基于结构的从头分子生成方法的优点和缺点以及它们的成功进行了全面的综述。尽管人们认识到用从头设计方法设计分子的合成可行性问题,但并没有以任何有意义的方式推进这个进展。深度生成算法的出现及其在生成新的(仿造的)图像、音乐和文本方面的成功应用,激发了它们在分子生成方面的应用。这些模型在大型训练数据集上学习,并产生具有类似特性的新分子结构。
很明显,具有生物数据的大型(公共和商业的)分子数据库的可用性,使新的学习算法能够训练并产生新的分子。通过强化/转移学习可对这些分子的活性和特性进行迭代优化。用于分子生成的深度生成模型,集中在几种有前途的方法上,如循环神经网络 (Recurrent Neural Networks, RNN) 、变异自动编码器 (Variational Auto Encoders, VAE)、对抗自动编码器 (Adversarial AutoEncoders, AAE) 和生成对抗网络 (Generative Adversarial Networks, GANs),分子以SMILES或分子图表示。图1展示了几个有代表性的从头分子设计的深度生成模型的结构。
图1:代表性的分子深度生成模型架构
(a) 变分自动编码器,通过编码器将输入的分子映射到一个连续的潜空间,并对潜空间进行采样,然后通过解码器映射回新分子的原始表示。(b) 递归神经网络,从起始符号开始一步步生成新的SMILES序列,直到到达句末。(c) 生成式对抗网络,利用生成器从高斯噪声空间采样生成合成分子,然后要求判别器区分是否为真实分子。(d) 对抗自编码器,在VAE分子生成器中加入一个鉴别器,以区分潜在空间的分布与先验分布。因此,该模型容易产生由先验分布驱动的分子
有几篇关于成功应用这些生成模型的报告,以SMILES和分子图表示法为基础,创建具有所需特性的分子。然而,没有简单的方法来比较不同的模型,也不清楚哪些生成模型对特定的目标有用。最近的两篇文章提出了基准平台/框架,以便能够比较不同的生成性和从头设计的方法,在生成具有化学有效性的新分子、探索和利用化学空间,以及各种单目标和多目标优化任务方面的能力。这些研究提供了训练和测试数据集,以及一套评估生成结构的质量和多样性的指标。这些平台和源代码可以通过以下链接获得。
https://benevolent.ai/guacamol
和https://github.com/molecularsets/moses
3 逆合成计划和合成可行性评估
E J Corey教授在20世纪60年代对逆合成计划进行了形式化处理,促进了合成路线规划专家系统的发展,该系统模仿化学家如何根据他们的合成知识和起始原料的可用性来规划目标的合成。在1977年Corey和他的同事发表了一个名为LHASA的程序后,研究人员开发了几个计算机专家系统,对已知的反应和试剂进行编码并提供逆合成分析。近年来,人工智能的方法已经被开发出来,用于合成计划和评估化合物的合成可行性。Synthia, SciFinder-n, Reaxys, Synspace, Spaya, IBM Reaction, ICSynth, ChemPlanner和ASKCOS代表了一些知名的计算性逆向合成的方法。表1列出了一些有代表性的逆合成规划工具及其访问链接。
表1:可用的逆向合成规划工具总结
我们应用一些方法来评估BREED产生的化合物的可合成性。BREED是较早的从头分子设计的方法之一,它根据与同一靶点结合的已知抑制剂产生类药分子。在这个研究中,使用了四种已知的HIV-1蛋白酶抑制剂,产生了9种新型杂交物(hybrids)。这些具有类药性的新型分子通过与靶点的强相互作用,以最小的构象应变结合到靶点上。在当时,还没有计算方法来评估它们的可合成性。图2显示了Spaya、SciFinder-n和Synthia对其中一个BREED生成的分子(例13)所预测的合成路线。
图2:通过代表性的逆向合成计划工具(a)Spaya,(b)SciFinder-n和(c)Synthia为BREED研究中的实例13生成的合成路线
这三种方法都提供了已知反应和可用砌块(blocks)的追溯合成路线。这些信息对合成计划很有用。Spaya提供了可合成性评分,SciFinder-n提供了合成成本的估算,Spaya生成了具有不同分数的多条路线,而其他方法则根据初始设置提供不同的结果。比较结果并利用它们对分子的合成难易程度进行排序是不容易的。此外,在深度生成方法的迭代设计周期中,它们的计算成本将会非常高。
另一方面,有几种已发表的方法,为一个新分子提供单一的可合成性分数,以便于纳入迭代设计。
早在2009年,Ertl和Schuffenhauer就提出了基于片段贡献和复杂性惩罚的类药物分子的合成可及性得分,即SAscore。SAscore的范围在1(容易制造)和10(难以制造)之间,这已经被一组40个分子的计算和化学家估计的合成可及性之间的良好一致性所验证。
Coley等人没有考虑分子的复杂性,而是基于化学反应的产物应该比相应的反应物合成更复杂的前提,开发了合成复杂性评分(SCscore)。SCscore来自于一个深度神经网络模型,该模型是在Reaxys数据库里1200万个化学反应的基础上训练出来的。SCscore的范围从1(容易制造)到5(难以制造),并通过与Sheridan等人发表的1731种化合物的化学家分配的复杂性分数进行比较而得到验证的。一般来说,SCscore与人类分配的复杂度分数在统计学上有明显的相关性,但由于SCscore侧重于合成复杂度,而人类分配的分数侧重于分子复杂度,因此有一些较大的差异。SAscore和人为分配的分数都可能忽略了商业供应商提供的所需中间体的现成性/不可得性。
最近,Thakkar等人发表了逆向合成可及性评分(retrosynthetic accessibility score,RAscore)的方法,用于快速估计逆向合成规划工具AiZynthFinder确定的合成可行性。RAscore模型是一个机器学习分类器,由ChEMBL数据库中约30万个化合物训练而成,这些化合物已被AiZynthFinder标记为可合成或不可合成。经过验证,RAscore的计算速度比传统的逆向合成计划工具快4500倍,因此可与其他合成可行性评分功能相结合,用于快速筛选由生成模型产生的分子。
4 合成可行性和深度生成算法的结合
如上所述,早期的深度生成算法的实现使得分子的生成能够探索更大的化学空间,但是它们在现实世界的药物设计和优化周期中的实际应用,却因其对分子的合成可行性的忽视而受到了限制。最近,研究人员试图将合成可及性和深度生成算法结合起来,用以生成可合成的分子。这些努力可以大致分为两组(图3):(1)将合成可行性得分作为每一轮分子生成的约束条件,以及(2)将可合成性嵌入分子生成阶段,以确保在可合成的化学空间中生成每个分子。
图3:文献中描述的两种结合分子生成器和合成可及性的方法
第一种方法由Wenhao和Connor开发,并证明了合成可行性启发式方法(SAscore和SCscore)确实使分子生成偏向于合成上可行的化学空间。在实践中,合成可行性得分被用作一个额外的目标,在强化学习的环境下,与主要目标如活性和药物相似性一起优化生成的分子。在这样一种方法中,惩罚性的logP(Penalized logP,logP − SAscore − the number of long cycles)被用作目标,以优化多个深度生成模型中生成的分子,如语法变异自动编码器(grammar variational autoencoder ,GVAE)、结点树变异自动编码器( Junction tree variational autoencoder,JT-VAE)、分子深度Q网络(Molecule deep Q-Networks,MolDQN)和Mol-CycleGAN。同样,一些研究人员使用药物相似性指标(QED)和SAscore的混合得分来建立条件生成模型,以优化分子,使其朝着类似药物和可合成的空间发展。然而,这些合成可行性启发式的分数,并不能总是对新生成的分子的可合成性给出准确的估计。换句话说,高的合成可行性分数不能保证某些化合物就容易合成。此外,使用合成可行性分数来指导生成,会使分子优化偏离主要目标。
第二种方法是,在最近的研究中,将可合成性嵌入分子生成算法中显示出了克服这些限制的潜力。
Horwood和Noutahi开发了一种反应驱动的目标强化方法(Reaction-driven Objective Reinforcement method,REACTOR),该方法将一连串的化学反应作为马尔可夫决策过程的状态转换,在强化学习框架内生成分子。REACTOR生成器使用90个反应模板和来自PubChem的大约5000个反应物进行训练,证明了对可合成的化学空间的有效探索,以找到更多类似药物的分子,同时还为每个生成的化合物提供了理论上有效的合成路线。
Gottipati和Sattarov等人开发了一个类似的强化学习授权的正向合成框架,称为正向合成的决策梯度(Policy Gradient for Forward Synthesis,PGFS),用于从头分子的设计。PGFS生成器使用97个反应模板和来自Enamine的150,560个模块进行了训练。
除了强化学习框架外,Bradshaw等人提出了一个新的VAE生成模型,称为MoleculeChef。该模型首先生成一组反应物分子,并通过反应预测模型,将它们映射到预测的产品分子上。它允许搜索更好的分子,并描述如何制造这样的分子。然而,当前版本的MoleculeChef只能处理单步反应,这限制了它对更广泛的化学空间的探索。
Korovina等人开发了一个贝叶斯优化框架( Bayesian optimization framework,ChemBO),该框架使用Rexgen的反应结果预测器,在合成图上反复执行随机行走,选择反应物和条件,生成符合用户定义目标的最终分子。这些方法中的反应结果预测器可能不会对可合成的分子和/或正确的合成路线做出完全可靠的推荐,但与传统的深度生成模型相比,更有可能在合成的空间中生成分子。
5 结论
在过去的四十年里,计算机辅助的从头分子设计方法取得了巨大的进步,为探索更大的化学空间,以寻找新的和有效的先导分子用于治疗新出现的疾病的临床开发提供了可能性。
近年来,深度生成方法被开发出来,产生了更真实的类药物分子,并对给定的靶点有最佳的预测亲和力。然而,这些新分子的合成可行性仍然是一个挑战。同时,人工智能方法有助于推进计算性逆合成计划软件。商业方法如(Spaya、Synthia和SciFinder-n)易于使用,并提供化合物合成路线等可操作的信息。
然而,要比较不同方法得到的结果并不简单。有人试图创建化合物的标准数据集(已知的合成),以及在成本、时间和有利的反应方面进行比较的矩阵。然而,这些工具对于纳入新分子的迭代设计和优化来说过于复杂。最近的一些将生成方法与合成可行性评估方法结合起来的报告,显示出了前景。在不久的将来,这些工具可能会成为合成化学和药物设计的常规工具箱的一部分。
参考资料
Bhisetti G, Fang C. Artificial Intelligence-Enabled De Novo Design of Novel Compounds that Are Synthesizable. Methods Mol Biol. 2022;2390:409-419. doi: 10.1007/978-1-0716-1787-8_17.
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。
- 历史文章推荐 -
【Artificial Intelligence in Drug Design】
●第4章 人工智能和机器学习在药物发现中的应用