查看原文
其他

KDD 2022 | MolSearch:基于搜索的多目标分子生成与性质优化

智药邦 2023-01-26

The following article is from AI in Graph Author AI in Graph

今天给大家介绍的是来自密歇根州立大学的Jiayu Zhou教授团队发表在KDD 2022上的文章"MolSearch: Search-based Multi-objective Molecular Generation and Property Optimization"。生成同时满足多种属性要求的分子仍然是一个挑战。在本文中,使用基于搜索的方法来解决这一挑战,并提出了一个简单但有效的框架,称为MolSearch,用于多目标的分子生成(优化)。MolSearch结合将蒙特卡洛树搜索算法与多目标优化算法,从源分子开始,采取两阶段搜索策略,基于从大型化合物库中得出的转化规则,逐渐将它们修改为新的分子。


摘要

生成同时满足多种属性要求的分子仍然是一个挑战。在本文中,使用基于搜索的方法来解决这一挑战,并提出了一个简单但有效的框架,称为MolSearch,用于多目标的分子生成(优化)。MolSearch结合将蒙特卡洛树搜索算法与多目标优化算法,从源分子开始,采取两阶段搜索策略,基于从大型化合物库中得出的转化规则,逐渐将它们修改为新的分子。


方法

问题定义


分子修饰在数学上可以表示为马尔可夫决策过程(MDP), M=(S,A,f,R),S表示状态集(分子),A表示动作集(修饰的动作集合),𝑓:𝑆×𝐴表示状态转移函数,表示奖励向量,d就是优化属性数目。目标是采取使期望报酬最大化的行动,在重复模拟的情况下,期望报酬可以近似为公式:

其中N(S)表示从状态s开始的模拟次数,N(s,a)是从状态s开始采取动作a的次数。如果在第i轮从状态s中选择动作a,则是具有值1的指示器函数,否则为0。Zi是从状态s开始的第i轮模拟的最终奖励。Q(s,a)的值越大,表示通过从状态s采取行动a而获得的期望奖励越高。

蒙特卡洛树搜索


蒙特卡罗树搜索(MCTS)采用一种树结构来进行模拟和估计动作的Value。同时,它还使用先前估计的行动Value来引导搜索过程走向更高的回报[8]。基本的MCTS程序由每次迭代的四个步骤组成:

A)选择。从根节点开始递归地选择最佳子节点,直到到达叶节点,即尚未展开或终止的节点。

B)扩张。基于策略展开选定的叶节点,直到达到子节点的最大数目。
C)仿真。从每个子节点,递归地生成下一个状态,直到终止,并获得最终奖励。

D)反向传播。该奖励沿着被访问节点反向传播,以更新它们的统计数据,直到根节点。

多目标蒙特卡罗树搜索


对于分子生成,树的每个节点(例如,)代表一个中间分子。它与分子状态、访问次数和奖励向量都相关,其中d是目标数。
帕累托支配(Pareto Dominate). 给定两个点,二者支配关系如下:

对于蒙特卡罗搜索树,保持着到目前为止发现的所有帕累托分子的全局池。在每个模拟回合中,给定具有属性分数的终止状态(分子),通过与全局池中的所有帕累托分子进行比较,这个状态下的奖励向量为:

其中是帕累托分子的个数,是帕累托分子的第i个属性值。奖励的计算分别对待每个维度,而不考虑它们的尺度差异,这比使用预加权将所有维度聚集到一个分数的方法更有优势。表示指示函数,如果则为1,否则为0。搜索过程中更新全局Pareto池,如果发现新的Pareto分子,则添加新的Pareto分子,并根据比较结果删除无效的Pareto分子(出现了可支配的分子)。奖励R将用于反向传播,更新公式如下:

从根节点开始,递归地选择最好的子节点来继续。为了确定给定父节点的最佳子节点,计算每个子节点的效用公式如下:

其中,是到目前为止获得的平均回报,nk和n是子节点k被访问的次数和总迭代次数。d是奖励向量的维度。

方法框架


本文采用两阶段搜索策略,Hit-MCTS与Lead-MCTS。MolSearch中的两个搜索阶段的不同之处在于,在给定最初可能的操作的情况下,如何挑选候选人。在HIT-MCTS中,候选动作是那些与当前父节点状态相比具有更好属性分数的生成状态。在Lead-MCTS中,候选动作是那些产生比恒定阈值更好的属性分数的状态。

动作设计


修饰规则应该在化学上是合理的,覆盖各种修饰方向,并且尺寸较大,以便在化学空间中成功导航。本文利用前人研究设计动作作为本文的的分子修饰动作。它根据匹配的分子对(MMPs)提取分子之间的转换,并输出一组规则,系统地总结当前大型化合物数据库(如ChEMBL)中存在的和化学上有效的分子的修饰。

转换规则既包含原子修改,也包含片段修改,为简单起见,作者将它们都称为片段。每个规则由三个主要组件组成,左侧片段(LHS_FRAG)、环境和右侧片段(RHS_FRAG),可描述如下:

上图显示了一个设计移动转换的例子。每个匹配的分子对有三个部分。不变部分表示变换前后保持不变的位置。可变部分表示要替换的片段。环境是设计动作中最重要的部分,它描述了转换的上下文。上下文的范围由半径r确定,并包含在步长r内从要替换的片段可以到达的所有原子。这种约束确保了转换在化学上是合理的,半径r越大,假设越有可能成立。



实验

本文优化的属性目标主要包含生物属性GSK3β,JNK3和非生物属性类药性QED,合成可及性SA。基于上述性质设置了6种实验。
实验结果如下:
由实验结果可以看出本文提出的方法获得与深度学习方法相当甚至更好的性能。

总结

MolSearch的大量实验表明,在给定适当的设计和充足的信息的情况下,基于搜索的方法还能够生成同时满足多种性质要求的分子,其性能与使用深度学习和强化学习的高级方法相当,并且具有更高的时间效率。MolSearch也有自己的局限性。首先,与HIT-MCTS相比,Lead-MCTS的生物活性分数有所下降,尽管它们仍然明显高于起始分子。这是因为子节点只需要在Lead-MCTS中保持高于0.5阈值的生物活性分数,以换取更高的非生物活性分数。有可能通过在Lead-MCTS期间设置更严格的约束来改善这种情况。

参考文献

文章地址: https://dl.acm.org/doi/10.1145/3534678.3542676

代码地址: https://github.com/illidanlab/MolSearch

作者 | 夏宇航

审核 | 刘   旋

--------- End ---------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明-企业-职位/岗位 或

姓名-学校-职务/研究方向




- 历史文章推荐 -


AI药物设计

●Drug Discov Today | 机器学习预测小分子pKa的进展和挑战

●BMC Bioinform | 拓扑增强的分子图表示用于抗乳腺癌药物的筛选

●Drug Discov Today | 分子表示与性质预测中的深度学习方法

●Front Pharmacol|DDIT:药物-疾病之间多种临床表型关联预测工具

●Bioinformatics | 通过修正异质信息中不完整信息的影响来预测药物-蛋白相互作用

●国内首个可交互式计算的VR药物设计软件发布

●Front Pharmacol|基于图片段分子表示和深度进化学习的多目标药物设计

●Drug Discov Today | 利用系统的蛋白质-配体相互作用指纹图谱进行药物发现

●Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力

J Med Chem|静电互补在基于结构的药物设计中的应用

●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法

●JCIM|基于图注意机制的有机化合物合成可及性预测

●Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战

●JCIM|利用深度学习进行基于结构的从头药物设计

●Drug Discov Today|辉瑞:如何成功的设计小分子药物

诺华:技术时代的药物设计艺术

CAS博客|首批进入临床试验的AI设计的候选药物:结构新颖性评估

JMC|用于从头药物设计的生成模型

●用机器学习预测药物在靶点上的停留时间

●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学

●Drug Discov Today|用于从头药物设计的图神经网络GNN

●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物

●BioRxiv|基于表型和化学结构预测化合物活性

●Drug Discov Today综述|分子从头设计和生成模型

●Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存