Drug Discov Today综述|分子从头设计和生成模型
2021年6月,来自AI药物发现公司BenevolentAI的Joshua Meyers等人在Drug Discovery Today发表文章,对分子从头设计和生成模型方面的进展、挑战以及未来的机会进行了综述。
以下是全文内容。
摘要
分子设计策略是药物发现的组成部分。在过去的三十年里,分子从头设计的计算方法已经被开发出来。最近,随着机器学习(ML)和人工智能(AI)的进步,药物发现领域获得了新的实践经验。在这里,我们回顾了这些经验,并根据分子表示的程度,介绍了从头设计的方法:即基于原子、基于片段、基于反应的分子设计方法。此外,我们强调了评估基准的价值,描述了在实践中使用这些方法的主要挑战,并对未来几年进一步探索的机会和需要解决的挑战提出了我们的观点。
前言
传统上,虚拟筛选(VS)是用来识别可能表现出理想的实验结果的分子。与从头设计相比,一个关键的区别是所考虑的分子来源:在虚拟筛选中,结构是预先知道的;而在从头设计中,我们试图生成待评估的结构。
化学空间(即横跨所有可能的分子的广阔空间)是巨大的。尽管按照药物发现的标准,虚拟筛选库已经变得非常庞大(许多库中含有多达10亿个分子),但这些库所对应的化学空间只占很小一部分。当考虑这样的化合物库时,评估方法可能会必然牺牲预测的准确性。通过使用从头设计以定向方式生成化合物,计算工作者希望更有效地穿越化学空间,在分析比大型化学库(“粗暴”筛选)更少的分子的同时,获得最佳的化学解决方案(图1)。此外,对于一个给定的目标,化学空间可能有许多可接受的区域,为此,分子设计方法的任务是平衡对全局解决方案的探索和对局部最小值的利用。
从头设计在化学信息学中有着丰富的历史。随着ML方法不断为大型搜索空间的导航和取样提供新的可能性,从头设计最近也受到了关注。在这篇文章中,我们从分子表征程度的角度来考虑从头设计的方法。具体而言,我们对生成新结构的基于原子的、基于片段的和基于反应的方法进行了区分。在讨论生成化学已建立的方法和新的前沿领域之前,我们首先回顾了评估比较能力(比较从头设计方法的能力)的方法。最后,我们评估了从头设计的成功之处,并强调了在实现分子从头设计全部潜力的道路上有待跨越的潜在障碍。
图1化学空间的示意图
(a)在给定一个任意的客观分子特性轮廓的情况下,用颜色表示该区域内分子的最优性。对预先存在的大型化学库进行虚拟筛选(b)和通过有效的从头分子设计程序穿越化学空间(c)之间的概念差异。从头设计的结果是考虑更少的分子,通过更有效地遍历化学空间达到最佳的分子结构。
分子设计
评估从头分子设计的方法
为了一致地评估自动生成化学结构的方法的进展,建立评估标准的基准是至关重要的。
从头设计方法通常是通过其在独立的任务上的表现来评估的,如进行最大程度类药性的定量(QED)或计算辛醇-水分配系数(ClogP)。尽管这对于展示优化器生成分子的能力来说是微不足道的,但这样的基准未能捕捉到现实世界药物发现的复杂性。
相比之下,评估从头设计方法的另一种方法是通过实验来证明它们的使用。例如,Firth等人合成并测试了循环依赖性激酶2(CDK2)的新型抑制剂,虽然作者追求前瞻性验证的做法值得赞扬,但对该方法的评估是有问题的,因为结果是传闻,而且取决于与从头设计算法无关的许多因素。
分子表示
在从头设计的方法中,常见的分子表征是基于文本的,如SMILES,以及基于图形的(其中分子生成器可能明确地操作分子拓扑结构)。基于文本的方法得益于自然语言处理(NLP)的大量活跃研究,而基于图形的方法则体现了对分子结构更自然的表述。其他影响表示法选择的因素包括分子表示法是否是离散的(如比特向量)、连续的(如浮点向量)和可逆的。最近对从头设计方法的评论集中在通过生成模型结构的角度来讨论分子表示法,而我们在这里集中讨论分子表示法的颗粒度(图2),因为这直接转化为分子设计的实际方面。
基于原子的方法是由一个包含少量原子和键的“词汇”支持的。基于反应的方法是由dual sets of reactants和反应规则支持的。最后,基于片段的方法由一个片段方案和一组可互换的片段支持;灰色的原子表示用断开类型(颜色)注释的连接点。
SMILES作为生成模型的分子表示法已经很普遍了;然而,SMILES的一个缺点是每个SMILES字符串并不是对分子图的唯一描述。一个SMILES是通过分子结构的线性行走来构建的;因此,不同的起始位置和通过分子的路径会产生不同的SMILES。经典的SMILES代表了分子图的标准化遍历;然而,在经典的SMILES上训练的生成模型可以捕获SMILES语法的干扰方面,而不是基础的分子结构。研究表明,在生成模型的训练中纳入非经典的SMILES是有好处的。此外,从适应性来说,SMILES已经被描述为更适合与ML一起使用,包括DeepSMILES和SELFIES。
无梯度分子优化
给定分子表示,优化算法根据可计算的目标函数指导生成最优分子。用于从头设计的元启发式("无梯度")方法使用基于群体的随机优化程序来导航化学空间,如进化算法或蜂群智能。简而言之,我们突出了最近文献中关于其选择的分子表示粒度的示范性工作。(见表1)。
基于原子
基于原子的从头设计方法的一个例子是基于图的遗传算法(GB-GA),它使用反应SMARTS对候选分子库进行突变和交叉,同时自然选择程序确保最优化的分子保持在群体中;ChemGE使用语法进化来优化一个符合上下文无关语法的SMILES种群。GBGA被纳入了GuacaMol基准,并取得了最先进的性能,尽管基准的作者通过测量分子中活性和不稳定基团的数量来评价化合物的“质量”。
Winter等描述了分子群优化(MSO),一种利用粒子群优化在连续嵌入空间中识别理想区域,然后解码离散分子结构的方法。虽然MSO使用的表示是学习的,但优化过程是一个无梯度的方法,并在GuacaMol目标导向基准上实现了最先进的性能。以群体为基础的方法的一个关键问题是保持群体的结构多样性。MolFinder使用池中分子之间的最小拓扑距离来确保这一点,而基于图的GB-EPI扩展了GB-GA,来维持基于特征的小生态位的种群。
基于片段
基于反应
基于梯度的分子优化
研究人员已经提出了几种用于学习生成分子结构的深度学习架构,包括变异自动编码器(VAEs)、生成对抗网络(GANs)和循环神经网络(RNNs)。一旦经过训练,生成模型允许用户从所学的化学空间中抽取分子,当与优化过程(如贝叶斯优化(BO)或强化学习(RL))相结合时,可以有效地识别理想的分子轮廓。关于所涉及的ML过程的更多细节,我们请读者参考最近的文章(参考文献9-11)。
基于原子
除了基于SMILES的生成模型外,人们对直接考虑分子图的拓扑结构的模型也很感兴趣,其中原子和键分别被视为节点和边。通过对分子结构更自然的表述,基于图的模型试图避开SMILES语法的人为方面的因素。GraphVAE和MolGAN是基于生成图的方法,它可以一次学会生成整个图的邻接矩阵。还有人描述了通过迭代修改分子图来逐步学习生成分子的方法。最近,RL方法在图的设置中显示了有希望的结果。
基于片段
基于反应
最近的研究报告称,通过将正向合成建模为马尔科夫决策过程(MDP),使用RL来浏览可能反应的巨大空间。REACTOR使用一组双反应物的反应模板(编码为反应SMARTS),并根据哪些反应物能最大限度地提高下一个状态的获益来选择缺失的反应物。当产生一个以上的反应产物时,会选择与最大获益相关的产物。同样,前向合成的政策梯度(PGFS)将有偏见的反应物选择与多步反应相结合,(分子)图(DoGs)的有向无环图(DAG)方法迭代地生成前向合成路线的DAG。
3D分子从头设计
成功与挑战
全新分子的合成和测试
Zhavoronkov等人发表了可能是报道最广泛的自动分子设计药物的案例,其中作者使用基于GAN的生成方法GENTRL,选择了40个化合物进行合成,并针对盘状结构受体1(DDR1)激酶进行测试。对合成的化合物进行了后续的小鼠药代动力学研究,结果发现了一个具有良好特性的先导化合物;作者认为在进行候选化合物选择之前有可能进一步优化。
Assmann等人描述了部署从头设计以帮助发现CDK9的新型抑制剂的实际挑战。描述了一个精炼的虚拟筛选策略,其中由分子发生器提出的分子被用作EnamineREAL库的相似性搜索的种子。在69个测试的化合物中,有7个显示出对CDK9的活性。Perron等人最近报告了另一个部署生成方法以确定多参数目标的最佳解决方案的实际演示,使用的是基于RNN的生成模型。
Li等人研究了基于RNN的从头设计方法在化学空间的研究领域产生新型分子抑制剂的能力。作者描述了为寻找研究良好的原癌基因丝氨酸/苏氨酸蛋白激酶1(PIM1)和CDK4激酶的新型抑制剂所做的努力。在测试了四种化合物后,他们报告了一种有效的PIM1抑制剂和两种抑制CDK4的领先化合物。
Grisoni等人最近展示了将基于一步反应的生成设计与自动片上合成相结合,以确定肝脏X受体(LXR)的激动剂。总共成功合成了25个化合物,随后的体外活性筛选和后续研究显示,其中12个化合物是强效的,对LXR的激活高达60倍。
生成模型也被用来提出新型小分子的合成和测试,作为治疗2019年冠状病毒(COVID-19)感染的潜在方法。
实用人工智能
一个常用的药物化学设计策略,是探究分子的单一区域修饰或固定骨架修饰的影响。这种有针对性的修饰使研究人员能够建立对相关结构-性能关系的理解。对于从头开始的工作流程,要产生一组保证包含特定子结构的分子,要么分子生成器必须知道分子图谱,要么可以应用后处理过滤器来删除没有所需图谱的分子。前一种策略更可取,因为它的样本效率更高,而且能保证输出分子,因为所有最终的分子都有可能被过滤掉。对于依靠SMILES(基于文本)表示的分子生成器来说,固定骨架的从头设计是一个挑战,因为生成器必须学习哪些非连续的句法字符对应于固定的子结构原子。Arús-Pous等人通过使用零散的分子进行训练,并允许生成器从分子骨架上的连接点开始表示分子,从而克服了这一表示法的缺陷。图形表示法可以更自然地实现固定骨架的从头设计。
已发表的从头设计方法对手性的考虑并不一致。虽然三维方法明确地输出了手性分子,但许多方法根本没有考虑手性,用户不得不为合成相关的对映体而进行合理化。一个简单的解决方案是列举一个候选分子的所有可能的立体异构体并为其打分。我们希望未来的基准发展应该强调目标方法中的这一缺陷。
尽管我们已经讨论了基于原子、基于片段和基于反应的分子表示法在这方面的优点,但如何平衡生成的分子的表现力、优化的便利性和可操作性仍然是一个挑战。除了目标的化学的合成可及性,允许用户指定一组可用的构件的方法还提供了一个额外的实际优势。我们希望未来基于反应的工作流程能以较低的成本和较少的单个反应步骤优先考虑高产、可靠的反应。在类似的实践中,Vaucher等人最近描述了一种方法,将文本中的非结构化反应程序转化为可操作的合成步骤序列;这种行动序列对于实现自动合成的努力至关重要。
设计目标函数的挑战
尽管一直需要改进复杂生物反应的预测模型,但多目标优化(MOO)旨在利用数据融合的概念,如帕累托最优或标准化的z-cores,合并来自几个弱“评分者”的信号。设计有效的MOO配置文件是很重要的,当组合多个目标时,经常使用归一化函数和缩放协议通常需要在评分函数细化和分子生成之间进行多次迭代实验。
Gruenif.ai演示了一个人在循环中的工作流程,用户可以在分子生成时提供交互式反馈。作者认为,更多地关注这类工具,以指导分子设计的有效评分功能的开发将是有益的。
MOO指导分子生成器对化学空间的探索,并经常涉及使用一个或多个QSAR模型。这些模型在给定一组训练实例的情况下预测未来化合物的分子特性。最近一项探索分子生成器故障模式的研究表明,尽管依赖预测模型是很自然的,但应谨慎行事,因为分子生成器可以利用模型特有的特征,这些特征是由模型特有的和数据特有的偏差引起的,导致生成的分子在数值上是优越的,但实际上并不实用。这种不受欢迎的利用行为并不是QSAR模型所特有的,也可以在三维模型中观察到,比如前面讨论的那些。考虑由QSAR模型做出的预测的可信度也很重要,因为预测的准确性高度依赖于模型的适用领域。
改进基准
目前衡量生成分子多样性的基准指标可能具有误导性。在Renz等人的研究中,作者试验了一个假的生成模型AddCarbon,它随机地将碳添加到训练集的分子中。根据设计,该模型只产生新的、有效的分子,因此在GuacaMol分布基准上表现非常好。鉴于这个模型在实践中显然是无用的,这个实验表明目前的基准很容易被愚弄,并表明有必要把注意力集中在改进生成性能的措施上。特别是,系统地测量化学结构的新颖性是具有挑战性的,因为在现实中,新颖性意味着非显而易见的创造性步骤,这是由精通药物化学的人判断的。Bush等人测量了化学家的想法和不同设计方法所建议的分子之间的重叠。尽管对于测量新的分子设计工具的能力来说并不实用,但这项研究表明了生成方法所建议的分子的真正新颖性。
虽然GuacaMol目标定向基准组件代表了分子生成器要完成的任务,正如Zhang等人所说的,其中许多任务是很容易解决的,但我们认为可以增加更具挑战性的任务来评估从头设计的方法在实际药物发现中的作用。例如,与平均合成能力有关的任务、对局部最小值陷阱的敏感性、样品效率、在预定义的构件库限制下的生成或固定骨架分子的生成将为未来方法学的发展提供方向。还可以针对更专门的设置进行扩展,如三维方法,或那些以生物背景为条件的方法。
尽管标准基准有所改进,但显然仍需要在计算机中的任务和真正的体外验证之间找到一个中间地带。我们希望该领域能通过实验重新审视新方法。
从头设计方法的发展机会
我们还想提醒这个领域,尽管基于梯度的方法在从头设计方面带来了巨大的关注和进步,但无梯度的方法也是化学结构的有效优化者,表现出稳健性,减少了计算负担,并具有最先进的基准性能;此外,使用包括两个技术系列的优势的方法,可能会有重大收获。
除了继续推进现有的生成模型系列外,我们对其他统计学上强大的方法有效生成分子的潜力感到兴奋,特别是那些注重图形表示的方法,如基于流动的自回归模型,它通过一系列可逆变换将简单分布映射到化学空间。
另一个有趣的方向是开发专门的生成模型,在生成过程中纳入额外的环境,如三维环境、三维蛋白结合点、或基因表达特征。
结束语
现在,该领域的挑战是评估我们的生成器和优化目标是否对手头的任务有用。为此,我们加强了对基于原子的生成器的分类,这种最大限度的表达范式可以鼓励我们制造以前没有描述过的分子;基于片段的方法是实用的,并受制于一套预定的构件;基于反应的从头设计工具,它有一个原生的语法,但有一个更具挑战性的优化问题。
新的分子设计和生成化学模型在该领域仍然是一个有争议的话题,但我们相信,从已有经验中学习并将这些方法加入药物化学工具箱是有潜力的。
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
AI药物发现公司继续寻求最佳商业模式
郭天南|人工智能+蛋白质组学:药物研发的生物学底层变革
Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展
Nature:优于联邦学习的医疗数据共享技术Swarm Learning及应用案例
人工智能在药物研发中的应用
AI药物研发公司Exscientia的理念、技术与特点
进入临床试验的AI设计的药物 汇总V1.0
远程机器人实验室在AI药物发现中的应用价值与前景
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
AI药物研发公司Insilico Medicine的理念、技术与特点