Dr. X | 冲破传统药物发现瓶颈,深度学习指导下的分子生成
The following article is from 晶泰科技 Author Dr.X
关于 Dr.X
现代药物研发是一项漫长且复杂的工作流程,有统计数据显示,每个成功上市的化学药物背后,平均经历了十万个化合物筛选和数百项临床前实验【1】。
分子结构设计是合理药物设计的基础,也是获得全新药物分子的起点,肩负着创新型分子成药性、专利空间、提高可合成性等诸多使命,其核心问题是从合成可及的化学空间中获得满足特定活性和成药性的候选分子。深度学习指导下的全新分子设计作为一种不同于虚拟筛选的化学空间探索方式,通过运用神经网络,在给定的分子库中学习化学结构特征和化学结构设计的规则,并将这些规则运用到基本分子构建单元的堆砌、符合构效关系的分子片段或药效团链接等,指导药物分子设计与生成。由于所使用的数据集未经标记分类,因此深度生成模型可大致归属于非监督学习,这意味着生成模型具有较广的探索空间。
如何理解深度学习指导的分子生成
本质而言,基于深度学习的全新分子设计方法着重关注于如何估算分子结构的分布 𝑝(𝐱) 。全新分子生成则可以视为于从 𝑝(𝐱) 中抽取样本 𝐱 ~ 𝑝(𝐱) ;相应地,此过程需要使用参数化的概率分布 𝑝𝜃(x) 来逼进分布 𝑝(x)。理论上,当我们了解了这个分布规律,就可以获知整个数据集的信息,也就是满足要求的全部化学结构。结合打分函数对生成过程进行指导,就可获得该空间内符合要求的新分子结构。
每个成功上市的化学药物都以海量的设计-合成-测试-分析的循环迭代实验结果支撑,耗时漫长且成本高昂。
全新分子生成模型的主要框架
常见的四种分子生成模型结构示意,图片来源【2】。
• RNN 网络的结构可概括为将前一步骤的输出用作下一步骤的输入,这种“记忆”效应有助于决定对新输出的阐述方式,同时兼顾保持原始输入的特性。
• VAE 模型已经被成功用于图像、文本等多种类型的数据生成任务中,其特色在于存在隐变量空间,在训练VAE时模型倾向于在隐藏变量中存储最有价值的有压缩意义的信息,可用于许多后续学习任务或移植到其他类型的模型之中。
• GAN 的数据逼真度较高,但网络训练的本质不再是优化问题,而是寻求纳什均衡,不仅较难训练,也容易遭遇模型坍塌。考虑到 GAN 同时具备生成和判别的功能模块,因此 GAN 模型结构在对化合物分子向特定性质优化时具备潜力,比如明确成药性、水溶性、抑制活性、指定芳香环数量等性质要求【3】。
生成模型在全新分子设计中的初级应用
一维分子生成模型
简化分子线性输入规范(Simplified Molecular Input Line Entry Specification, SMILES)是最常见的化学分子描述符,将化学结构以字符串表示,构建类似于语言结构。RNN 模型见长于对序列属性的信息处理,比如自然语言识别、乐曲生成等。二者的结合令 RNN 模型通过训练集学习到 SMILES 序列每个位置出现特定原子字符的几率,进而获得化学结构和化学空间的分布规律,以指导对已有字符串进行字符替换或产生全新字符串的工作,这就是一维生成模型的工作方式。一维分子生成模型也可通过 VAE 网络实现,通过控制隐藏变量来操控分子的结构,且发现 VAE 训练得到的隐藏表征与结构存在较高的关联性【4】。
基于 SMILES 的生成模型在很多生成任务中已经有过很好的应用和表现能力。然而 SMILES 对分子结构的细微变化的描述并不稳健;另外,此类模型所生成的 SMILES 字符串需要极为严格的语法限制才能被解码为有效的分子,这增加了模型学习的成本。可见,亟待建立更加稳健的分子生成模型。
二维分子生成模型
基于片段(Fragment-based)或砌块(Building blocks)等构建单元进行拼接生成新骨架的方式是二维分子生成模型的基本思路。可采用 VAE 编码器将分子编码成若干亚结构(构建单元)和亚结构间结(Node)的连接方式,通过训练集学习构建单元的特性和出现频率,和结的拼接规则,最后通过解码器将新拼装出的亚结构组合进行解码,就获得了全新的分子图。
值得一提的是,尽管用于堆砌连接构建新分子的片段种类有限,事实上,即时在使用几个固定构建单元进行拼装时,深度学习网络产生出的结差异巨大,令最终产生的分子仍具有较高创新性【6】。
在生成的每一步都对树结构 (Junction tree) 的分支结构和性质进行判断的同时,还将信息返还至上一层次的节点(左)。对每个结位置连结上的堆砌单元进行评分(右)。
三维分子生成模型
也有研究报道结合图卷积模型和变分自编码器构建了分子三维生成模型。首先对分子的构象进行格点像素的表征并编码成为 3D 药效团结构,经过 VAE 的扰动之后,再解码成新的 3D 药效团结构,就达到“从药效团到新药效团”的生成目的【8】。
结语
根据药物设计需求进行全新分子设计需要解决的核心问题是如何在已有的化合物设计规则之中探索新的化学空间。基于深度学习的生成模型将这一问题化归为对条件概率密度的估计。深度分子生成模型拥有从大量数据中学习的能力,以及超越化学直觉的从头药物设计的潜力,已被广泛应用于许多重要的分子设计项目当中。尽管目前模型的可靠性大多通过虚拟的药物设计任务得到测试,生成的化合物只有在合成之后,其成药潜力才能被客观测试。但基于 AI 的性质优化与预测将待合成测试的分子数收敛至数十个,这是传统药物研发手段所不能实现的。自动化实验技术等的发展也必将推动数据的快速获取。在不久的未来,我们或许就可以看到 AI 分子生成算法与自动化技术完全地结合,实现较少(甚至没有)专家干预的药物设计流程。
Dr. X 科学家们在这些初级应用的基础上针对特定场景做了二次的开发,开发出了更多满足实际应用需求的定向优化模型,比如 Random(无序、随机的生成),SIMILAR(相似生成),SCAFFOLD(固定母核的生成),SCAFFHOP(骨架跃迁),REPLACE(侧链替换),PHARM(药效团),POCKET(基于小分子形状或蛋白口袋)等。
优化分子的话题将在下期开展,敬请期待。
参考文献
【1】B. E. Blass, Basic principles in drug discovery and development, ISBN: 978-0-12-411508-8 (2015)
【2】Xia, X. et al. Drug Discov Today Technol 2019, 32, 45–53.
【3】Maziarka L. et. al. J Cheminform. 12(1):1–18 (2020).
【4】Blaschke, T. et. al. Mol. Inform. 2018, 37, 1700123.
【5】Biggs, N. et. al., Graph Theory, 1736-1936 (1986).
【6】Roughley. S. et. al. Top. Curr. Chem. (2011)
【7】M. Skalic, et. al. Mol. Pharmaceutics, 16, 4248-4291 (2019)
【8】M. Skalic, et. al. J. Chem. Inf. Model, 59, 1205-1214 (2019)
晶泰科技(XtalPi)是一家以数字化和智能化驱动的人工智能(AI)药物研发科技公司,基于量子物理、量子化学、人工智能与云计算技术,为全球创新药企提供智能化药物研发服务。我们希望通过提高药物研发关键环节的效率与成功率、降低研发成本,助力合作伙伴为患者带来更多优质的药物。晶泰科技创立于麻省理工学院(MIT)校园,核心团队由来自学术界、IT 互联网界及医药产业界的优秀人才组成。公司总部位于深圳,并在北京、上海、波士顿设有分部,成立至今,晶泰科技已经成功为来自美国、欧洲、中国、日本的近百家先锋药企提供了药物研发服务。
业务/活动咨询请联系:bd@xtalpi.com
----------- End -----------
Science|让机器学习值得信赖
Science China|用增强的联邦学习应对药物发现数据小和偏的困境
Drug Discov Today|药物研发风险地图
Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力
Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点
AI药物发现公司继续寻求最佳商业模式
人工智能在药物研发中的应用
远程机器人实验室在AI药物发现中的应用价值与前景
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动