广东省小分子新药创新中心与新樾生物联合发表基于DEL的分子生成论文
广东省小分子新药创新中心与新樾生物合作最近在Frontiers in Pharmacology(IF:5.98)发表题为《3CLpro inhibitors: DEL-based molecular generation》的最新论文, 该论文利用DNA编码化合物库(DEL)技术筛选出3CLpro(一个病毒复制所必需的蛋白酶)的活性化合物,再基于DEL筛选数据建立RNN,VAE,AAE, MCMG等预训练分子生成模型,利用DEL中具有高亲和力的分子对该模型进行微调,生成一系列全新结构的化合物,从而同时实现了基于DEL的药物发现与化合物结构优化,据悉这是国际上利用DEL数据进行分子生成实现结构优化的首篇论文。
研究背景
药物结构优化的一个基本问题是根据已知信息设计出具有更优特定性质的新分子。在药物发展的早期,对新分子进行结构改造往往依赖药物化学家们积累的经验与知识,但这会大大限制所探索的分子化学空间。深度学习在药物设计中的应用在MIT Technology Review 2020中被评为十大突破性新技术,充分利用这项工具可探索更加广阔的化学空间,生成所需要的化学和药理特性的新分子。
通过机器学习(ML)进行分子生成(MG)已被证明是药物结构优化的有效工具,如:Zhavoronkov(Zhavoronkov et al., 2019)等人通过建立深度学习的分子生成架构GENTRL在21天内发现了DDR1的激酶抑制剂。然而这是由于DDR1是已有大量活性数据报道的靶点,对于新靶点,由于缺乏大量的活性数据,分子生成用于结构优化往往效果不佳。
通过DEL技术快速产生大量的针对特定靶点的亲和力数据,包括新靶点数据,而后利用DEL数据进行分子生成有可能帮助解决新靶点苗头化合物快速优化的问题。
方法
首先论文构建了两个DEL库, 将两个DEL库对3CLpro靶点进行筛选,得到了1.04 billion针对3CLpro的亲和力数据,同时,也发现了一些活性化合物。
图1.DEL库设计信息以及部分分子的结构活性信息
图2. 实验流程图
结果
各个模型的表现:MCMG模型在Novelty上表现较好,其它三个模型在Novelty上表现较差,但在Validity和Uniqueness上表现较好。VAE,AAE,RNN都使用了较为简单的架构,MCMG模型参考自Wang, J(Wang et al., 2021).)等人的研究成果,这表明要提高生成分子的新颖性,使用更加复杂的模型可能是必要的。但MCMG生成的分子在亲和力的测试中表现欠佳,这其中的原因依然有待思考。
亲和力分布分析,使用迁移学习的模型生成的分子在亲和力测试中具有更高的打分。这说明在缺乏活性数据的时候,利用DEL数据进行分子生成时,使用高count数的分子对模型进行微调更有可能产生出高活性的分子。
图4. 模型亲和力分布比较
图5 挑选出的可能具有活性的化合物
总结
据作者所知,这是DEL数据集首次用于分子生成的研究,将促进DEL与AI结合应用领域的发展。 本研究初步发现,利用DEL数据代替公共数据库进行分子生成是可行的, 特别是对于新的靶标,基于DEL数据的亲和力模型以及分子生成模型有望成为集药物发现和结构优化双重功能于一身的新药发现利器,而由于新靶点数据集的稀缺性,依赖公共数据库很难实现这一目的。相关文献:
Xiong F, Xu H G, Yu M G, et al. (2022) .3CLpro inhibitors: DEL-based molecular generation. Frontiers in Pharmacology.
Zhavoronkov A, Ivanenkov Y A, Aliper A , et al. (2019). Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nature biotechnology, 37(9), 1038-1040.
Wang Jike, Hsieh C, Wang M Y , et al. (2021). Multi-constraint molecular generation based on conditional transformer, knowledge distillation and reinforcement learning. Nature Machine Intelligence, 3(10), 914-922.
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。
- 历史文章推荐 -
【分子生成】
●KDD 2022 | MolSearch:基于搜索的多目标分子生成与性质优化
●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法
●深度学习在分子生成和分子性质预测中的应用
●J Comput Chem|应用于多参数优化的基于配体的从头设计深度生成模型
●Curr Opin Struc Biol|蛋白质设计的深度生成建模
●ICLR 2021|一种端到端的基于双重优化的分子构象生成框架ConfVAE
●JCIM|用Transformer-decoder模型进行分子生成
●Dr. X | 冲破传统药物发现瓶颈,深度学习指导下的分子生成
●JCIM|结合AI与Docking的基于结构的分子从头生成模型
●Drug Discov Today综述|分子从头设计和生成模型