查看原文
其他

Pharma.AI平台系列|从论文到应用,Chemistry42平台的迭代与应用实践

InsilicoMedicine 英矽智能 2023-08-18

2019年9月2日,经过近一年的评审,题为“深度学习快速识别有效的DDR1激酶抑制剂”的论文成功在 Nature Biotechnology期刊上发表。这篇论文描述了一项“限时挑战”:英矽智能利用自主开发的生成化学人工智能模型GENTRL与药明康德等机构合作,在21天内针对给定靶点DDR1设计出苗头化合物,并在46天内完成初步生物学验证。


该论文发表后得到了相关领域研究学者的广泛关注。根据社会化影响力指标Altmetric数据,该论文至今依然是Nature Biotechnology最受关注的八篇论文之一。此后,英矽智能的人工智能团队将GENTRL模型与其他多种算法模型整合,历时3年开发了英矽智能自有的生成化学平台——分子生成和设计引擎Chemistry42,其基础正是近来颇受关注的生成式人工智能。


经过大量数据训练后,现有的生成式人工智能系统可以产出具有新颖性的文字、图片等数据,现已发展到产业应用阶段。由于生成式人工智能不受限于已有数据,相关算法有望变革医疗制药行业、拓宽研究人员眼界,现已被应用于在疾病假说、新靶点发现、小分子和抗体结构生成等方面。


从论文到应用,这里记录了Chemistry42平台的诞生、迭代与应用实践。




将GAN应用于药物分子设计


GENTRL的核心来自于被《麻省理工科技评论》评选为 2018 年十大技术之一的生成对抗网络(GAN, Generative Adversarial Networks)。作为一种优秀的生成式模型,在被应用于药物分子设计之前,GAN引爆了许多有趣应用领域,比如图像编辑、改变面部表情,以及近期流行的ChatGPT。


GAN的独到之处在于,它由两个神经网络构成。一个是生成网络,又称生成器,另一个是判别网络,又称判别器。在训练过程中,生成器一直在优化生成值使之骗过判别器,判别器一直在判别生成器的生成结果。在这个相互对抗、竞争却又互相学习的过程中,训练出高质量的人工智能。


在正式提出GENTRL模型前,英矽智能团队曾独立或合作发表过多篇将生成对抗网络(GANs)和其他生成学方法应用于药化领域设计化合物的论文。其中最著名的是2016年发表的题为“将深度对抗性自动编码器应用于肿瘤学的新分子开发”的论文。


生成对抗网络技术在生成化学领域的应用发展

及英矽智能在该领域发表的论文


该论文使用美国癌症研究所的公开数据,训练了一个对抗自动编码器,该深度神经网络能够根据想要的分子特征,来生成具有潜在抗癌特性的候选分子。在这项研究中,英矽智能利用该算法预测了69 种化合物,并合成和测试了其中的四种,结果表明预测化合物具有良好的活性。


这篇论文被视为是GAN首次在药物开发的应用,吸引了深度学习界大牛的目光,神经网络三巨头中的Yoshua Bengio、Yann LeCun均公开赞许了这个研究。然而,论文也引发了一些质疑,其中来自Relay Therapeutics的团队分享了他们的评价,称研究团队选择合成和测试的四种分子之一与普纳替尼(Ponatinib)相似。


对此,英矽智能作出了回应:一方面,选择合成测试该分子并非是因为其与已上市药物结构类似,而是考虑到该分子的合成成本相对较低。另一方面,虽然该分子结构可能与普纳替尼相似,但仍是全新发现的、可以申请专利的分子。


这场辩论让研究团队意识到:很少有团队会专注于算法设计和药物发现的交叉研究,传统的药物研发者并不关心算法之美,而算法设计者也不了解药物发现的基本原理。GENTRL 必须进化成一种工具,成为更多人可亲自尝试用来设计新分子的助力,才能真正被业界认可。




产业级多模型集成平台
Chemistry42的诞生


2019年英矽智能在Nature Biotechnology上发表题为“深度学习快速识别有效的DDR1激酶抑制剂”的论文。研究团队在ZINC分子数据集上训练GENTRL模型后,利用公开可用的激酶抑制剂数据集,针对DDR1靶点生成了40个候选分子,并从中筛选出6个用于合成和验证,体外试验显示其中4个化合物具有良好活性。这一耗时仅35天的研究验证了GENTRL模型良好的预测性能。


这篇重磅论文诞生于AI制药概念逐渐兴起的时代背景之下,被Deep Pharma Intelligence (DPI)认为是AI制药的“高光时刻”之一。彼时,虽然有不少AI制药公司强调其药物管线是由AI赋能研发的,却并未向市场透露和分享他们的AI工具,市场对AI制药依然抱有极大的疑虑。鉴于此,英矽智能决定做一款看得见摸得着的软件工具,能提供于制药行业的成熟团队使用。


然而,和AlphaFold一样,GENTRL仅仅是药物发现流程中的一部分,无法执行所有的药物发现任务。为此,研发团队设定了新的策略,他们计划以 GENTRL为核心,集成多个生成模型、预测模型和强化学习系统,并对每个单独模型和集合的输出进行评估,同时针对生成具有所需特性分子的模型和集合设立奖励或惩罚机制。2020 年,英矽智能AI分子生成工具Chemistry42正式上线。


时间线图解:从 GENTRL 模型 (2017年) 到论文 (2019年)
再到Chemistry 42平台 (2021年)


Chemistry42平台集成多种前沿算法模型,包括生成自编码器、生成式对抗网络、基于流的生成模型、进化算法、语言模型等。该平台的主要优势是个性化奖励机制,具体来说,Chemistry42会持续采用奖励机制和3D物理结构模块对生成的分子结构进行评估,并在生成算法辅助下进行多维度评分和优化,涵盖药效、代谢稳定性、合成难度等。此外,ADME特性和选择性特征也会影响新颖候选分子的排名。


Chemistry42界面设计友好、工作流程直观等优点,只需简单三步,即可得到可用的先导化合物类似分子。第 1 步:设定目标;第2步:使用想要化合物满足的标准对平台进行配置,让平台运行 2 - 72 小时;第3步:将生成的化合物可视化,并根据首选标准对其进行排名和过滤。无论是对老药新用项目还是潜在的新疗法,Chemistry42都可以对化合物进行设计、排序和评分,从数百万种候选化合物中找到数百种具有所需特性的化合物。


Chemistry42 基本结构图,包括生成管线中的多个模型和奖励管线中的预测模型,可用于基于配体和基于结构的药物设计,GENTRL (VAE-TRIP) 是众多生成模型之一。


同时,为了满足多样化的需求,Chemistry42被开发为高度可定制化的平台,可供部署于不同的制药公司,帮助利用AI工具对自研模型完成基准测试和训练,并应用于分子生成实践。平台还允许使用者添加自有生成模型或使用自有训练数据,这些输入模型和数据均由防火墙机制保护。这种定制化和灵活性让英矽智能的平台能够走出药物发现领域,发展至农业化学甚至绿色化学领域。





使用AI对药物发现
进行端到端改进


正如化学家兼作家 Derek Lowe 在Chemistry World中所写,像AlphaFold这样预测蛋白质结构本身并不能颠覆药物发现领域。Chemistry42所赋能的分子生成和设计也仅仅是药物发现流程中的一部分。事实上,AI可以从许多方面助力药物发现。


AI可以参与药物发现中的许多步骤


为进一步将人工智能制药能力转化为发现切实帮助患者的药物,在开发Chemistry42的同期,英矽智能启动了端到端人工智能平台Pharma.AI的构建计划。初期该平台将靶点识别与小分子设计相结合,涵盖了靶点识别引擎PandaOmics和分子生成引擎Chemistry42。2022年11月,平台进一步纳入临床试验结果预测引擎inClinico,助力完善临床试验方案设计。



Pharma.AI平台


2021-2022年,英矽智能利用10个推进到IND-enabling阶段的内部自研项目,涉及纤维化、肿瘤、炎症、抗病毒等多个领域,进一步验证了Pharma.AI的能力,使它超越“纸上谈兵”的单纯预测,成为在真实世界中切实可行的AI药物发现平台。其中最引人注目的是治疗特发性肺纤维化的候选药物,在不到30个月的时间里,英矽智能仅用了传统药物开发的成本的一小部分,就将由AI发现并设计的新型药物带入了I期临床试验。

30 个月内,从靶点发现到进入人体临床试验
https://www.nature.com/articles/d43747-021-00039-5


近期的实践案例来自于英矽智能发表在生成化学领域期刊Chemical Science的文章,阐述了研究团队利用Pharma.AI的靶点识别和分子生成能力,结合AlphafFold2蛋白质结构预测基础,在30天内发现靶向潜在抗肝癌靶点CDK20的小分子抑制剂的过程。该研究结果表明,即使面对有限的分子结构数据,人工智能平台仍能辅助新颖药物发现,实现降本增效。




为制药公司提供
AI药物研发解决方案


自2020年正式上线以来,涵盖Chemistry42和PandaOmics的Pharma.AI平台不断升级,通过生成式人工智能算法连接生物学、生成化学和药物研发流程,识别具有潜力的靶点,再根据所需特征设计和生成新颖的分子。截至目前,全球前20大制药公司中的10家已授权引进Pharma.AI平台,利用生成式人工智能能力推进药物研发项目。


Pharma.AI平台也被应用于英矽智能近30项内部研发项目,其中在癌症、炎症和COVID-19在内多个疾病领域的内部研发项目已推进至临床试验或临床前关键阶段。


这将是对人工智能药物发现能力的真正考验。因为决定平台价值的并不是它所能生成或预测分子的数量,而是这些候选药物是否能够经过临床验证被证明安全有效且真正惠及患者。我们期待,借助英矽智能端到端 AI平台,生成对抗网络在革新制药业方面的真正潜力即将展现。


参考资料:
[1] Community, Nature Portfolio Bioengineering. “From Paper to Industrial-Scale Platform: A 3-Year behind the Paper Journey from GENTRL to Chemistry42.” Nature Portfolio Bioengineering Community, 17 Aug. 2022, bioengineeringcommunity.nature.com/posts/from-paper-to-industrial-scale-platform-a-3-year-behind-the-paper-journey-from-gentrl-to-chemistry42. Accessed 7 Feb. 2023.

[2] Zhavoronkov, Alex, et al. “Deep Learning Enables Rapid Identification of Potent DDR1 Kinase Inhibitors.” Nature Biotechnology, vol. 37, no. 9, Sept. 2019, pp. 1038–1040, www.gwern.net/docs/rl/2019-zhavoronkov.pdf, https://doi.org/10.1038/s41587-019-0224-x. Accessed 11 Nov. 2019.


关于英矽智能

英矽智能是一家由端到端人工智能(AI)驱动的临床阶段药物研发公司,通过下一代人工智能系统连接生物学、化学和临床试验分析,利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建强大且高效的人工智能药物研发平台,识别全新靶点并生成具有特定属性分子结构的候选药物。英矽智能聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域,推进并加速创新药物研发。

更多信息,请访问网站
www.insilico.com

商务合作,请联系 bd@insilico.ai

媒体垂询,请联系 pr@insilico.ai

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存