蛋白激酶(protein kinases)是细胞功能的关键调节分子,是生物体内最大且功能最多样的基因家族之一。人类激酶组包含500余种激酶,它们主要通过磷酸化底物蛋白质,影响众多蛋白质的活动、定位以及总体功能,并且参与几乎所有细胞的信号转导。因此,激酶是开发治疗癌症、炎症、糖尿病、心血管疾病和阿尔兹海默症等相关疾病药物的重要靶标【1】。2001年美国FDA批准上市第一个选择性激酶抑制剂格列卫(Gleevec)在治疗慢性粒细胞白血病取得突破后,相继有几十个激酶抑制剂(替尼类药物)获批上市,分别在非小细胞肺癌、乳腺癌、胃癌等肿瘤治疗中取得显著效果,开辟了肿瘤靶向药物治疗新领域。然而,由于激酶家族蛋白质(特别是催化域)结构的高度保守性,给高效选择性激酶抑制剂的开发带来了巨大挑战。药物调节激酶组功能的多向药理学(Polypharmacology)研究,是目前解决这一问题的主要手段。能做激酶抑制剂全激酶谱筛选的实验室和CRO公司较少,且费用昂贵、周期较长,不利于一般实验室开展相应的研究工作。随着激酶抑制剂及其活性数据的急剧增加,基于大数据的人工智能(主要是深度学习)预测方法的建立成为可能,这有利于普通实验室对自己感兴趣的化合物进行激酶谱研究,获得信息后,测定少量的激酶抑制剂活性即可达到相应的目的【2】。为了实现这一目标,近日,中国科学院上海药物研究所蒋华良/郑明月课题组根据现有激酶活性大数据,应用深度神经网络算法,建立了药物调控激酶谱的预测分析方法,研究结果近期在线发表于Journal of Medicinal Chemistry,题为“Deep Learning Enhancing Kinome-Wide Polypharmacology Profiling: Model Construction and Experiment Validation” ,并被选为封面论文【3】。中国科学院上海药物研究所药物设计与发现中心(DDDC)郑明月为论文通讯作者,第一作者是博士研究生李叙潼。图1. Journal of Medicinal Chemistry封面文章
二十一世纪以来,随着计算机计算能力的迅猛提升和大数据的涌现,深度学习在机器学习算法的基础上快速崛起,并在药物研发领域得到广泛应用。以激酶抑制剂为例,目前已报道了大量小分子化合物的结构和活性数据,深度挖掘这些数据可以有效推动激酶抑制剂的设计和优化【2,4】。例如,可以利用机器学习方法预测化合物对特定激酶的活性【5】。然而,对许多尚未经过充分深入研究的激酶靶标,目前已有的数据还远远达不到训练中等规模神经网络所需的量级。因此,传统的单任务神经网络模型通常难以取得较好的泛化性能。为了解决这一问题,李叙潼等采用了多任务深度神经网络(multitask deep neural network)建立分类模型解决化合物的激酶谱预测问题。多任务深度神经网络通过任务间的迁移学习,可以高效解决具有相关性的多类别分类问题,对于众多激酶靶标,共享的保守催化域使得多重活性预测任务紧密相关。因此,利用多任务深度神经网络可以有效减少特定激酶数据不足对模型泛化性能的限制。此外,多任务神经网络只需建立一个模型即可对整体激酶谱进行预测,无需多次建模,并且通过使用共享表示减少了模型参数的规模,可以使模型的训练学习过程更加高效。与传统的机器学习方法随机森林相比,多任务神经网络对多个大规模外部测试集展现了更好的泛化性能,ROC显著提高。更为重要的是,该模型在生物活性数据较少的激酶任务上也展示出了可观的预测能力,而随机森林在这类任务上几乎失效(ROC约为0.5)。此外,论文作者使用模型预测了数个临床或在研的激酶抑制剂,并进行了相应的生物实验验证。实验测试了5个化合物对282个激酶的1410个活性数据,实验结果证实模型预测的平均ROC达到0.75。分析发现,模型不仅可以准确识别抑制剂已知的主要靶标,还可以揭示与其他新靶标的作用。例如,NVP-BHG712是已报道的EphB4抑制剂【6】,模型不仅预测到了它对EphB4的活性,还发现它可以抑制包括Src、Lyn、Hck、Lck和 Yes在内的Src家族,提示可能具有潜在的抗胰腺癌和非小细胞肺癌活性【7,8】。此外,通过对预测激酶谱进行统计分析还可以得到化合物的激酶亚家族选择性(subfamily-selectivity)。这些结果对老药新用和多靶点选择性抑制剂设计有重要的指导意义。图3. 多任务神经网络与随机森林预测表现对比。(A)在四个独立外部测试集上的ROC。蓝色为随机森林模型,红色为多任务神经网络。(B)在四个大型外部测试集上,随机森林与多任务神经网络的ROC受到靶标建模数据量的影响。蓝色为随机森林,红色为多任务神经网络。(∗) 0.01 < p < 0.05; (∗∗) 0.001 < p < 0.01; (∗∗∗) p < 0.001.图4. (左)对五个化合物预测与实验得到的激酶图谱,标记为红色的激酶表示预测或实验测定为活性。(右)预测与实验得到的激酶家族选择性,当一个家族的odds ratio显著大于1(红色),认为化合物对该激酶家族具有选择性。(∗) 0.01 < p < 0.05; (∗∗) 0.001 < p < 0.01; (∗∗∗) p < 0.001.
为了方便普通实验室、特别是从事实验研究的科研工作者使用该预测分析方法,论文作者还开发了药物激酶谱活性在线预测分析及可视化平台KinomeX(https://kinome.dddc.ac.cn/en/),相关论文于6月22日在线发表于Bioinformatics(KinomeX: a web application for predicting kinome-wide polypharmacology effect of small molecules)【9】。用户只需在KinomeX提交化合物的结构信息即可以对391种激酶靶标的潜在活性和选择性进行预测,可为靶向激酶药物的发现和重定向提供参考信息。图5. 药物激酶谱活性在线预测分析及可视化平台KinomeX
中国科学院上海药物研究所药物发现与设计中心(DDDC)长期从事计算机辅助药物设计方法和应用研究,自2003年起,蒋华良、罗小民、郑明月等即将机器学习方法引入到药物设计中,曾发展了基于仅序列的蛋白质-蛋白质相互作用(PPI)及其网络预测方法【7】、基于小分子二维结构和蛋白质序列的药物设计方法【8】以及药物吸收、分布、代谢、排泄和毒性(ADME/T)预测方法【10-17】,这些方法有效性和实用性均在药物研发过程中得到确证,有些方法被国际上多个实验室和制药公司应用,算法也被其他程序采纳。然而,由于当时数据不足和计算资源的限制,有些好的算法(例如基于小分子二维结构和蛋白质序列的药物设计方法)没有受到业界的重视。随着人工智能(AI)算法和计算机硬件发展,以及药物活性数据的快速增加,DDDC加强了AI药物设计方法发展与应用研究,目前的算法比以往更加实用和精准,与所内外建立了广泛的合作,在靶向GPCR药物研发和抗肿瘤药物研发等领域取得较好的进展。
药物靶标是指与疾病的发生有因果关系或者参与疾病的发展过程, 并能通过药物进行调节和治疗的生物分子。随着基因组学和高通量筛选技术的进步,药物发现从依赖动物水平筛选逐渐转变到细胞和分子水平,人们也更希望找到具有高度选择性和靶向性的“单药-单靶”分子。然而,由于疾病网络中各通路之间复杂的动态调控, 单靶点药物往往不能起到良好的治疗效果。近年来,整个制药行业“投入大、产出少”的局面也可能与这种基于单一靶标的药物研发策略有关。人体是一个有机整体,很多疾病必须要同时精细调控多个靶点才能得到控制,比如,目前已发现有多种靶向激酶抗肿瘤药物的临床疗效与其多向药理学作用相关。另一方面,如果药物的作用靶标太广泛又易于产生毒副作用。以针对多靶点设计的蛋白激酶抑制剂PP121为例,该化合物不仅可以靶向酪氨酸激酶,还可以阻断mTOR和PI3K之间的负反馈通路,从而具有更好的协同作用【18】。然而,星形孢菌素因其与多种激酶杂泛性的相互作用而在临床实验中被终止。因此,开发新型、有效和安全的激酶抑制剂,需要实现化合物多向药理和选择性的均衡,这是十分具有挑战性研究方向。近期,中国科学院上海药物研究所蒋华良和郑明月带领学生,基于激酶活性大数据,发展了药物激酶谱预测分析的多任务深度神经网络(multitask deep neural network)方法【19,20】。多任务深度神经网络通过任务间的迁移学习,可以高效解决具有相关性的多类别分类问题。对于众多激酶靶点,共享的保守催化域使得多重活性预测任务紧密相关,因此利用多任务深度神经网络可以有效减少特定激酶靶点数据不足而无法建模的限制。该模型在与同类型方法的平行比较中显示了更好的预测效果,并对多个大规模外部测试集展现了良好的泛化性能。此外,该研究团队使用模型预测了数个临床或在研的激酶抑制剂,并进行了生物实验验证。结果证明模型不仅可以准确识别抑制剂已知的主要靶标,还可以推断出与毒副作用相关靶标的潜在作用,对多靶点药物分子的精准设计具有重要指导意义。值得一提的是,在去年DREAM Challenge的“多靶点药物预测挑战赛”当中【21,22】,蒋华良/郑明月团队也取得了较好的成绩。DREAM多靶点预测挑战赛由美国西奈山医学院组织,要求选手利用算法模型找到对几个特定蛋白靶点有活性,但对另外几个靶点(anti-target)无活性的化合物,也就是要求化合物具有高度精准的多靶点选择性。为了对算法进行客观验证,比赛组织方会对预测结果进行实验验证,并对算法创新性和可扩展性,以及化合物结构的新颖性进行综合评分。蒋华良和郑明月共同指导的博士研究生熊招平同学在甲状腺髓样瘤(medullary thyroid carcinoma)和tau蛋白神经退行性模型两项任务中均斩获全场最高分,从190个参赛队伍中脱颖而出(人工智能助力上海研究生熊招平摘取多靶点药物分子设计国际挑战大赛冠军)。我国的药物分子设计研究始于上世纪70年代末。改革开放以来,在国家各类研究基金支持和科研人员的努力研究下,我国在药物分子设计领域的研究已基本达到与国际同等水平,在部分研究方向上有所突破,已经达到了国际领先的水平。国内多家研究单位采用计算模拟和预测联合实验验证的研究策略,针对一些重要的药物靶标的结构-功能-调控开展研究,在离子通道、G-蛋白偶联受体以及肿瘤相关等药物靶点上取得了一系列重要进展。与国外研究机构和制药公司相比,我国学者更注重药物分子设计方法和技术的发展与具体药物研发的紧密结合,这是我国药物设计研究快速发展的重要原因之一。近年来,国务院、国家食品药品监管总局以及相关部委相继颁布多条政策法规文件,支持和鼓励药物创新。在这些政策的激励下,国产自主创新药物的临床申请和获批数量均快速增长,中国药物创新的春天已经来临。作为创新药物研发的重要技术支撑,国内的计算机辅助药物设计领域也必将迎来新的发展机遇和更为广阔的市场。此外,计算机硬件的发展、医药大数据的积累和人工智能技术的兴起,也都在不断地为药物设计领域注入新的力量。可以预见,在市场需求和技术进步的双重推动之下,计算机辅助药物设计在我国药物研发中必将发挥更大的作用。郑明月 中国科学院上海药物研究所研究员、博士生导师、国家新药研究重点实验室成员、中国化学会计算机化学专业委员会委员。研究方向是基于人工智能和大数据的精准药物设计技术开发。在药物作用机制和靶点发现、新靶点活性化合物的发现和成药性优化等方面取得了一系列成果,发展了具有特色和创新性的机器学习算法和模型,得到了国内外同行的关注。近年来,共发表SCI论文70余篇,参与5部专著的编写;在Trends Pharmacol Sci、Autophagy、J Med Chem、J Chem Theory Comput和Bioinformatics等杂志发表通讯或第一作者论文40余篇。参与申请发明专利和软件著作权16项,其中已获得发明专利授权5项,软件著作权3项。目前主持自然科学基金面上项目,作为课题负责人参与科学院个性化药物先导专项和生物安全关键技术国家重点研发计划等项目。近年来,入选中科院青年创新促进会会员(2013),获得中国药学会施维雅青年药物化学奖(2014),赛诺菲-中科院上海生科院优秀青年人才奖(2015),上海市人才发展资金(2018)等奖励和荣誉。
李叙潼,中国科学院上海药物研究所药物发现与设计中心博士研究生,导师为蒋华良院士和郑明月研究员。主要从事应用大数据与人工智能的药物设计研究,包括利用小分子化合物结构信息进行激酶谱预测和利用细胞转录组信息进行药物靶标发现等,参与建立了药物激酶谱活性在线预测及可视化平台KinomeX。https://doi.org/10.1021/acs.jmedchem.9b00855
1.Wu, P.; Nielsen, T. E.; Clausen, M. H., FDA-approved small-molecule kinase inhibitors. Trends Pharmacol. Sci. 2015, 36 (7), 422-439.2.Zhong, F.; Xing, J.; Li, X.; Liu, X.; Fu, Z.; Xiong, Z.; Lu, D.; Wu, X.; Zhao, J.; Tan, X.; Li, F.; Luo, X.; Li, Z.; Chen, K.; Zheng, M.; Jiang, H., Artificial intelligence in drug design. Science China Life Sciences 2018, 61 (10), 1191-1204.3.Li, X.; Li, Z.; Wu, X.; Xiong, Z.; Yang, T.; Fu, Z.; Liu, X.; Tan, X.; Zhong, F.; Wan, X.; Wang, D.; Ding, X.; Yang, R.; hou, h.; Li, C.; Liu, H.; Chen, K.; Jiang, H.; Zheng, M., Deep Learning Enhancing Kinome-Wide Polypharmacology Profiling: Model Construction and Experiment Validation. Journal of Medicinal Chemistry 2019, https://doi.org/10.1021/acs.jmedchem.9b00855.4.Zheng, M.; Liu, X.; Xu, Y.; Li, H.; Luo, C.; Jiang, H., Computational methods for drug design and discovery: focus on China. Trends in Pharmacological Sciences 2013, 34 (10), 549-559.5.Wang, Y.; Dai, Y.; Wu, X.; Li, F.; Liu, B.; Li, C.; Liu, Q.; Zhou, Y.; Wang, B.; Zhu, M.; Cui, R.; Tan, X.; Xiong, Z.; Liu, J.; Tan, M.; Xu, Y.; Geng, M.; Jiang, H.; Liu, H.; Ai, J.; Zheng, M., Discovery and Development of a Series of Pyrazolo[3,4-d]pyridazinone Compounds as the Novel Covalent Fibroblast Growth Factor Receptor Inhibitors by the Rational Drug Design. Journal of Medicinal Chemistry 2019, https://doi.org/10.1021/acs.jmedchem.9b00510.6.Martiny-Baron, G.; Holzer, P.; Billy, E.; Schnell, C.; Brueggen, J.; Ferretti, M.; Schmiedeberg, N.; Wood, J. M.; Furet, P.; Imbach, P., The small molecule specific EphB4 kinase inhibitor NVP-BHG712 inhibits VEGF driven angiogenesis. Angiogenesis 2010, 13 (3), 259-267.7.Wook, J. D.; Young Moon, O.; Young Geon, J.; Yunkyung, C.; Hyeon, L. D., The inhibition of SRC family kinase suppresses pancreatic cancer cell proliferation, migration, and invasion. Pancreas 2014, 43 (5), 768-776.8.Wislez, M., SRC-family kinases are activated in non-small cell lung cancer and promote the survival of epidermal growth factor receptor-dependent cell lines. Am. J. Pathol. 2007, 170 (1), 366-376.9.Li, Z.; Li, X.; Liu, X.; Fu, Z.; Xiong, Z.; Wu, X.; Tan, X.; Zhao, J.; Zhong, F.; Wan, X.; Luo, X.; Chen, K.; Jiang, H.; Zheng, M., KinomeX: a web application for predicting kinome-wide polypharmacology effect of small molecules. Bioinformatics 2019, https://doi.org/10.1093/bioinformatics/btz519.10.Xu, Y.; Li, L.; Wang, Y.; Xing, J.; Zhou, L.; Zhong, D.; Luo, X.; Jiang, H.; Chen, K.; Zheng, M.; Deng, P.; Chen, X., Aldehyde Oxidase Mediated Metabolism in Drug-like Molecules: A Combined Computational and Experimental Study. J. Med. Chem. 2017, 60 (7), 2973-2982.11.Lu, J.; Peng, J.; Wang, J.; Shen, Q.; Bi, Y.; Gong, L.; Zheng, M.; Luo, X.; Zhu, W.; Jiang, H.; Chen, K., Estimation of acute oral toxicity in rat using local lazy learning. J. Cheminform. 2014, 6 (1), 26.12.Xu, Y.; Liu, X.; Li, S.; Zhou, N.; Gong, L.; Luo, C.; Luo, X.; Zheng, M.; Jiang, H.; Chen, K., Combinatorial Pharmacophore Modeling of Organic Cation Transporter 2 (OCT2) Inhibitors: Insights into Multiple Inhibitory Mechanisms. Mol. Pharm. 2013, 10 (12), 4611-4619.13.Peng, J.; Lu, J.; Shen, Q.; Zheng, M.; Luo, X.; Zhu, W.; Jiang, H.; Chen, K., In silico site of metabolism prediction for human UGT-catalyzed reactions. Bioinformatics 2013, 30 (3), 398-405.14.Wang, Y.; Lu, J.; Wang, F.; Shen, Q.; Zheng, M.; Luo, X.; Zhu, W.; Jiang, H.; Chen, K., Estimation of Carcinogenicity Using Molecular Fragments Tree. J. Chem. Inf. Model. 2012, 52 (8), 1994-2003.15.Zheng, M.; Luo, X.; Shen, Q.; Wang, Y.; Du, Y.; Zhu, W.; Jiang, H., Site of metabolism prediction for six biotransformations mediated by cytochromes P450. Bioinformatics 2009, 25 (10), 1251-1258.16.Zheng, M.; Liu, Z.; Xue, C.; Zhu, W.; Chen, K.; Luo, X.; Jiang, H., Mutagenic probability estimation of chemical compounds by a novel molecular electrophilicity vector and support vector machine. Bioinformatics 2006, 22 (17), 2099-2106.17.Wang, Y.; Xing, J.; Xu, Y.; Zhou, N.; Peng, J.; Xiong, Z.; Liu, X.; Luo, X.; Luo, C.; Chen, K.; Zheng, M.; Jiang, H., In silico ADME/T modelling for rational drug design. Q. Rev. Biophys. 2015, 48 (4), 488-515.18. Apsel, B.; Blair, J. A.; Gonzalez, B.; Nazif, T. M.; Feldman, M. E.; Aizenstein, B.; Hoffman, R.; Williams, R. L.; Shokat, K. M.; Knight, Z. A., Targeted polypharmacology: discovery of dual inhibitors of tyrosine and phosphoinositide kinases. Nat. Chem. Biol. 2008, 4, 691.19. Li, X.; Li, Z.; Wu, X.; Xiong, Z.; Yang, T.; Fu, Z.; Liu, X.; Tan, X.; Zhong, F.; Wan, X.; Wang, D.; Ding, X.; Yang, R.; Hou, H.; Li, C.; Liu, H.; Chen, K.; Jiang, H.; Zheng, M., Deep Learning Enhancing Kinome-Wide Polypharmacology Profiling: Model Construction and Experiment Validation. J. Med. Chem. 2019.20. Li, Z.; Li, X.; Liu, X.; Fu, Z.; Xiong, Z.; Wu, X.; Tan, X.; Zhao, J.; Zhong, F.; Wan, X.; Luo, X.; Chen, K.; Jiang, H.; Zheng, M., KinomeX: a web application for predicting kinome-wide polypharmacology effect of small molecules. Bioinformatics 2019.21.http://dreamchallenges.org/22. https://www.synapse.org/#!Synapse:syn8404040