其他
Nat Biotech|北京大学谢正伟:利用深度学习从转录谱中预测药效
摘要
基于靶标蛋白的药物研发是一种成功的策略,但许多疾病机理或者发病机制不明确。为了克服这一挑战,该研究描述了一种基于深度学习和基因指纹的药效预测系统 (DLEPS),该系统使用疾病相关基因表达谱的变化作为输入来识别候选药物。DLEPS 使用 L1000 项目中化学诱导的转录谱变化进行训练。该研究发现,以前未知的转录谱的变化Pearson相关系数被预测为 0.74。该研究在3种代谢性疾病中进行了验证,并通过小鼠疾病模型测试了候选药物。验证表明,竹节参皂苷IV、紫苏烯和曲美替尼可能分别对肥胖、高尿酸和非酒精性脂肪肝炎产生疗效。DLEPS 还可以深入了解致病机制,该研究证明MEK-ERK信号通路是开发抗非酒精性脂肪肝炎药物的靶标。总而言之,DLEPS 是一种药物发现和重定向的有效工具。
前言
深度学习在不同应用领域(例如自然语言处理、计算机视觉等)的最新进展表明,高级算法对于评估化学物质在分子编码、化学合成路线和抑制剂靶标等应用中具有预测潜力。结合在计算化学领域开发的资源,这些深度学习工具正在改变化学和药物研发的格局(例如能够对广阔的化学空间进行快速采样,并允许研究人员对结构-功能关系进行准确预测)。在过去的几十年间,专注于靶标蛋白的药物发现是一种成功的策略,但许多疾病和生物过程缺乏明显的靶标来实现这种方法。开发治疗这些疾病的药物的一种策略是生成一个能够独立于特定靶标的预测疗效的模型。最近的一项研究表明,一种基于深度学习的模型发现了治疗大肠杆菌感染的抗生素候选药物。然而,这种模型是根据具体情况建立的,并依赖于特定于单一疾病状态的表型数据;也就是说,它缺乏推广到其他疾病的能力。鉴于大多数疾病都与基因表达谱的特征性变化(CTPs)有关,因此这类变化被用作反映疾病潜在机制的指标,这一假设体现在连接性图谱(CMap) 概念中。然而,CMap 仅适用于其转录谱已经通过实验评估的分子。研究人员设想,如果有一种化学-转录谱变化模型,能够用来无限的预测小分子,将更容易开发大多数疾病的有效药物。首先,研究人员使用simplified molecular-inputline-entry system (SMILES)化学编码作为输入,构建了一个神经网络,以拟合在 L1000 项目中测量的CTP。其次,使用特定于病理背景的基因特征,采用基因集富集分析(GSEA)来评估化合物对这些疾病的潜在疗效,并将这种方法和模型称为DLEPS。方法
首先作者使用多种化合物培养细胞的数据构建了预测CTPs的神经网络,其中使用SMILES化学编码输入,将小分子的结构进行编码,接着转化为语法树,最终转化为高维空间中的一个点。高维空间的坐标向量进一步预测978个标记基因,然后对超过12,328个基因进行预测。紧接着,选择了能反映特定疾病“内在痕迹”的上调/下调的基因特征,并使用其对小分子进行打分,选择最优小分子进行细胞或动物实验。整个过程需要2个输入:化学小分子库与用于打分的基因集合。作者使用了17,051个小分子的CTP数据库进行最初模型的训练,训练过程中模型很快收敛,在训练集与测试集上都有很好的拟合。DLEPS有2个特征,一是可以精确预测新结构小分子诱导的基因表达谱变化,二是可准确区分结构非常相似甚至只差一个化学基团的小分子诱导的基因表达谱差异。结果
DLEPS系统可以准确预测化学小分子对CTP的影响,训练集和测试集中CTP预测值和真实值的平均相关性分别为 0.90 和 0.74。图2 DLEPS训练结果
肥胖
图3 I/L/C促褐变减肥
高尿酸血症
图4 天然产物紫苏烯降尿酸
非酒精性脂肪肝炎
结论
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点
Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展
Drug Discov Today|量子计算在药物发现中的潜力:早期的行业动态
Drug Discov Today综述|分子从头设计和生成模型
郭天南|人工智能+蛋白质组学:药物研发的生物学底层变革
Nature:优于联邦学习的医疗数据共享技术Swarm Learning及应用案例
人工智能在药物研发中的应用
Nat Biomed Eng:利用深度学习从抗体序列中预测抗原特异性,优化抗体药物
进入临床试验的AI设计的药物 汇总V1.0
利用量子理论加速药物发现的18家初创企业