查看原文
其他

Nat Commun|AI结合基因表达特征,从头生成类苗头化合物

吴欣怡 段宏亮 智药邦 2022-06-15


今天给大家介绍的是 Nature Communications上基于基因表达特征,使用生成模型进行分子从头设计的文章 "De novo generation of hit-like molecules from gene expression signatures using artificial intelligence"。

作者开发了一种生成模型,该模型将系统生物学和分子设计联系起来,并用转录组数据对生成性对抗网络(GAN)进行调节。这种方法可以自动设计出能够诱导产生所需转录组学特征的分子(以极高的概率)。只需提供所需状态的基因表达特征,该模型就能够为所需靶标设计类似活性(active-like)的分子,而无需对训练的化合物进行任何提前的靶标注释。与通过基因表达特征相似性鉴定得到的分子相比,由该模型设计的分子更接近于活性化合物。
1.研究背景

化合物的化学空间非常广阔,理论上约有10^60个分子。这其中只有一小部分与药物相关,这使得药物研发过程极为艰难和漫长。最具挑战性的任务之一是识别苗头化合物(Hit),识别Hit是整个药物发现过程的重要开端,Hit通常是对特定靶标或作用环节具有足够活性(但通常较弱)的小分子。以往方法(例如组合库;高通量筛选,即HTS)的效率往往不尽如人意。随后研究人员使用计算方法和数据驱动的方法来帮助Hit识别,包括虚拟筛选(VS),以及基于逆QSAR、粒子群优化或遗传算法等方法,自动生成具有特定性质的新分子,然而这些方法总体并不是非常有效。最近AI兴起并受到广泛关注,尤其是在生成模型方面,已被广泛用于分子从头设计、化合物优化和Hit识别。但是到目前为止,分子生成模型在被设计时几乎没有考虑配体-靶相互作用的生物学结果。为此作者将GAN与转录组数据相结合,设计了一个连接系统生物学和分子设计的生成模型,该模型已被证明可以用于识别新的活性分子、药物再利用、作用方式反卷积(mode of action deconvolution)以及其他适应症中的副作用预测等。 这种方法无需活性化合物的先验知识、无需生物活性数据或靶标注释就能产生类似Hit的分子。同时,它是多功能的,同一模型可以为几个靶标或生物状态设计分子。
2.数据集

这项研究使用了最近报道的L1000 CMap数据库。该数据库包含超过25, 200个分子的诱导基因表达谱,其中约19, 800个为小分子,314个生物制品;约5075个功能被shRNA、cDNA和CRISPR改变的基因。在不同的细胞系中分析这些分子,产生约130万个个体基因表达谱,对应于约473, 000个基因表达信号。每个图谱报告了978个基因(称为Landmark基因)的表达,这些基因可以用来推断另外约12, 000个基因的表达,以便更好地了解完整转录组(更多详细信息,请参见原始论文)。
3.模型框架

GANs是强大的生成模型,整个分子生成过程可分为两个模块:生成器(generator)和鉴别器(discriminator )。生成器经过优化以产生类似于真实数据分布中的新数据点。相比之下,鉴别器经过优化以区分由生成器生成的合成数据点和来自真实数据分布的数据点。因此,在每个训练步骤中,生成器试图产生与真实数据点更相似的合成数据点时,鉴别器在区分真实数据点和合成数据点方面变得更好。 为了让配体与靶标的相互作用得以实现,作者设计出一种结合了条件GAN网络和具有梯度惩罚的WGAN-GP网络的生成模型。并堆叠了两个条件GAN,为了得到更高的清晰度又堆叠了两个生成器,其中第二个(阶段II)细化了第一个(阶段I)的结果。阶段II的设置与阶段I相似,即它也由一个生成器(G1(s0,c))和一个鉴别器(D1(x))组成。唯一不同的是,G1不取随机噪声作为输入,而是取G0(s0= G0(z,c))的输出和基因表达特征(c)。
图1:研究中使用的模型和管道的图形表示
4.实验

4.1从化合物诱导的基因表达中生成分子采用10倍交叉验证来评估方法。在每个验证分割中,每3000个特征生成1000个分子,然后将其解码为SMILES字符串。平均而言,每个特征产生约8.5%的有效分子,其中大多数(约占总数的8.2%)对应于独特的SMILES,但只有一小部分(约1.6%)被认为是易于合成的(呈现合成可及性评分< 4.5)。图2a显示了10倍交叉验证中使用的31, 821个基因表达信号中每一个所产生的有效和可合成化合物的分布。
图2a:使用化合物诱导的基因表达信号产生的分子的例子
图2b显示了每个交叉验证分割产生的分子和它们各自的参考化合物的例子,即产生用作条件的基因表达信号的化合物。研究者为每个交叉验证分别测量了参考化合物和它们在训练集中的相邻间的相似性(在分子和基因表达空间中),并没有发现明确的证据能够表明在训练中具有相似的化合物导致了与参考化合物相似的分子(即模型不仅仅是复制训练集中的分子)。另外,在分子生成中,参考化合物和训练集的基因表达谱会有很大的欧几里得距离,这样会导致和参考化合物的相似性降低。
图2b:使用Morgan指纹获得的每次交叉验证分裂产生的分子及其参考化合物的例子及其各自的Tanimoto相似性
4.2 利用条件GANs设计类抑制剂分子研究使用所有31,821种复合诱导的基因表达谱和它们相应的复合结构训练了条件堆叠的GAN。图3a示出了所有产生的分子与其最接近的已知活性邻之间的结构相似性的分布,相似性的分布主要是基于MACCS、Fraggle和Morgan指纹图谱(Stage I:蓝色,Stage II:绿色)三种方法对所有生成的分子及其最接近的活性近邻之间的结构之间的分析。
图3a :靶标敲除后基因表达谱生成的分子
图3b:一些生成分子的化学结构和它们最活跃的最邻近的10个不同目标
上述图3b可看出,在多数情况下所产生的分子共享官能团,甚至具有活性分子的类似分子支架。如从这些实施例中所见,进行基因敲除后靶标的基因表达特征,能够将分子的生成引向与活性分子相关的化学空间的特定区域。
4.3 优化长序列片段(scaffolds)
为了验证该模型方法的第二阶段是否能够优化苯环(数据集中最常见的支架),以针对不同目标的活性类化合物,研究运用SMILES—to—grammar 模型的编码器将苯环的SMILES编码成一个潜在空间表示,然后将其与所需的基因表达特征一起送入Stage II生成器(G1)(图4a)。图4b通过敲除AKT1、EGFR、ERG和TP53基因表达优化苯环生成的分子显示在虚线圈内,以及它们在圈外最近的活性近邻。
图4:利用基因表达谱对不同靶标优化苯环支架的示例
4.4  比较条件GAN和相似性搜索

为了评估生成模型相对于经典相似性搜索的可能优势,文章中比较了这些方法仅使用目标敲除的基因表达特征来寻找(或生成)活性样分子的能力。下图5a是使用相似度搜索从训练集中选出的分子或化合物,与它们最接近的已知活性分子之间的结构相似度分布。条件GAN生成的类活性化合物比通过使用目标敲除的基因表达特征进行相似搜索发现的化合物更多。图5b条件GAN(浅蓝色)与非条件GAN(蓝色)和非条件LSTM(绿色)的比较,以产生特定目标的化合物。
图5:基于相似性搜索和非条件模型的条件GAN基准测试
5.总结
作者设计了一种基于条件GAN的方法,该方法根据特定的基因表达特征生成新的分子,具有优于当前分子生成方法的一些优势,以及开发化合物诱导基因表达数据中包含的所有信息的替代方法,特别是L1000数据库中的信息。该方法不依赖于靶标注释或活性数据,这使得它在这些信息不可用的情况下非常有用,比如在靶标脱孤项目中。
必须指出的是,这种方法仍有改进的空间,例如评估它是否可以应用于先导物优化,或者找到产生具有已知结构特征的化合物的方法,这些结构特征与特定药物靶标的活性相关。此外,作者正计划扩展这种方法,以自动生成具有多靶点特征或能够逆转毒理学相关或疾病相关基因表达特征的分子。
参考资料
O Méndez-Lucio,B Baillif,DA Clevert,D Rouquié,J Wichard,De novo generation of hit-like molecules from gene expression signatures using artifificial intelligence,Nat Commun.DOI: 10.1038/s41467-019-13807-w

----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向






历史文章推荐    


浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
浙工大智能制药研究院院长段宏亮|AI制药方兴未艾,未来可期
CHEM SCI|分子Transformer模型预测酶促反应
Transformer-CNN:用于 QSAR 建模和解释的先进工具
基于文本表示推断化学反应的实验步骤
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Drug Discov Today|药物研发风险地图

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存