JMC | 跳出DNA编码化合物库，AI赋能Hit发现新策略

Original 0ut0fcontrol 唯信计算 2022-06-15

收录于合集 #人工智能/深度学习 94个

引言

每次DEL筛选都会产生海量的数据，传统方法是从大量潜在的hit中挑选化合物，并合成不带DNA的化合物(off-DNA synthesis)进一步检测结合活性。数据分析的规模受人力和合成的限制，Hit的来源也被局限在DEL中。利用DEL筛选产生的海量数据（未进行off-DNA合成和验证），训练具有泛化能力的GCNN模型，跳出DEL，从商业化合物库和易于合成的虚拟化合物库中筛选hit并快速验证。作者用这种策略在3个靶点上都获得了很好的结果。碍于篇幅，本文不会介绍太多细节，而是尝试理解为什么GCNN模型对DEL外的化合物有预测能力（泛化能力）。

先睹为快

单位和作者

Google和X-Chem公司

Google的Patrick Riley为通讯作者，是第一个图神经网络通用模型MPNN的三作。

靶点

sEH，ERα，c-KIT

训练集

DNA编码化合物库（DEL）筛选数据（未进行off-DNA合成和验证）

模型

图卷积神经网络（GCNN）和随机深林（RF）

筛选库

商业化合物库（Mcule）和虚拟化合物库（XVL，来自X-Chem）

结果

最好的靶点(sEH) hit rate (< 1 μM) 高达29%, 最差的靶点(c-KIT)也找到78个hit (< 30 μM)。

GCNN比RF有更好的泛化能力

模型训练数据来源于DEL筛选，简单来说，X是两个片段的组合(disynthon), Y是它是否被富集。但应用于DEL外的化合物库筛选，这要求模型有泛化能力。

RF模型用分子指纹（RDKit中的ECFP4）作为特征；GCNN则把分子当作图自动学习特征。可以看到3个靶点中，GCNN表现都比RF要好，说明GCNN泛化能力更强。但RF也能预测Hit，在sEH上表现和GCNN相差不大，说明这类任务可能没有想象中那么难。

GCNN能更好地学习化合物的局部特征

文章补充材料中展示了训练集(DEL)中和Hit（不属于DEL）最相似的化合物，可以看到大部分Hit和DEL中化合物尽管整体相似度（Tc）很低（0.2~0.4），但有局部完全一致。推测GCNN对DEL外的化合物有预测能力来源于这种局部相似性，且GCNN需要学到该局部特征和活性相关。由于DEL数据量巨大，这种的信息很难被分析人员全部捕捉，但GCNN可以全部学习到这些特征，并应用于筛选。

总结

AI模型需要大量数据训练，该工作用海量DEL数据训练AI模型，并应用于化合物库的筛选, 可以说是相得益彰。即解决了DEL数据分析的问题，而且跳出了DEL的限制，还极大降低了合成化合物的成本，相信能助力hit的快速发现。

参考文献

Kevin McCloskey, Eric A. Sigel, Steven Kearnes, Ling Xue, Xia Tian, Dennis Moccia, Diana Gikunju, Sana Bazzaz, Betty Chan, Matthew A. Clark, John W. Cuozzo, Marie-Aude Guié, John P. Guilinger, Christelle Huguet, Christopher D. Hupp, Anthony D. Keefe, Christopher J. Mulhern, Ying Zhang, and Patrick Riley*. Machine Learning on DNA-Encoded Libraries: A New Paradigm for Hit Finding. J. Med. Chem. 2020. DOI: 10.1021/acs.jmedchem.0c00452

相关文章

喜欢我们的内容记得给个“三连”-关注、在看、转发

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

疯传！广州地铁突发！警方介入

妹子穿小一号的牛仔裤，老司机看完也收不住

JMC | 跳出DNA编码化合物库，AI赋能Hit发现新策略

Nature | 从1.5亿分子库中虚拟筛选发现调节昼夜节律的褪黑素受体激动剂

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

疯传！广州地铁突发！警方介入

妹子穿小一号的牛仔裤，老司机看完也收不住

生成图片，分享到微信朋友圈

JMC | 跳出DNA编码化合物库，AI赋能Hit发现新策略

Nature | 从1.5亿分子库中虚拟筛选发现调节昼夜节律的褪黑素受体激动剂

您可能也对以下帖子感兴趣

你手放哪呢，出生啊