查看原文
其他

DrugCLIP | 打通蛋白小分子界限、迁移模型的新尝试

刘安吉 北京生物结构前沿研究中心 2024-05-21

星标,再也不怕错过更新!方法见文末动图。


在计算机辅助药物发现(CADD)领域,虚拟筛选是一项关键的技术。它使用计算方法从庞大的化合物库中搜索候选药物结构,目的是找到最有可能与特定靶点(例如蛋白受体或酶)结合的分子。今天给大家带来的这篇文章《DrugCLIP: Contrastive Protein-Molecule Representation Learning for Virtual Screening》,将在图像文本领域表现非常出色的CLIP模型,迁移到了蛋白小分子领域,打通了蛋白质小分子之间的界限,做出了迁移模型的新尝试。结果表面,DrugClip能以更快的速度取得比现有方法(分子对接)更好的结果。



人类与疾病的对抗从未停止。随着现代医学的发展,药物成为了对抗疾病快速且高效的方式,人类也一直致力于开发有针对性的药物,来延长寿命,减轻痛苦。一开始,药物的发现主要依赖于实验的筛选。但是可能成药的小分子的数量太多,仅仅通过实验进行药物筛选需要耗费太多的人力、物力和财力。随着计算技术的发展,计算机辅助药物发现(CADD)也得到了进一步的发展。虚拟筛选是CADD中的一项关键技术,它使用计算方法从庞大的化合物库中搜索候选药物结构,目的是找到最有可能与特定靶点(例如蛋白受体或酶)结合的分子。传统的思路认为“库越大越好”(bigger is better),道理在于搜索的库越大,找到匹配药物候选物的机会就越大。例如,数据显示,从105增加到108的数据规模会在前1000个结果中显著增加真实配体的数量。


药物发现的发展历程


现在针对虚拟筛选的研究主要分为两个流派:分子对接和监督学习。分子对接除了预测小分子是否与蛋白质结合,还预测小分子在蛋白结合口袋中的结合能量、最佳取向和构象。其中需要应用遗传算法和蒙特卡洛算法等采样算法,探索配体和蛋白受体的构象空间,生成一组候选配体姿态。然后,这些候选姿态通过分子-蛋白评分函数(如经验力场)来评估它们的结合亲和力。这个迭代过程持续进行,直到收敛,这对计算资源的要求很高。


通过分子对接进行虚拟筛选的示意图


为了加速这个过程,基于监督学习的方法也被用来进行虚拟筛选。通过在给定的结合亲和力标签上进行训练,一系列模型(例如DeepDTA1,OnionNet2,GraphDTA3,SG-CNN4等)可以学习蛋白与小分子的表征,并进行排序。但由于训练数据有太多的正样本,所以模型的假阳性普遍很高,模型的泛化能力较低。


基于监督学习的虚拟筛选方法


针对现有虚拟筛选方法存在的问题,本文作者重新思考了虚拟筛选这个任务的目标。在使用分子对接方法进行虚拟筛选的过程中,需要考虑对于一个靶点,小分子是否能结合,小分子如何结合(构象与结合位姿),以及相对的结合亲和力。小分子如何结合是分子对接所关注的目标,小分子与靶点的结合亲和力是监督学习关注的目标。但本文作者提出,其实对于虚拟筛选的任务,问题的核心在于给定一个蛋白质靶点,我们需要小分子库中哪个小分子能与这个靶点结合,仅此而已。按照这种想法,本文就把虚拟筛选转化成了一个信息检索任务——给定一个蛋白质口袋,从一个超级大的小分子库中,找到最相关的小分子。所以,可以通过把小分子和蛋白质进行表征,再比较两者的相似度的方法来实现,而这是非常适合对比学习(contrastive learning)的使用场景。


DrugCLIP与传统虚拟筛选的对比

 

对比学习中最出彩的工作之一就是2021年2月OpenAI发表的CLIP(Contrast Language-Image Pre-training)5,这篇工作使用对比学习的方法,用很简单的方法,打通了文本图像之间的界限,达到了迁移模型的新高度。而本文的DrugCLIP的工作,则是打通了蛋白和小分子之间的界限,继承了CLIP的思想,但在药物发现领域做出了新尝试。



一句话总结CLIP的工作:方法出奇地简单,但是效果出奇地好。下图中左图即为CLIP的核心实现伪代码,右图是模型的出色性能。


CLIP模型图

 

那CLIP是什么呢?CLIP首先是一个预训练模型,也就是说,它先在一个大数据集上训练模型,然后可以应用到其他的任务上。

 

那CLIP是怎么进行预训练的呢?我们可以从自然语言的一些监督信号,训练一个可以迁移效果很好的视觉模型,所以很自然的,CLIP是一个牵扯文字-图片的一个多模态的工作。

 

那CLIP是怎么利用来自文字这边的监督信号的呢?在训练过程中,模型的输入是一个图片和文字的配对。在图中,图片是一个小狗,上面的文字也写的是小狗。然后图片进入图片的编码器,文字进入文字的编码器。假设我们一个训练过程中有N个图片-文本对,我们就会得到N个照片的特征,和N条文本的特征。CLIP就是在这些特征上做对比学习。对比学习非常灵活,它只需要一个正样本和负样本的定义。在这里,对角线上的就是正样本,其他地方都是负样本。对角线上的都是配对的图片-文本对。这明显是一种无监督的训练方法。这样训练肯定需要很大的数据集,OpenAI为了这个任务特地创建了一个数据集,里面有4亿个图片-文本对。

 

那CLIP怎么去做zero-shot的推理呢?CLIP预训练的过程中,只是提取了图片和文本的特征,并没有专门的一个分类头,所以没法直接分类。作者在这里用了一种很巧妙的方法,只需要利用自然语言,叫做prompt template。先把词变成句子,句子经过预训练好的文本编码器,就能得到文本特征;图片也得到特征,和文本特征之间计算cosine similarity。最相似的那个,就可以被挑出来,完成分类任务。

 

可以说,CLIP彻底摆脱了categorical label,能够预测出几乎任意类别。

 

那从CLIP回到这篇DrugCLIP。

 

DrugCLIP模型图

 

DrugCLIP采取了和CLIP类似的方法,在输入数据方面,把图片文本对变成了蛋白质口袋-小分子对,并且对于蛋白质口袋和小分子分别进行编码。一方面,将蛋白质口袋通过3D Pocket编码器抽取特征,对于小分子通过3D Molecule编码器抽取特征,再将两个特征进行对比。总体思路和CLIP一致。

 

接下来看各个模块。首先是编码器模块。

 


编码器模块采用了人大和深势科技联合开发的Uni-Mol模型对蛋白质和小分子进行编码。编码的过程,如图中右侧部分所示。小分子和蛋白质口袋中的原子信息都用一个向量来表示,这个向量只包含了原子的三维坐标和原子类型。为了在向量表示中加入结构信息,作者团队还加入了qij,用来维持分子结构的稳定。最后训练的过程也采用了和BERT相同的掩码的“完形填空”式自监督学习。

 

在对比学习中,需要判断分子编码器中抽取的特征和蛋白编码器中特征的相似度,从而对与这个蛋白“相关”的小分子进行筛选和排序。常见的衡量相似度的方法有点乘法和余弦相似度法,CLIP原文中采用的是余弦相似度法,而这里采用的是点乘法。

 

同时,为了增加样本中的负样例,DrugCLIP也和CLIP一样,采取了in-batch采样方法。同时,还分别针对Pocket-to-Mol和Mol-to-Pocket定义了损失。

 


数据集方法,DrugCLIP采用了三个数据集。从大到小分别是PDBBind,BioLip和CHEMBL。前两个数据集是虚拟筛选任务常用的数据集,但是相对来说比较小,无法支持DrugCLIP如此大的模型的训练。所以研究团队从CHEMBL这个巨大的小分子数据库中,筛选了含有一个已知口袋的蛋白质,并与已报道的小分子进行配对。这里的配对只提供了配对信息,并没有结构信息。这个数据集可以说是这篇工作的精髓,完全符合作者提出的把虚拟筛选看作是一个信息检索问题的想法——只需要知道蛋白小分子是否结合,并不太关注具体的结合构象。

 

另外,作者还做了一步数据增强。对于蛋白质来说,常规视觉领域的数据增强通常会导致蛋白并不处在能量最低的状态,或者直接产生一些化学上就不合理的蛋白质结构。所以作者提出了HomoAug的数据增强方法,本质就是找和目标蛋白质相似的蛋白质。方法也比较简单,先取出pocket的结构和序列信息,将序列作为query去AlphaFoldDB中进行搜库,找同源的蛋白,再对这些找到的蛋白用TM-align做结构相似性比对,取出其中较为相似的蛋白质作为有效数据,从而实现数据增强。

 


DrugCLIP在很多数据集上的表现都非常好,几乎都达到了state-of-art的结果。

 


同时,DrugCLIP拥有超级快的推断速度。在两个场景中,都比分子对接方法和有监督学习快了好几个数量级。并且,这么快的速度,也使得DrugCLIP能够在更大的小分子库中进行筛选。

 


那究竟是哪个因素导致了DrugCLIP有这么好的性能?作者也做了对应的消融实验。发现数据增强、Rdkit的构象生成、CLIP这个对比学习的框架、以及Uni-Mol的预训练的编码器都对性能提升有帮助。

 


 CLIP的对比学习框架对模型性能的帮助可以可视化:下面两组图中左边都是使用对比学习的DrugCLIP,右侧则是其他条件不变,但是不使用CLIP框架的DrugBA。图中是抽取出输出层的embedding做的t-SNE降维,发现DrugCLIP学出的特征非常分散,而DrugBA学出的特征非常聚拢。这说明DrugCLIP能够做到“具体情况具体分析”,而DrugBA则是“死记硬背,不会灵活变通”。

 


最后,作者想验证一下DrugCLIP筛选得到的结果是否可靠。发现通过表现最好的DrugCLIP-L模型产生50个化合物,传统分子对接产生了50个化合物,混合在一起,交给药学专家判别,发现在给定的5个靶点中,其中四个靶点,药学专家都选择了更多DrugCLIP筛选得到的小分子。



这篇文章的亮点在于他们开发的工具DrugClip可以很快速而且很准确的实现虚拟筛选的任务,他们使用了对比学习的框架,将结合口袋和小分子进行比对,达到了比传统的分子对接的方法更好的效果。并且,因为速度快,DrugCLIP会赋能更大规模的药物筛选工作,未来有很大的潜力。


供稿 | 刘府金

责编 | 囡囡

设计 / 排版 | 可洲 王婧曈




微信号:FRCBS-THU

因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群

原文链接

https://arxiv.org/abs/2310.06367

参考文献

参考文献

1. Öztürk, H., Ozkirimli, E. & Özgür, A. DeepDTA: Deep Drug-Target Binding Affinity Prediction. Bioinformatics 34, i821–i829 (2018).


2. Zheng, L., Fan, J. & Mu, Y. OnionNet: a multiple-layer inter-molecular contact based convolutional neural network for protein-ligand binding affinity prediction.


3. Nguyen, T. et al. GraphDTA: Predicting Drug–Target Binding Affinity with Graph Neural Networks. http://biorxiv.org/lookup/doi/10.1101/684662 (2019) doi:10.1101/684662.


4. Jones, D. et al. Improved Protein-ligand Binding Affinity Prediction with Structure-Based Deep Fusion Inference. Preprint at http://arxiv.org/abs/2005.07704 (2020).


5. Radford, A. et al. Learning Transferable Visual Models From Natural Language Supervision. Preprint at https://doi.org/10.48550/arXiv.2103.00020 (2021).



精彩回顾

精彩回顾


特别提示

微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!

方法超简单,只需3秒钟!


点击上方卡片

关注我们吧


THE END

我知道你“在看”


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存