查看原文
其他

15小时虚拟筛选10亿分子,《Nature》+HMS验证云端新药研发未来

灵魂工作室 速石科技 2020-12-18
一种新药从开发到获得批准平均成本为20亿-30亿美元,至少耗时10年
这句话,药物研发领域的人大概都听累了。

为什么这么难?
1. 湿实验昂贵而费时;
2. 初始化合物命中率低;
3. 临床前阶段的高损耗率。

今年3月,哈佛大学医学院(HMS)的研究人员在《Nature》杂志发表了论文《An open-source drug discovery platform enables ultra-large virtual screens》,描述了一个叫做VirtualFlow的开源药物发现平台,能通过云端整合海量的CPU对超大规模化合物库进行基于结构的虚拟筛选,提高药物发现效率。

论文作者Christoph Gorgulla称,在一个CPU上筛选10亿种化合物,每个配体的平均对接时间为15秒,全部筛完大概需要475年,而HMS利用VirtualFlow的平台,调用160000个CPU对接10亿个分子仅耗时约15小时,10000个CPU则需要两周。



听起来非常吸引人。
抱着给某CRO公司虚拟筛选的7.8亿个分子,我们心里有点高兴。
当时,我们调用了云上几万个core来筛选,计算时长也仅花费了3-13个小时(每个Core上所需时间不一样)。

限于算力,或者高效灵活地调用大规模计算集群的能力,当前的虚拟筛选通常仅采样百万到千万个分子,而事实上目前可用于药物发现的有机分子已经超过10的60次方。

注:湿实验室(Wet Lab)主要靠的是做实验,干实验室(Dry Lab)主要是计算机模拟和计算。

HMS的论文主要论证了两点:
1、虚拟筛选的规模越大,筛选的化合物越多,真阳性率越高;
2、线性扩展能力+云平台=无限可能。
  

超大规模筛选可提高真阳性率


论文推导了真阳性率与所筛选化合物数量的的函数关系的概率模型,证明:化合物的最高打分随着规模增加而提高。

作者分别从10万、100万、1000万、1亿、10亿个化合物中进行了5次筛选,挑选了得分最高的前50个化合物进行对比,从图中可以很清楚地看到筛选的规模越大,得分越高(位置越靠上)。


分子化合物的质量会随着虚拟筛选规模的扩大而提升
图片来源:《Nature》
 
虚拟筛选规模可以通过两种不同的方式提高初始命中的质量:
1. 通过识别具有更紧密结合亲和力的化合物,从而降低剂量,减少脱靶效应;
2. 通过发现具有更好的药代动力学和/或更少固有细胞毒性的化合物。

为了验证大规模筛选的准确性,研究人员选择了肿瘤研究领域热门的KEAP1蛋白作为虚拟筛选靶点,对含有13亿配体的数据库进行了虚拟筛选。通过两个阶段的筛选,HMS选出了约1万个打分优秀的分子。
随后,研究人员从成药性、配体效率、化学多样性以及获取难度等方面在这约1万个候选分子中挑选了590个苗头化合物进行活性验证,最终给出了两个活性达到毫微摩尔级的代表性化合物iKEAP 1和iKEAP 2的多种实验结果,验证了VirtualFlow在对接10亿以上分子量时的高效性。
 

线性扩展+云平台=无限可能

 

可线性扩展的意思是说,处理器数量增加一倍,筛选能力也会增加一倍。

为了论证这一点,HMS本地和云端均进行了测试
 
本地计算集群LC1由18,000个CPU(分别为Intel Xeon和AMD Opteron处理器的不同型号)异构组成;本地集群LC2上则有30,000个英特尔Xeon8268处理器。
 
云端则选择了GCP和AWS,最多调用了160,000万个CPU(作者并未阐述在云端使用的CPU型号)。实验表明VirtualFlow在多种情况下均体现了良好的线性可扩展性,具体可看下图(图中并未描述平台在AWS上的表现)。
 
VirtualFlow在不同情况下呈现出的线性可扩展性
图片来源:《Nature》
 
而这种近乎无限的线性扩展性意味着什么?
即便在今后的实际应用中并行数百万个内核,VirtualFlow的性能效率也不会受到其他因素的拖累。如果你拥有一个300核的计算机集群,你可以在六周内筛选1亿个化合物,而如果你有1,000核,那么两个星期内就可以完成筛选。
 


这个开源的VirtualFlow平台到底是个啥?


这个项目由哈佛大学医学院牵头,整体仍处于较新的阶段。VirtualFlow平台旨在利用超级计算能力并行筛选潜在的有机化合物结构,以寻找有希望的新药物分子。

VirtualFlow在虚拟筛选中的作用过程
图片来源:《Nature》
 
VirtualFlow平台主要分为VFLP(配体制备)和VFVS(虚拟筛选)两个模块,VFLP负责分析目标的化学空间构型(图中上半部分的蓝色箭头),再由VFVS根据事先预设好的靶点经过一次或多次虚拟筛选之后,最终获得先导化合物。
 
目前已知的平台特性包括:
1. 用Bash编写,完全开源、免费;
2. 目前支持的应用包括:AutoDock Vina、QuickVina 2、Smina、AutoDockFR、QuickVina-W、VinaXB和Vina-Carb;
3. 暂时不支持GPU;
4. 支持AWS、GCP、Azure在内的主流云计算平台。

这很棒。

但开源平台,不是你想拥抱就能拥抱。
VirtualFlow拥有较高的使用门槛,你可能需要懂点代码,懂点调度器,再懂点集群,还要熟悉各个云平台等等。
VirtualFlow使用界面
图片来源:https://virtual-flow.org/
 
药物研发向来是皇冠上的明珠,HMS这篇论文验证了应用云平台的确能带来新药研发效率的提升,时间和金钱成本上的大量缩减。

中国人自己的创新药+云,我们可以期待一下。

(点击“阅读原文”可查看原论文)

 END -
扫码添加小F微信(ID: imfastone)获取《云工具包3.0》。
你也许想再了解一下:

上榜啦~花费4小时5500美元,速石科技跻身全球超算TOP500

【2020新版】六家云厂商价格比较:AWS/阿里云/Azure/Google Cloud/华为云/腾讯云

2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC领域年均复合增长率超21%

灵魂画师,在线科普多云平台/CMP云管平台/中间件/虚拟化/容器是个啥

EDA上云一线操盘手开播:云端架构如何实现弹性可扩展?

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存