查看原文
其他

药物发现神经网络:方兴未艾? | 彼岸

2017-04-19 叁陆肆期 研发客


Human Concretion, 1935

Jean(Hans) Arp(阿普)


远行者说


本期文章是《彼岸》专栏《洛氏争鸣》系列的第三篇。洛博士在这篇博文中将他的关注点从化学移到了生物,讨论斯坦福大学维杰潘德(Vijay Pande)教授和谷歌团队在2015年合作发表的一篇论文,以机器学习来分析药物发现的数据。这是一个通过深度学习挖掘大数据的新颖方法。洛博士坦诚地分享了他对这一新方法的分析和疑虑。在文末我摘录了一些读者的评论,大多数持怀疑态度。


尽管新药发现的过程需要复杂的实验和大量精密的仪器,但核心决策以及数据解读还是依赖药物发现者的经验。行业之外的教授试图通过电脑算法来挑战这样一个靠传统经验积累来进行决策的领域,试图用大数据和机器学习的方法来完成本来只有人类可以从事的工作,这种尝试无疑挑战了传统思维,也激发了众多新药研发专家之间的争辩。


一方面,深度学习是新兴领域,方法学还不完备,尤其是针对药物发现的应用还在早期阶段。其次,正如洛博士和他的博文读者们均指出,机器学习的结果好坏取决于数据的质量。如果输入机器学习的数据质量不高,那么最后计算得出的结果也不可能很准确。所以,针对这一方面的学术探索性研究精度和深度都有待提高。


值得注意的是,2017年4月初,潘德教授及其团队发表了最新研究成果,将深度学习领域中的最新分支——一次学习(one short learning)首次应用于药物研发领域。在过去两年中,深度学习从专业学术词汇,因为谷歌AlphaGo 在围棋领域的空前成功,变成了家喻户晓的时髦语汇之一。人工智能领域的飞速发展,令人侧目。对于洛博士在太平洋两岸的读者们和新药研发的同行,像深度学习这样的新生事物的诞生会带来新的机会和冲击。让我们拭目以待。



撰文 | 德里克•洛 


很多年以来,大家做了很多尝试,力图汇集大量的生物学和药物活动数据,通过计算筛出数据,提出人眼难以辨识的洞见。体内有如此多的药物靶标,功能各异,有多得可怕的成千上万个化合物的信息,因此这是自然可以想见的事情。人作为观察者,无法注意到这些正在发生的事情的方方面面; 你需要不知疲倦的软件去遍历多个数据堆筛选。


但是,这种事情的成功记录喜忧参半、五味杂陈。现在可以将早期的尝试视为统计学强度不足,姑且不论,不妨看看现在的“虚拟临床试验”和类似的尝试究竟如何?(对于诸如此类的事情,我们可能仍然处于统计学强度不足的阶段)。不那么雄心勃勃的是,人们一直寻求通过搜遍大数据来挖掘新靶标和新药活性。但对这类事情并非没有争议:我们中的很多,化学家和生物学家也一样,不具备数学背景去评价这些正在使用的方法是否适用,或者其弱点和盲点究竟如何。


一篇新的论文让我再次思考这一切。这篇论文是斯坦福大学和谷歌的几位研究者在药物发现机器学习领域的合作成果。这篇论文意味着他们正在努力改进虚拟筛选技术,使用以谷歌为中心的方法,可以将其总结为“更多的数据!”(可惜,文中并未出现这一短语)。


就这类事情,我最后产生了几种思路。在第一条思路上,我明白,由于有很多因素起作用,如果虚拟筛选工作顺利,需要从可能的最大数据集中抽取出来。但在第二条思路中,我不知道进入这个数据集的数字究竟有多好,因为无论是在个人交流还是公开发表文献中,我(像其他所有局内人一样)已看到了一些非常垃圾的筛选数。即便你的硬件有能力处理这样的填埋场规模的数据,在计算中堆积更多噪声,也不能获得改善。作者确实注意到,他们没有对数据集进行任何预处理来消除潜在的赝像。数据来自四个主要来源(其中只有一个可能勉强企及这一水平。这使得我们进入到第三条思路:当我看到大量数据集如何令人难以置信地大的谈论,以及所有的计算是如何令人难以置信地高强度时,我与生俱来的(无疑这有些不公平)质疑油然而起。


对这不要太过含糊其辞,希望针对一些目标的虚拟筛选,就像要求从A点到B点挖一条沟。你能够挖沟,还是挖不了?它去向设想的地方了吗?应该希望一条沟做什么? 如果是这样,那么不妨做个形象的类推,我并不在乎为了工作你们把多少训练有素的獾赶到一起,或者在乎你们租用的土方设备的马力和燃料要求。如果有人花了很多时间告诉我这些事(那些引擎如何如何!那些獾如何如何!),那么我想知道,他们是否试图把我的注意力从真正重要的最终产物这件事情上引开。



这些论文的最大问题之一(正如本文明确指出的),在于用于评估这些体系性能的标准并不规范。由于采用不同的系统评分,因此基本上不可能将一个分析与另一个分析比较。但是,这一图形给出了一些对不同靶点类型如何行之有效的想法。Y轴是使用多任务模型(如这篇论文)和单任务神经网络模型之间的区别,表明在大多数情况下,在大部分时间中多任务模型更好。但我注意到,几乎每个类型都有一些hold不住的个案,而且(由于未知的原因),G蛋白偶联受体(GPCR)靶点似乎改善最小。



 读者评论(节选)



 睡神许普诺斯(网名:Hypnos):谷歌非常擅长为这项工作造势。然而,虚拟筛选往往只能在一定程度上发挥作用——报告范围的浓缩因子在实际应用中只是勉强相关。如果我希望将筛选化合物库减小10倍,我还可以开展一些属性过滤,然后再是不同的子集选择。

尤其是,如果考虑到与简单的普通高通量筛选批相比,50M CPU时间的成本。

2015年3月4日下午3:24


 阿侬瑙(网名:anonao):      

@hypnos你知道谷歌做50M CPU小时花费如何?高通量筛选成本如何(购买和筛选200 /300k化合物)?

2015年3月4日下午4:53


 奶昔(网名:milkshake):      

垃圾进去,垃圾出来。我以前的计算机化学老板为一家尝试开发“虚拟对接”软件的公司提供咨询。每次当他对自己熟悉的激酶尝试自己的软件包时(激酶倾向于有一个深度大和明确的喜欢杂环的结合位点,有许多公开发表文献中配体数据可用),虚拟对接都产生了令人印象深刻的无用东西列表,而错过多个重要的相互作用。我甚至不考虑及结合位点的塑性和熵效应的事情......

2015年3月4日下午5:25


 李亨(网名:LeeH):      

维杰潘德(Vijay Pande)是一个非常聪明的小子,对于他的这篇文章我有一些关注/疑问。

他们为什么选择这些特定的数据集?  例如,为什么不使用chEMBL,这可以说是全球最广泛和最干净的公开提供的数据集?为什么它们包含一个非常接近于无法建模的毒性数据集(所有方法或多或少地难以保证)?

他们将化合物标记为活性或非活性的标准是什么? 是单纯的编号,还是按靶点选择?

他们对其他数据挖掘方法(例如随机森林,Random Forests)采用什么参数? 他们是否优化了这些数据集的参数?

最后,德里克,我认为通过突出强调深度学习与标准神经网络的比较是本文正文的重点关注,而与其他方法的比较被降级到次要地位,你确实揭示了这篇论文正文中的一个弱点。

2015年3月4日下午6:55


 睡神许普诺斯(Hypnos):      

@anonao:我不知道他们的内部成本是多少。但是,如果你采用https://cloud.google.com/products/calculator/计算,则最终的成本至少在50万~100万美元的范围内。(对于高性能硬件来说更昂贵。)

我猜想这远远不是大中型制药公司一次高通量筛选试验的成本。(当然假设你已经有化合物了。)请注意,无论如何你仍然需要建立监测方法,检定并筛选大量化合物。

2015年3月5日上午2:42


 匿名:      

“但是,这种事情的成功记录喜忧参半、五味杂陈。”

非也。 它已经完全没有用了。纯属垃圾。而且,随着大数据和其它的到来,我也不会很快看到这种变化。是一个无底洞,会把你的资产负债表吸干。越陷越深,难以自拔。

原因何在?因为有30亿个潜在变量(遗传碱基对)可以独立和组合变化,而地球上只有70亿人可供观察 —— 这是假设你可以表征和测定我们每一个人序列的情况下。

用更多数据检验更多的假设将确实可建起更多的潜在相关性,但是这些相关性的更大部分将变得毫无意义,成为纯属巧合不可再现的结果。所以我们最终还是依靠实验来采集更多数据,依次对每个假设进行检验。

看看族系误差率和Bonferri校正。

大数据就是一个神话。

2015年3月5日上午8:03



原文:

http://blogs.sciencemag.org/pipeline/archives/2015/03/04/neural_networks_for_drug_discovery_a_work_in_progress


原文献:

Massively Multitask Networks for Drug Discovery

B. Ramsundar et al. (2015)

Preliminary work. Under review by the International Conference

on Machine Learning (ICML). 



责编 | 胡小洁 

Hu.Xiaojie@PharmaDJ.com



点击题目阅读彼岸洛氏争鸣系列其余文章


系列之一(第叁肆陆期)

合成方法的终结

系列之二(第叁伍零期)

万能的化学合成机器?



点击题目阅读彼岸|系列综述


新药猎手 系列综述

药物发现方法学的演进

河东河西 系列综述

首创新药与最佳跟进式新药的商业价值与研发风险

布氏心法 系列综述

美国生物科技风险投资家布斯的行业观察与心得体会

神机妙算 系列综述

Edge网站2015年度之问:机器智能

九死一生 系列综述

新药研发损耗率的变迁及相应研发策略

精挑细选 系列综述

新药研发项目组合的管理

耳听八方 系列综述

有关创新、领导力和内在修养的话题集锦

千钧重负 系列综述

新药研发成本的演进和增长




点击“阅读原文”订阅 研发客 期刊


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存