查看原文
其他

计算出太多太多新化合物 | 彼岸

2017-05-31 叁玖叁期 研发客


Ptolemy, 1953

Jean (Hans) Arp(阿普)


远行者说


本期文章是《彼岸》专栏《洛氏争鸣》系列的第七篇,洛博士点评了一篇2016年底的文献,报道一套能够自动生成大量新的化合物结构的方法。他对这篇文章的结果不满意,与本系列其他文章的立场相比,他在措辞上颇不客气。在博文的读者评论部分,我收录了代表正反两方毁誉参半的不同意见,有的表示鼓励和支持,有的则表示和洛博士态度一致,觉得这篇文章没有什么价值。通过洛博士本人以及读者两方的交锋,我希望能够让读者看到,一个快速演进的领域的最新学术成果是怎样遭遇同行公开评议的。


在本篇文章中洛博士提出了一个很有意思的问题,即科学家怎样区分通过严肃的科学期刊发表文章以及通过专业的大众媒体交流他们的实验结果。他提到的大众媒体的例子是《麻省理工科技评论》,这是一个在全球科技行业享有盛誉的出版物,尤其是擅长刊登来自麻省理工学院和其他顶尖学术机构、科技公司的重大科技突破。《麻省理工科技评论》对这篇原文献进行了报道,但它的报道被洛博士认为是标题党、名不副实。洛博士在博文结尾他建议原文献作者们以后在把他们的理论和结果做扎实之前少和像《麻省理工科技评论》这样的大众商业媒体打交道。


洛博士的确提出了一个令人深思的问题。今天,我们淹没在社交媒体信息的汪洋大海中,巨量的信息来自于移动传媒,很多都以言简意赅来争取读者、以标题党来夺眼球。 对于具体事物尤其是复杂事物的分析常常缺乏深度。《麻省理工科技评论》是一份极其严肃认真的刊物,即便如此,他们对最一线、最前沿的科研文献,以洛博士的观点来看,也是难免有所夸大和失误的。让我们想象一下,很多的大众社交媒体如果转载《麻省理工科技评论》的新闻,进行进一步的缩写、标题概括, 那么对于真正原文献的原汁原味,恐怕读者只能得到其中的十之一二。 这更提醒我们在科技信息丰富,快速传播的今天,作为研发人员和研发决策者们,我们应该能够溯本归源、回到原始文献,跟同行专家一起从专业的角度来评判新的技术成果,这样才能让我们更深刻理解每一个科技进步的意义、潜力和局限。


本篇文章所指的原文献另一个有趣之处是其来源。该原文献并没有发表在任何的科学期刊上,而是发表在了arXiv上。arXiv是全球收集科研预印本文章的网络数据库,最早是为物理学界服务,现在扩展到为数学、计算机、物理学、非定量生物学、统计学等学科。其内容由科研人员自愿提交,并没有经过同行评议,上传后立即就会被分享传播。arXiv的出现为全球一流的物理学、数学,以及其他的定量科学研究者提供了一个最快的向同行和公众来分享自己的原始科研结果的机会。这样避免了一般期刊因为同行评议造成的几个月甚至半年、一年的出版时间的延误,使全球的研究者和关心科学的大众能够在第一时间拿到最原始预印本。这为科学突破的快速分享和传播提供了一个开源开放式的新颖渠道。arXiv现在已经收录了超过100万篇文章预印本,而且每个月上传量还在持续增长。


我推荐这篇博文,不但因为它展示了一项不成熟的研究在同行眼中和在大众媒体记者眼中的不同,也想顺便向读者介绍arXiv这个新的资料信息库。



撰文 | 德里克•洛


“自动化学设计”这一术语通常会引起我的注意,尤其是当应用于类药分子时。 这是这篇来自于哈佛大学、多伦多大学和剑桥大学多位学者的论文的重要组成部分。从中我可以看到,他们试图提出一种新技术来生成潜在的新化学结构——例如,用于开展虚拟筛选。这篇论文大部分在讨论能够快速生成新的化学结构的方式编码(和解码)化学结构数值表示方法。这一流程在理论上也考虑到一些分子性质:


这并非异想天开——事实上,许多人已经描述了如何做到这一点,而且这篇论文其实也是一个改进。与此同时,我并不确信,对任何人来讲,是否提出可能的新结构都是一个限速步骤,尽管我很乐于在这一方面被纠正。这项工作的内容,让我想起一些雷蒙德研究团队确定低于一定数量的重原子所有可能的分子排列的工作(例如GDB-13数据集)。 这篇论文并非像那项工作一样是从头开始的工作,而是试图表明“在给定这一特定分子(或这套分子)的情况下,我们如何利用这些结构作为种子以计算方法来探索化学空间?”


《麻省理工科技评论》对这篇文章的报道,有些令人遗憾,不妨先看看标题——《软件凭空想象出新分子,寻求神奇药物》。这篇报道声称,“药物研究倾向于依靠使用化学家编写的规则费劲地穷尽候选分子的巨型数据池的软件,以及试图识别或预测有用结构的模拟”,但事实并非如此。同样不幸的是,当您开始关注此过程的输出时,会发生什么,因为很明显,没有一个作者来自任何上述机构的化学院系。论文中的图4显示源于阿司匹林的约65种化合物变体,但是根据我自己的计算,其中约有14种并非类药(酰氯、酸酐、环戊二烯、氮丙啶)或化学上难以置信的(氟代环丁二烯、二氨基环庚三烯)。通过任何虚拟筛选工作来运行这些结构纯属浪费时间,令我担忧的是,与您可以想象的一样,阿司匹林作为起始点是无害的,但这种方法仍然产生大约20%的无用功。



如果假定这些(甚至是模糊的)类药分子,其它问题马上变得明显。与阿司匹林衍生的结构一样,输出中有很多反应性和/或不稳定的分子。该方案似乎对烯胺类、半胺类、烯醇醚类和其它几个不稳定基团没有问题,但是还有更大的问题。我已经附图在这里列出了一些(但并不是全部)似乎有问题的结构。我认为提出这些化合物的软件存在缺陷,并不过分。 能够看到这些的有机化学家,没有哪一位不会心存忌惮——按照许多标准,这些东西并不能发表。当作者们向在化学领域的研究者证明自己的工作时,反应不会很好。事实上,这篇博文所讲述的,仅仅是遭遇到这样情况的一个例子,确实不妙。有人会指出这些结果全是垃圾。


如上所述,我没有发现这篇论文背后的想法本质上是错误的或是诸如此类的。但作者试图做的比看上去更难。通过该方法产生的分子具有太多与以上例子相似,而被同行所轻看,而另一方面,也有太多的例子,可能被描述为“你们一直在尝试向其加上一个异戊基醚吗?”。没有人非常需要这类数据集。如果这是他们正在做的,我仍然鼓励作者继续这项工作,但我也强烈要求他们在整个过程中咨询一些实际的化学家。当然,也暂时不要同《麻省理工科技评论》的任何人讨论。


 读者评论(节选)


 畏术先生(Mr. Eldritch)

我从机器学习 /“深度学习”的角度来看待这,尽管对化学几乎一无所知,但我并不惊讶,这样的方法并不奏效。如果对这一问题尝试和使用神经网络,那么一个“自动编码器 + 搜索”的做法,似乎有可能成为有人会尝试的第二个最基本的、幼稚的方法,如果奏效就会有点奇怪! 我不知道他们选择的输入编码或网络架构是否特别适合。我认为针对这个问题使用神经网络的想法是不错的,深度学习往往非常擅长从数据中提取出复杂的、难以明确的指定模式,在猜测哪个分子可能是好的候选药物时,如果不可能至少抵得上人类(仍然非常糟糕)的表现,就会令人大惑不解。(正如你注意到的,这并非真正的瓶颈,但会很好。)如果有足够的数据和灵巧的架构,很有可能超过它。

但是,我不能确保有足够的数据可用。用当前的方法开展深度学习,会遇到严重的数据荒;你可能需要数以百万计的具有良好标签的示例结构,具体取决于你需要训练的内容。考虑到证明单一分子是否(例如)在大鼠中是有毒性是何等的乏味、昂贵和缓慢,大多数文献也显然质量低劣,可能无法标记足够的结构来训练网络预测毒性!

 (尽管如此,如果你能获得足够数据和一个很好的输入结构,我相信网络实际上可以学习。)

2016年11月8日10:23 am


 化学TSS(ChemTSS) says

我注意到,当遇到这些可以生成/预测结构的计算机程序时,化学家们非常抵触。  每次论文发表后,就会有很多抨击。我所看到的(也是作为一名有机化学家),是很多不能合成的结构。另一方面,我也看到这些预测与在药物化学交流中看到的方案相比 (比如所谓的那些非常富于想象力的从甲基到乙基,再到异丙基),更具多样性。

当第一年的研究生提出一个疯狂的机制时,我不会把它们一笔抹杀并从中取乐,而是纠正并帮助这些学生们学习。这些程序也是一样的,如果我们不喜欢输出的结果,我们应该齐心协力帮助做得更好,而不是毫不谦虚地加以拒绝。

我们有机化学家还沉溺于过去! 如果我们可以让电脑做最基本的预测,就可以让化学家去探索药物化学中有趣得多的问题。

2016年11月8日10:49 am


 奇异波函数(Curious Wavefunction)

同意,这里的新颖性是方法和潜力,而非结果。在某种意义上,就像虚拟筛选,你可以预见到很多垃圾(错误的互变异构体、发生应变的分子、不可思议的键级等)。化学家的工作是通过这个化合物集筛选,并使用直觉挑选出有希望的结构,大多数称职的计算化学家和药物化学家都会定期合作。

就像虚拟筛选一样,使用这种方法的主要目标是产生多样性,并向化学家指示在其它情况下没有选择的方向,而不是提供一个可以开箱即用的分子列表。正如上面的一位评论者所说,实际上,过滤怪异的结构是一个相当微不足道的任务,本身可以自动化。

这篇文章让我想起了彼得·蒂尔(Peter Thiel)就人工智能和自动化所讲的;事实上,将算法视为人类思维的“替代”是错误的,而应该被认为是对人类思维的补充或增补。最好的结果来自于产生实质有用结果的算法,人类可以使用其它算法对其结果进行分类和细化。

2016年11月日 11:14 am


 科特 F(Curt F.)

我真的很喜欢这篇论文,并且把它作为将化学结构(一个离散集)映射到一个连续体的新方法的主要进步。梯度优化方法确实漂亮。

我觉得那些看上去显得疯狂的结构是其新颖性的表现。这些疯狂结构中的某一小部分是否会有用,是一个重要问题,但不在作者们的工作范围之内。

我在这里没有看到的更大的限制是所需的“训练集”的大小。我认为您需要许多有效的结构和相关的感兴趣的特性去正确训练他们的“自动编码器”。

2016年11月9日3:37 pm


 斯科特(Scott)

实际上,我确实看到程序存在两个潜在的问题:

第一个已经成为一个稍显欠缺的污点,事实上,该程序提出了大量的并非有用的化合物。

第二个是相关的,因为做垃圾清除的真正的化学家可能会抛出一些不符合规范的可能性,因为它们看起来就像垃圾或“永远不会奏效”。如果不是化学博士,通常不知道那些会有效,但有时候有效的化合物是我们从来没有猜到的可以奏效的东西。

2016年11月13日5:40 am



原文

http://blogs.sciencemag.org/pipeline/archives/2016/11/08/calculating-a-few-too-many-new-compounds

 

原文献

Automaticchemical design using a data-driven continuous representation of molecules

RafaelGómez-Bombarelli, David Duvenaud, José Miguel Hernández-Lobato, JorgeAguilera-Iparraguirre, Timothy D. Hirzel, Ryan P. Adams, Alán Aspuru-Guzik

arXiv:1610.02415[cs.LG]


责编 | 胡小洁 

Hu.Xiaojie@PharmaDJ.com



点击题目阅读彼岸洛氏争鸣系列其余文章


系列之一(第叁肆陆期)

合成方法的终结

系列之二(第叁伍零期)

万能的化学合成机器?

系列之三(第叁陆肆期)

药物发现神经网络:方兴未艾?

系列之四(第叁陆玖期)

用于生物学的人工智能?

系列之五(第叁捌壹期)

自由能微扰法,万事俱备?

系列之六(第叁玖零期)

化学时间机器


点击题目阅读彼岸|系列综述


新药猎手 系列综述

药物发现方法学的演进

河东河西 系列综述

首创新药与最佳跟进式新药的商业价值与研发风险

布氏心法 系列综述

美国生物科技风险投资家布斯的行业观察与心得体会

神机妙算 系列综述

Edge网站2015年度之问:机器智能

九死一生 系列综述

新药研发损耗率的变迁及相应研发策略

精挑细选 系列综述

新药研发项目组合的管理

耳听八方 系列综述

有关创新、领导力和内在修养的话题集锦

千钧重负 系列综述

新药研发成本的演进和增长



点击“阅读原文”订阅 研发客 期刊

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存