查看原文
其他

从炼金术符号到应用化学信息学的未来

Robert C. Glen 科学出版社 2023-02-21

 

化学起源于魔术。除了巫师,谁能喷一口烟就变出戏法呢?方士珍视转化物质的能力,他们用佶屈聱牙的语言和炼金术符号来描述秘方,将信息编码隐蔽在寓言或宗教故事中,但这样做也不利于化学的发展。我一直在寻思:今天的药物化学家可能仍然对存在于动物体内传奇的石头(如牛黄)特别感兴趣,想知道这种石头来自什么样的动物,疗效如何。然而,借用一位诺贝尔文学奖获得者鲍勃·迪伦(Bob Dylan)的话说:“时代已变。”与神秘的“炼金术士”的方法不同,Berzelius(1779——1848)建议化合物应该基于组成它们的成分命名,Archibald Scott-Couper(1831——1892)于1858年首先用线表示分子中原子之间的连接,产生了如今容易理解的分子结构图。1887年,Jean-Henri Hassenfratz和Pierre Auguste Adet创建的符号对《化学命名法》(Methode de Nomenclature Chimique)进行补充,这对化学信息来说是革命性的。混乱甚至不正确的化学命名法被现代的化学符号所取代,如氧、氢和氯化钠。这使得拉瓦锡(Lavoisier)的新化学得以系统化。在这新科学哲学创建的“启蒙时代”,信息要被实验验证、被“科学家们”(William Whewell于1833年首倡的词汇)所检验;信息将数据置于化学的核心

 

随着化学知识和语言的积累,化学领域的信息研究进入新的时期。重要事件如贝尔斯登(Friedrich Beilstein,1838——1906)编纂的《有机化学手册》(1881年出版)系统地收集了化合物、反应和性质等化学数据。为了能“大”规模(1500个化合物)地存储和检索化学信息,化合物的命名是关键一环。化学数据标引的目的是让化学数据能可靠地被存储和检索,以此为目标所做的努力是随后半个世纪中化学信息研究的主要特征。随着化学(及其许多相关学科)创新(和数据收集)能力的不断增强,问题从“如何合成一种化合物”到“一种化合物以前有没有被合成过”演变,回答起来也变得复杂和耗时。我记得在Wellcome基金会的图书馆里度过的许多快乐时光,在众多的化学文摘书架中寻找化合物信息,如果幸运,能找到简单的合成方法,以10%以上收率合成一种化合物。当然事情有时候会变得更糟(如果你是一个图书管理员,情况会好些)。记得1994年英国皇家化学会曾召开一个有趣的研讨会,主题是“化学信息爆炸:混沌、化学家和计算机”,那时,显然到了Chemoinformatics(化学信息学)诞生的时间点。

 

▲ 化学家用化学信息学方法解决问题的基本思路

 

虽然当时很多科学家对化学数据感兴趣,但Chemoinformatics这个词是Frank Brown在1998年提出的,他将化学信息学定义为“整合信息资源,将数据化为信息、信息化为知识,以期在药物先导化合物发现和优化过程做出更快更好的决策”。多学科联合、与数据驱动的药物创新一直是化学信息学应用的主要特点。前所未有的公开的化学数据和不断增加的化学信息专用算法,使化学信息转化为知识的目标容易实现。当然,摩尔定律(由英特尔公司的Gordon Moore提出,计算机芯片的计算能力每两年翻一番)也为化学信息学跟上数据爆炸的步伐提供了必要的硬件支持。当然,也存在多种数据格式的问题,因此,像Babel这样的化学信息学开源软件很流行,它可以将许多数据格式相互转换。这里有一些有趣的数字。我们还记得贝尔斯登《有机化学手册》第一版收集了1500种化合物,而2015年美国化学会化学文摘社(Chemical Abstracts Service of the American Chemical Society)宣称,已经有1亿种化合物在该社的数据库登记。想象一下,一个只有基本化学知识的大学新生今天可以在1μs内从1亿种化合物的数据库中找到所要的结果,这真是信息学的巨大进步。不仅如此,该结果还与测定或预测的化学性质、合成策略、可用试剂、结构相似的化合物相关联,并通过互联网链接到其他数据库。

 

显然,化学信息学已经成熟。事实上,“化学信息学”一词有一定的弹性。化学信息学方法和数据分析工具能分析包括化学在内的任何数据。例如,模拟蛋白质等大分子系统、用机器学习(包括最近兴盛的人工智能)构建预测模型。又如,药物的吸收、分布、代谢和排泄(ADME)的预测、结构-活性定量关系(包括量子化学、生物信息学和分析化学),以及药物结合位点的发现与结合模式分析。尽管早期化学信息学主要应用在制药工业界,现在已经应用于所有需要化学的学科中,如在农业和食品研究、化妆品和材料科学中。

 

但在这个计算机可以“变魔术”的时代(“任何足够先进的技术都无法与魔法区分”——Arthur C. Clark的名句)很容易让人回到伯齐利乌斯(Berzelius)时代,把技术隐藏在炼金术符号的面具之后,例如,简单的软件界面隐藏了高度复杂的搜索和检索算法、机器学习应用程序隐藏了预测代谢的复杂过程。解决之道是教育,学生、专家和从业者需要了解化学信息学原理和实践的坚实基础、基础算法及其实现、可用性、特定用途和软件的局限性,以及对开发该领域有浓厚兴趣的人而言还有哪些挑战。

 

最好的教科书应该是由对专业有深入理解的人士撰写的。30多年来,Erlangen-Nürnberg大学计算机化学中心(Computer Chemie Centrum,CCC)的化学信息学研究团队一直是化学信息学的先驱,被公认为是将这些方法应用于各种化学问题的革新者和专家。然而,他们对这一领域的最大影响可能是作为教育家的声誉。新书《应用化学信息学——成就与未来机遇》展示了化学信息学目前应用于许多领域,并以成功的第一版《化学信息学——教科书》(2003年出版)为基础,再次由Thomas Engel和Johann Gasteiger主编。该书是对另一本教科书《化学信息学——基本概念和方法》的补充。Johann Gasteiger是杰出的化学家,他在化学信息学方面的开创性贡献是众所周知的。他曾获得1991年德国化学会计算机化学成就奖(Gmelin Beilstein奖)、2005年化学结构协会Mike Lynch奖、2006年美国化学会计算机在化学与药物应用研究奖(ACS  Award  for  Computers  in Chemical and Pharmaceutical Research),以表彰他在化学信息学领域的研究和教育方面的杰出成就,以及1997年美国化学会化学信息部Herman Skolnik奖。Thomas Engel是化学信息学家,曾在维尔茨堡大学(University of Würzburg)学习化学和教育,并在Erlangen-Nürnberg大学计算机化学中心度过了重要的一段时间,随后在科隆的化学计算组工作,目前在慕尼黑路德维希-马克西米利安大学(Ludwig Maximilians Universität)工作。


← 左右滑动查看“目录” →

 

该书作者的专业知识涵盖了化学信息学的各个方面,该书将激励读者深入研究这些主题。这本新书既提供了化学信息学基础知识,也介绍了发展中的热点,为读者提供了入门向导并指示未来的方向。该书与《化学信息学手册:从数据到知识》(相同主编)互补,应该是学生、专家和所有对化学信息学领域感兴趣的人(尤其是那些看到化学“魔力”的人)的必备读物。




 

本文为《应用化学信息学:成就与未来机遇》[(德)T. 恩格尔(Thomas Engel)(德)J. 加斯泰格尔(Johann Gasteiger)主编;徐峻等译. 北京:科学出版社,2022.3]一书序。作者为英国剑桥大学化学系分子信息学中心主任,分子科学、信息学教授Robert C. Glen;徐峻 译。标题为编者所加。



(本文编辑:刘四旦)


一起阅读科学!

科学出版社│微信ID:sciencepress-cspm

专业品质  学术价值

原创好读  科学品味

科学出版社 视频号

硬核有料  视听科学

传播科学,欢迎您点亮星标,点赞、在看▼

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存