Nat Chem|让化学的集体知识公开化和机器可操作化
2022年4月4日,瑞士洛桑联邦理工学院化学科学与工程学院的Berend Smit等人在Nat Chem发表文章,介绍了一个模块化的化学开放科学平台的设计思路、原则和探索案例,强调了以开放的、可由机器操作的数据为中心的开放科学的重要性。
摘要
化学实验室产生了大量的数据。几乎所有的仪器都以数字形式记录数据,但也有相当一部分是以非数字形式采集的,并以人类及其计算代理无法访问的方式报告。化学研究在很大程度上仍然以纸质的实验室笔记本为中心,而数据的发表往往是事后的工作,而不是过程中的一个组成部分。在这里,我们认为一个模块化的化学开放科学平台不仅有利于数据挖掘研究,而且远不止于此,还有利于整个化学界。在过去的几年里,开发技术方面已经取得了很大的进展,比如旨在解决数据管理问题的电子实验笔记本。这将有助于使化学数据可重复使用,但这只是其中的一步。我们强调以开放的、可由机器操作的数据为中心的开放科学倡议的重要性,并强调大部分所需的技术已经存在,我们只需要连接、擦亮和拥抱它们。
主要内容
在科学成果只发表在纸上的时代,信息的压缩是最重要的。由于页数有限,大多数科学数据都没有发表。现在,我们生活在一个数字时代,很大一部分数据是以数字形式采集的。然而,大多数收集到的科学数据仍然没有公布,而且这部分数据的形式往往让其他研究人员难以借鉴。
科学家们也长期关注结果的可重复性。这导致大多数资助机构坚持要求研究人员承诺如何管理科学数据 (例如,以数据管理计划的形式,即明确概述研究期间产生和使用的数据类型、在何处以及由谁访问这些数据、如何以及由谁保护这些数据、如何以及由谁分享或发表这些数据),并经常要求所有数据都能公开提供。有一个数据管理计划是很重要的,但正如我们在这里所论证的,它并不能保证数据会以一种易于查找、可访问、可互操作和可重用 (indable, accessible, interoperable and reusable, FAIR) 的形式、以及最终可由机器操作的形式进行共享(关于制药行业FAIR 方法的应用案例可参见本公众号文章Drug Discov Today|罗氏/阿斯利康:通过FAIR+Q最大化生物医药数据价值)。
此外,机器学习的最新进展非常清楚地说明了为什么化学会从拥抱开放和可重用的数据中受益。在化学领域,我们有许多不可简化的复杂问题,例如对合成能力的预测,其复杂性来自于许多不同成分 (如副反应的动力学或杂质) 的相互作用,而这些成分往往不被完全理解。由于这些未知因素和复杂的相互作用,有些问题似乎无法用目前的理论来解决。在这里,数据密集型的研究可能是关键。例如,许多化学家会欢迎一个能推荐反应条件的工具。我们可以设想建立这样一个推荐系统,从所有已经进行过的反应 (包括"失败"的反应) 中收集知识,为所需的反应推荐条件。然而,只有当所有的数据都以可互操作和可重用的形式自动收集时,建立这种工具才有可能,这样机器就可以读取数据集,然后自主地发现最相关的数据,进而做出决定。这就要求机器不仅要解析数据,还要理解数据及其背景,也就是说,数据必须是机器可操作的。
我们的关键论点是,如果我们想通过数据密集型研究来推动化学发展,同时解决可重复性问题,我们需要改变实验数据的收集和报告方式。仅有结构化数据是不够的,仅有开放数据也是不够的。我们需要同时拥有这两者 (图1中的论文1),再加上额外的工具,如语义网络技术,使化学家和他们的计算代理能够理解数据对象的意义和意图。
图1:本观点的五个核心论点。
机器学习从根本上改变了化学中使用数据的方式,这反过来要求改变数据的报告方式。此外,还需要原始数据来验证科学出版物中提出的任何结论--正如”Nullius in verba”原则 (不相信任何人的话) 所述--因为论文中提出的结果总是对原始研究记录的一种压缩。只有少数团体创建和分享FAIR数据是不够的,它需要被所有化学家接受。重要的是,只有在以FAIR、机器可操作的形式发布所有数据时,才会有很少或没有管理费用 (no overheads)。为此,电子实验室笔记本 (electronic lab notebook, ELN) 所能提供的最关键的功能是协助化学家这样做:必须避免化学数据在出版过程中成为事后才想起的事情。
按照这一逻辑,ELN的开发者需要共同致力于实现机器可操作的开放科学这一目标。只有当ELN实现了数据表征和交换的共同标准时,我们才能期待这一点被广泛采用,同时也与计算工具一起 (并允许整合可重复使用的插件),创建一个可与其他解决方案互操作的定制数据管理基础设施。显然,不会有一个完美的解决方案适用于化学的所有子领域。然而,我们可以从重用许多现有的部分开始,使它们具有互操作性,并确保代码的开放性,以这种方式创建一个实用的解决方案,并在今天发挥作用。这似乎比追求大规模、包罗万象和过于复杂的解决方案更有效。重要的是,开发新的数据格式 (单独) 也不会引导我们实现化学数据FAIR化的目标。
为了使这一目标可行,我们设想了一个平台,该平台可以将数据收集、数据处理和数据发布的过程无缝地整合在一起,并为研究者带来最小的管理费用。
(1)数据收集。化学研究的一个关键组成部分是收集化学数据 (例如,反应条件和特征数据)。理想情况下,原始 (表征) 数据是直接从仪器上采集的,直接转换成标准的结构化形式,其中所有重要的元数据都被系统地加入,所有的字段名,如"吸附"或"压力",都与一个开放的词汇或本体 (它定义了术语的含义及其关系) 相联系。我们不应该依靠个别化学家来手动执行这种文件传输、注释或转换操作。这不仅费时而且容易出错,更重要的是,确保所有的数据都是为FAIR共享准备的,这不应该是事后的考虑,而应该是第一步。
(2)数据处理和协作。一旦我们将数据转换为标准的形式,我们就可以将相同的分析工具应用于所有的数据类型--这使得开发的效率大大提升。使用不同仪器的研究小组可以直接比较数据,并使用相同的分析工具。另外,只要所有的数据都以结构化的形式存储,ELN就可以使其可被搜索。例如,如果一台仪器被错误地校准了,ELN可以让用户搜索在特定时间范围内用特定仪器配置测量的所有光谱 (甚至可以自动应用正确的校准)。
(3)数据发布。锁定在ELN中的数据对社区来说是没有用的。一旦研究人员准备发布一个项目,他们可以从ELN中选择相关的样本,并将其导出到一个存储库,从那里它可以被机器使用,但也可以被其他ELN重新导入。
从这个角度来看,电子实验室笔记本 (electronic lab notebook, ELN) 是所有化学研究的中心枢纽,从这里可以申请、分析、共享、发布和与其他平台整合分析结果--而且,也是一个做笔记的地方。然而,我们强调,ELN能够提供的最重要的功能是将数据自动转换为开放的、标准化的和可互操作的形式 (图1中的论文2)。只有这样,我们才能利用网络技术,使计算工具能够自主地理解数据,从而提供更有意义的 (搜索) 结果 (Box1)。请注意,这与目前大多数ELN所提供的功能有很大不同。目前的大多数ELN只是将数据作为附件进行数字存储--它们并没有将数据转换成这种可重复使用的形式 (图1中的论文2)。
随着时间的推移,不同的ELN和实验室基础设施管理系统 (LIMS) 已经被开发出来。许多不同的ELN已经在以前的工作中进行了比较 (例如,由哈佛医学院、剑桥大学图书馆、LIMSWiki或同行评议的文章)。在本展望中,我们旨在关注我们认为对创建一个成功的开放科学基础设施来说至关重要的想法和设计原则--从开始、创建、处理到发表的整个数据生命周期。
由于我们建议的基础设施已经在部分地区实施,我们回顾了一些例子 (来自表1),我们认为这些例子提供了这种支持开放科学的基础设施的一些关键方面。同样地,我们强调了已经以可重复使用的形式分享化学数据的例子。考虑到产生新的数据模式--描述数据的抽象结构--和化学数据的文件格式的许多尝试,我们建议通向开放科学的更有效途径是化学界接受并连接现有的系统 (图1中的论文4)。
表1 一些基础设施管理系统ELN的例子
Box1 化学中可机器操作的数据
以标准化方式结构的数据可以使化学家和他们的机器可以查找和解释信息,从而可以使人类以及他们的计算代理根据对数据的解释来执行行动。
如果我们进行网络搜索,主要的搜索引擎会显示有意义的信息 (有时甚至以信息框的格式显示,并附有表格,便于比较),并且可以显示相关的内容,而不仅仅是超链接的列表。例如,当查询"old fashioned pancakes"时,搜索引擎会显示来自不同网站的食谱汇编--类似于我们的例子 (见图中左侧)。这是可能的,因为这些网站使用页内标记,通常是Schema.org (如我们例子右侧的代码片段),将信息以标准化的形式嵌入网站。总之,菜谱数据是以标准的、开放的格式报告的,使用链接的词汇表,用元数据描述,并可根据URI访问。
一些网站 (包括美国联邦政府的网站) 也使用类似的标记对COVID-19公告进行编码,如特别开放时间或预防措施;然后这些可以被搜索引擎突出显示。读者可以通过使用浏览器的"检查"或"查看页面来源"工具 (通常可以通过右键点击页面进入),然后搜索”schema.org"来找到此类标记。
如果类似的元数据被嵌入到例如所有发表的光谱中 (例如来自核磁共振、红外、拉曼和X射线光电子能谱),我们就可以简单地使用网络搜索来找到在特定时间段内为某个特定化合物发表的所有光谱。通过适当的语义注释,例如,我们还可以专门查询"振动光谱学",可以获得红外、拉曼和和频率生成的光谱。显然,我们也可以设想将这种标准化的结构化数据用于合成"配方"。这可能有助于对不同的合成条件进行比较,也可以纳入其他化学家的反馈。Bioschemas和Material Schemas的努力试图使生命科学和材料科学更接近这一理想。
相同的具体步骤,以及化学家可以问自己的问题,以检查他们的数据对象的可重用性和可靠性,如下:
数据应该使用标准的、开放的约定进行结构化:其他人 (人类和机器) 可以用他们的工具轻松地使用我的数据对象吗?在实践中,这意味着开放的格式总是优于专有格式。标准格式 (JSON、XML、JCAMP-DX) 确保其他人可以使用标准工具来读取数据对象。
数据对象中的条目应该使用受控词汇,最好是参考本体:其他人 (人类和机器) 是否可以轻松理解数据对象中所有字段的含义和格式?本体解释了字段的含义和关系。例如,当报告bandgap时,需要确保字段"bandgap"可以被正确解释 (因为它可能指的是光学间隙、基本间隙或传输间隙)。一个关键的挑战是,如果数据被描述在论文的补充信息中,而不是直接与数据对象"在一起",那么数据集的文档常常被"带外"传送。JSON-LD (扩展数据图2) 和CSV-LD是为数据提供"带内"背景的好方法。
数据应该有元数据的注释,最好能说明数据的出处:其他人 (人类和机器) 是否了解数据的来源以及数据产生的背景?例如,当数据出现问题的时候,这些信息就会很重要。例如,元数据可以帮助我们发现,所有反应不成功的原因是一批 (商业) 起始材料不纯,或者房间的湿度或温度太高。在化学领域,没有广泛使用的标准来记录ELN条目的基本元数据,尽管已经提出了诸如 elnItemManifest这样的建议 (它建立在Dublin Core scheme之上)。
数据也应该是唯一可识别的、可引用的、使用稳定的、有索引的URI:其他人 (机器和人类) 是否可以依靠稳定的形式找到数据,看到任何变化的历史,他们是否知道使用条件?如果目的是让数据被重用,就应该有一个允许重用的许可 (例如,一个创造性的许可,如CC0,捐赠给公共领域或CC-BY,这也需要注明发起人的名字)。使用指向GitHub仓库或个人网页的URL在此是不够的--问题是这种URL的内容很容易改变,例如,通过删除GitHub上的仓库 (这种现象称为链接腐烂)。出于这个原因,数据应该通过数据存储库来分享,在那里它被分配了一个稳定的标识符 (如DOI),保证能指向内容。另外,存储库将确保元数据和标识符被编入索引,从而可以被找到。对于有机化学来说,一个特定领域的资源库是 chemotion 资源库。另外,对于标识符 (例如样品和仪器),最好使用超文本URI,这样它们可以很容易地被其他人,包括人类和机器查找。此外,其他人应该能够找到数据的变化历史,以及它们是否仍然被维护。大多数存储库可以以数据集的"版本"形式提供这种功能。
数据应该与其他数据相连接:其他人 (人类和机器) 是否可以很容易地找到相关的数据 (例如,支持实验测量的计算工作)?链接数据可以提供背景,让用户发现相关的数据集。从我们的食谱例子中,我们可以想象到相关的内容可以给我们提供有用的信息,例如,引导我们找到原作者的灵感食谱。在化学方面,我们应该把一个研究的计算和实验方面联系起来,或者把存放在不同数据库中的晶体结构联系起来。
数据采集、数据处理和数据发布
为了实用,数据采集步骤需要尽可能地接近化学家的工作方式,并应确保产生的化学数据能够被其他研究人员实际地重新使用。我们在Box1中给出了"机器可操作数据"的例子。
在化学领域,实验室里的大多数样品都是通过化学反应产生的。试图预测反应发生的最佳条件,仍然是化学领域的主要挑战之一。机器学习方法有望在这个领域帮助我们。然而,要做到这一点,我们需要以可用于机器学习的格式报告数据,同时也要报告"失败”的实验。人们很容易看到这里的困境;如果一个实验--经过99次"失败"的尝试--最终成功了,那么研究者就没有什么动力 (如果有的话) 花1%的时间来报告一个成功的实验,而把其余99%的时间花在"失败"的实验上。
捕捉合成数据
在化学中,可能的步骤和步骤组合的数量几乎是无限的。例如,试剂的添加顺序可以清楚地决定一个反应是否成功,如果不正确报告这些信息,任何机器学习的努力都会失败。这正是许多现有数据库中所缺少的。例如,通过挖掘专利文献,人们可以获得大量关于哪些化学品可以合成的信息。然而,合成的实际过程却不能被系统地挖掘出来:添加的顺序、加热、搅拌,当然还有工作和纯化。而无机化学的情况则更为严峻。同样,所有的数据库都不包含关于没有成功的尝试的信息,而且偏向于某些反应类型。这种缺乏关于"失败"反应的报告,再加上其他因素,导致某些类型的反应比其他反应更突出--例如,在研究药物化学中最常用的反应时,Brown和Boström发现,在2014年发表在《Journal of Medicinal Chemistry》上的一组选定的文献中,至少有一半提到酰胺形成 (参考文献25)。
理想情况下,为了捕捉合成信息,我们需要在纸质的灵活性和强加的结构之间找到一个平衡点,前者是化学家可以用任何格式记录他们想要的东西,后者是为了使捕捉到的数据可以很容易地重复用于机器学习应用。灵活性是确保化学家广泛采用该工具的关键,而从数据管理的角度看,一个高度结构化的数据库 (例如,通过一个长表格填写) 会更容易使用。在高通量实验环境中,后者显然是一种自然的方法,但对于许多人工创建的小型数据集,这可能不是一个可行的方法,因为要捕捉所有可能的情况,将导致这样一个巨大的表格,化学家将需要特殊的培训来浏览它。
在不同的ELN中,对这个设计点还没有达成共识。有些允许完全的灵活性,并具有典型的笔记应用程序的外观和感觉,因此需要自然语言处理来使信息可以被机器阅读,这不可避免地导致了信息的丢失。在光谱的另一端是那些有很多结构,为每一种可能的情况设计一个新的表格,这可能是机器学习的理想选择,但对非程序性化学的使用构成了负担。
对于这些挑战,一个可能的解决方案是坚持化学家们习惯的基于文本的形式,但是要把它和模板结合起来,使文本结构化,这一点已经在chemotion和cheminfo ELNs中实现 (表1)。这种混合方法在Box2中进行了描述。在实践中,我们发现一些自由文本字段总是需要的,以使化学家有必要的灵活性来表达他们的动机、思考过程和解释。部分内容可以通过特定的字段来获取,例如,相关文献,或光谱注释。对于其他许多部分,自由的、潜在的非结构化的思考过程正是人们想要捕捉的 (例如,当一个实验由于意外的原因而失败时,如同步辐射的光束下降时,要进行注释)。
Box2 捕捉反应过程
一个纸质笔记本 (下图a) 通常会写道:
......我们在50%的DMF/50%的水的混合物中加入10毫克的化学品A (批次4,见第25页),5毫克的化学品B (批次5,见同事Y的笔记本6的第61页),5毫克的化学品C (Chem-R-Us),并将溶液放入Y炉中在70℃下放置11小时。
可以设想,这是复杂合成中的一个简单步骤,在这个步骤中,我们要为某个特定的反应找到最佳条件。现在的问题是如何将这样的化学数据转换为一种可以实际挖掘的格式,并可能用于机器学习研究,同时又能保持一定的灵活性,这对化学家来说是至关重要的。
这种工作流程的想法是在能够轻松提取过程变量 (如加热时间和温度) 和仍然为化学家提供自然的文本和结构编辑器界面之间找到一个折中点,这样ELN的结构仍然与基于纸张的笔记本类似 (下图b)。在这种情况下,研究小组--或者最好是研究小组的联合体--可以为常见的操作 (如加热到回流和过滤) 定义预定义的句子 (有可填写的字段),可以用快捷方式插入,这样的结果是:
...我们在y%R4/(100-y)%R5的混合物中加入R1(xR1 g)、R2(xR2 g)、R3(xR3 g),并将溶液放入烤箱y中,在T°C下放置t h。
其中所有的粗体元素都解析为某个URI。如果在后台,预定义的句子映射到一组定义良好的概念 (在标准词汇表中),那么描述也就与它所使用的语言无关了。
如果我们看一下不同的捷径,这种方法的真正优势就很明显了。每个试剂 (可以是以前生产的样品,也可以是制造商目录中的样品) 都可以通过超链接来参考。顺着这些链接,研究人员可以直接获得有关反应物来源的所有信息,从链接的顺序中可以提取通常按顺序描述的合成程序的顺序。同时,这种方法减少了记录实验所需的时间,因为大多数通常的操作都可以插入标签完成,而且诸如"溶液变成蓝色"这样的观察也可以无缝整合。
在这种情况下,必须认识到化学中通常报告观察结果的方式是不充分的。例如,在论文和数据库中,颜色通常被报告为颜色名称 (如'暗蓝色'),这受制于感知的扩散,因此会限制这些观察结果在复制研究或机器学习方法中的效用。以颜色为例,我们建议用颜色校准卡来记录图像,从中可以很容易地提取出一个数字颜色值。同时,图像还可以提供有关材料形态的信息。
另一个有希望的方法是实验室自动化,如labforward公司提出的,例如,它允许我们将天平、旋转蒸发器或真空泵连接到ELN,并以这种方式以结构化和客观的方式 (自动) 捕获更多的数据。
个性化数据格式和元数据
一个样品被合成后,需要对其进行表征。因此,我们要确保全世界的研究人员以及他们的计算代理能够使用这些数据。显然,描述数据如何以数据格式存储的数据模型和描述数据集的元数据并不是化学家的典型重点。然而,目前大量的化学数据被存储在各种各样的专有文件中 (补充表2)。在短期内,这可能看起来不是一个真正的问题,但从长远来看,这是不可能持续的。例如,一旦与特定设备相关的软件许可证过期,就会失去对所有文件的访问权;或者另一个研究所的合作者想要使用这些数据,却无法获得相同的软件。另外,格式不一致显然阻碍了数据挖掘工作。
要求所有的研究人员手动将他们的光谱转换为标准格式,这对研究人员来说是一个巨大的、可能无法克服的、不可扩展的负担。因此,迈向这样一个开放平台的一个重要步骤是在数据进入ELN之前将其转换为标准化的结构化形式 (图1中的论文2)。这是ELN必须向用户提供的一项基本服务。也就是说,ELN将接收由光谱仪提供的数据,并将其转换为标准化的形式。例如,化学信息的实现使用 JCAMP-DX 文件 (原子和分子物理数据交换联合委员会的格式;见扩展数据图1的例子) 作为大多数光谱的标准表示。这种格式已经被IUPAC (国际纯粹与应用化学联合会) 推荐用于许多光谱以及推荐的词汇表,同时也被chemotion ELN推荐,并被用于开放光谱数据库。然而,原则上任何其他格式 (补充表4) 都可以使用,只要它是标准化的并有公开记录。事实上,一些较新的格式具有对高级功能的原生支持,如与标准化词汇表的链接,可能更受欢迎 (见扩展数据图2的例子)。例如,有一些努力 (由制药业带头) 为化合物的合成和测试开发一个"统一的数据模型",或"Allotrope数据格式",它试图在一个文件中收集整个数据生命周期。有些 (如autoprotocol或XDL)甚至试图以机器人和人类都能理解 (和执行) 的方式捕捉硬件 (如反应容器) 和合成步骤之间的联系。
人们可以争辩说,一些现有的格式和数据模式已经过时了,我们应该开发新的格式。然而,任何提出新格式的人都应该意识到,如果一种表征方法有N种由仪器制造商提供的格式,并且发明了M种"标准"格式,我们需要编写和维护N×M的转换程序和M2程序,以便能够比较不同的"标准"格式。这表明,与创建新的解决方案相比,更新现有的解决方案并使其具有互操作性会更有成效 (图1中的论文5)。
值得注意的是,如果使用受控的、分层的词汇表,即本体论 (ontology),对数据进行链接和描述,那么数据会变得更加有用,并且可以互操作。使用正式的本体论使我们能够从词汇中编码的上下文中推断出信息。例如,我们可能有拉曼和红外光谱,以及存储在我们数据库中的测量城市(cities)。本体论不仅可以消除城市拼写上的歧义,而且还可以告诉我们,如果我们搜索,比如说,在某个国家测量的具有振动光谱的所有有机样品,应该包括哪些城市。在技术层面上,这是因为本体将编码红外和拉曼光谱都是振动光谱的形式,而城市位于国家中。也就是说,它允许我们在全球范围内从机器可读到机器可解 (全球范围内是因为术语是标准化的,并通过统一资源标识符 (URI) 共享)。然而,在实践中,本体 (以及相关的语义网络技术) 仍然没有得到充分的利用。主要原因可能是本体的多样性太大,而且现有的本体没有被很好地整合。显然,我们不能指望化学家使用本体来手动注释他们的数据。这是ELN需要在后台自动完成的事情。然而,为了使之切实可行,ELN的开发者需要与其他倡议联系起来,以注册、标准化、链接和采用本体。
现在让我们假设一个理想的情况,即大多数化学家已经确定了一个标准的数据报告形式 (对于一个子领域中最重要的表征技术,如气体吸附等温线、X射线吸附光谱和循环伏安法),同时也接受开放科学不应该是事后的工作。这意味着ELN必须接受来自仪器的任何形式的文件,转换为标准形式,并将其与被表征的化学品永久地连接起来 (图2)。这样的转换工具 (例子见补充表2) 可以独立开发,并在所有ELN中重复使用。例如,chemotion ELN就重复使用了我们为cheminfo ELN (cheminfo.github.io) 开发的一些库。拥有这样的通用转换工具也会产生采用通用模式的动力。
图2:ELN的可能导入程序概述。
如果仪器与网络连接,人们可以通过扫描样品上的条形码,将分析结果直接上传到数据库。或者,人们可以通过网络界面 (前端) 的拖放来上传文件。在这两种情况下,ELN确保数据被转换为标准形式,使任何拥有网络浏览器的人都能对其进行可视化和进一步分析。其他各方可以访问数据,例如,使用访问令牌机制,通过代表状态传输 (REST) 应用编程接口 (API) 或发布在存储库上。重要的是,所有的步骤都可以在不同的地方进行,从而实现协作。这个数据基础设施在开源的cheminfo ELN中实现。文件夹图标转载自使用Flaticon.com的资源设计的图片;笔记本电脑照片来自Unsplash上的Scott Graham。
数据的出处
这个过程中的一个关键步骤是将光谱与正确的样品相匹配。一个URI系统 (可以打印成条形码) 可以帮助避免这一步的错误。例如,在cheminfo ELN 中,扫描条形码将创建上传信息,以便从连接光谱仪的计算机上自动导入。在那里,系统可以从电脑上获取文件,将其转换为标准形式,并将其作为ELN中已创建的样品的附件 (例如,作为某些反应的产物) 进行存储。这种自动导入不仅使化学家在ELN中存储数据时更容易,更不易出错,而且它还允许我们自动记录大量的元数据--例如,导入工作流程可以填写有关仪器的信息 (如制造商、序列号、房间的湿度和温度),这些信息并不总是记录在测量的输出文件中 (见扩展图1和2的例子)。
数据处理
在数据产生并导入ELN后,通常需要对其进行进一步分析。目前,化学家们不得不在不同的、通常是专有的软件之间切换来进行这种分析。他们可能依靠仪器制造商提供的软件来进行选峰或基线校正,然后使用另一个绘图工具来叠加数据。在一个开放的科学视野中,人们希望确保自己不仅可以获得数据,而且同样重要的是,还可以重现随后的分析结果。同样,如果化学界接受ELN将数据转换为共同认可的标准形式的观点,分析工具就会独立于特定的仪器甚至表征技术 (Box3)。
如果我们用一个共同的界面来设计平台,确保一个模块化的结构,并保证关键部件的可重用性,我们就有了迈向一个生态系统的第一步,在这个生态系统中,为加速化学家的工作流程的特定工具开发库 (图1中的论文4和Box3)。模块化的性质将允许一种技术的专家,例如核磁共振光谱学的专家,开发出可以被其他ELN重复使用的工具。这方面的一个例子是NMRium项目,它是一个可重复使用的网络组件,只需三行代码就可以插入另一个ELN系统中。为了使其发挥作用,重要的是组件之间可以通过标准化协议进行对话。
在开放科学的视野中,这些组件的代码应该是开放的。关于开源软件的担忧之一是,如果一个维护者离开项目,项目可能会"消亡",而一个成功的商业软件似乎具有连续性的承诺。然而,有许多成功的例子 (如Linux和Python),开源项目是由社区维护的,但为商业活动留下了许多选择 (例如,支持合同和维护定制的安装)。同样,在大学里,一个共同的分析基础设施 (如常规的核磁共振服务) 经常使用机构资金支持--类似的模式可能也适合于数字基础设施。重要的是,开源代码的优点是任何分析的基本假设和方程式都被记录下来,每个人都可以验证、复制甚至改进分析。另外,与因商业利益变化而停止使用的闭源 (商业) 工具相比,由于代码是公开的,可重复使用的,因此可以随时重新启动开发。
Box3 数据的在线化学处理的例子
材料科学和无机化学的一个常见操作是用粉末X射线衍射法来表征一种材料。然后,人们通常将测量的光谱与一些参考资料进行比较,这些参考资料可能是预测的图案、单晶结构、参考数据库中的条目或过去的图案,例如,与一个离开小组的学生测量的图案进行比较。在最坏的情况下,后者完全丢失或只能在一些出版物中以图像的形式找到。
在cheminfo ELN中,同样的界面可以用来计算基于数据库中任何晶体结构的X射线衍射图案,将其与研究小组过去测得的或存放在CoRE MOF (可计算、可实验的金属有机框架) 或晶体学开放数据库中的实验图案叠加 (截图)。在这种情况下,一个典型的问题是一个结构是否是一个已知结构的变形类似物。当我们的实验伙伴向我们提出这个问题时,我们扩展了ELN中的工具箱,允许计算参考晶体结构的变形单元的X射线衍射图案--我们认为与实验者的这种合作是ELN平台成功的关键。与此类似,我们可以将计算基础设施联系起来,让实验者轻松获得”常规”的模拟结果。同样,这些工具可以被其他研究人员重用--以源代码和网络服务的形式,公开一个可以从其他系统 (如其他ELN) 查询的REST API。我们设想,像这样的网络服务可以成为一个平台的重要组成部分,在这个平台上,数据的化学处理是在线进行的。事实上,不同的网络服务可以由研究小组在他们的专业领域 (和适当的编程语言) 开发和维护,并由化学界在任何平台上用任何编程语言重复使用。
公布可重复使用和机器可操作的数据
当所有的材料被合成和表征后,科学家的工作并没有完成。科学过程的一个重要部分是传播成果,以确保其他人能够在自己的工作基础上有所发展。通常情况下,我们习惯于将"他人"视为同一领域的其他科学家。然而,科学越来越具有多学科性,因此,非专业人员也可能需要了解数据。此外,走向开放科学是一个合乎逻辑的结果,即如果纳税人为研究支付了费用,那么研究数据的所有权就应该是广大公众的,这可以增强公民 (数据) 科学的力量。我们可以从Don Swanson的发现中了解到数据再利用的力量。Don Swanson是一位没有受过正规医学训练的信息科学家,他分析了Medline数据库中的文献,发现了以前没有发现的知识,如镁的缺乏与偏头痛之间的联系。显然,没有什么关于化学的基本知识可以禁止我们利用这种科学方法。
然而,通常情况下,与文章的发表相比,文章所依据的所有科学数据的发表被简化为事后的考虑。我们中的大多数人仍然受到这样的教育:我们需要有选择地发表哪些数据,而不是接受这样的观念:我们产生的所有科学数据都是我们所做的科学的一个组成部分,数据的发表通常只是为了满足期刊政策或数据管理计划的要求,而没有考虑到再利用。这可能解释了为什么许多ELN没有导出数据到存储库的选项。
在我们提出的开放科学平台中,科学数据的发表只是被视为ELN的应用之一。用户可以选择他们想要发布的样本,并在一个包含所有相关原始数据的存储库中创建一个条目 (图3)。该应用确保数据的报告形式可以很容易地被其他研究人员和机器重复使用。对于撰写出版物的化学家来说,这意味着他们可以为补充材料提供DOI (数字对象标识符),并在每张图上添加一个链接,读者可以通过这个链接与原始数据进行互动或下载它进行后续研究。chemotion和cheminfo ELNs都实现了这一功能的一部分。cheminfo ELN将数据导出到通用的Zenodo资源库,而chemotion ELN可以将数据导出到chemotion资源库,该资源库专注于化学合成和表征数据)。
图3:从ELN到交互式可视化的数据流实例,供论文读者参考。
一旦选择了所有需要公布合成和表征数据的化学品,ELN就会编译数据并上传到一个存储库 (在这种情况下是Zenodo)。这些数据不仅是机器可读的,而且还可以通过浏览器访问,人类读者也可以使用与文章作者相同的可视化工具。本图中勾画的实现方式是在开源的cheminfo ELN中实现的。图3b的截图是根据知识共享协议CC BY 4.0从Zenodo转载的。
与此类似,ELN也允许从资源库中导入条目。这意味着,研究人员可以导入用于产生已发表结果的整个实验室笔记本。重要的是,由于表征数据也在资源库中提供,研究人员也可以访问原始表征数据,并可以将它们与他们的新结果重叠。据我们所知,目前还没有ELN完全实现这种自动重新导入的程序。
讨论和展望
我们在本展望中提出的开放科学平台为化学家或材料科学家的所有合成或分析工作提供了一个中央枢纽。支撑这个平台的是两个共同的原则,我们认为这是使其成为真正的开放科学所必需的,这样它可以使数据密集型研究受益并解决可重复性问题 (图1中的论文1)。首先,FAIR数据应该是核心;所有进入平台的数据都需要转换为开放的、结构化的、标准化的形式,并有适当的链接元数据--这是ELN应该提供的主要功能 (论文2)。其次,开放科学还意味着要确保其他研究人员能够复制和借鉴这些成果。因此,该平台应该能够以机器可读和可解释的形式导出数据,并能方便地被其他团体重新使用 (论文3)。此外,在开放科学的视野下,用于分析数据的工具应该提供给世界上任何可能对复制结果或重新解释数据感兴趣的人。这导致了这样一个概念,即这样一个平台最好被开发成一个模块化的开源基础设施,其中的分析代码可以被社区仔细检查、重复使用和改进 (论文4)。
如果这样一个平台得到社区的广泛使用和支持,其可能性是无限的。我们评估科学工作和奖励科学成果的方式有可能改变。可信的时间戳可以提供独特的发现证明,超越了预印本可以提供的压缩和延迟的优先权要求,而且同行们可以不断提供有关原始数据、分析和结论的反馈。在开放笔记本科学的背景下,已经提出了一种有趣的形式,即公开全部研究记录,从而开放反馈。如果这些信息与社区共享,我们就可以建立一个社区驱动的《Organic Syntheses》杂志版本,在这个版本中,结果的验证由社区持续完成,而不是 (仅仅) 在编委会某个成员的实验室中完成。重要的是,这个版本还将包含关于那些不成功的尝试的信息,并以这种方式记录导致最终结果的过程和学习。如果数据以数字形式提供,同行评审过程可以得到自动检查的支持,例如,验证核磁共振分配的一致性,从而突出同行评审员的潜在问题。
接受本视角所描述的方法的最重要原因是,它可以改变我们做化学的方式。我们中的许多人是在数字时代之前接受教育的,他们认为如果我们公布我们产生的所有数据,任何人类都会在庞大的数据量中迷失方向。然而,数据密集型科学从根本上改变了这种观点。有了机器学习,我们就有了分析比人类所能处理的更多数量级的数据的工具,在数以百万计的数据点中发现相关性并建立预测模型。例如,如果我们的目标是合成一个化合物,在集体ELN数据库中的一个简单查询可能会显示,对于一个合成路线,有100个"失败"的反应和两个成功的反应,而另一个路线显示有90个成功和10个"失败"的尝试--这清楚地表明应该首先尝试哪个合成路线。毋庸置疑,一个非常有经验的化学家可能对什么有效、什么无效有非常好的直觉。然而,对于这个领域的新学生来说,这些集体的知识现在变得容易理解了。显然,我们可以超越这种简单的搜索,尝试收集所有化学家产生的集体知识,使用机器学习技术来捕捉世界上已经进行的数百万反应的化学空间中的微妙关联。在这方面,机器学习与有经验的化学家没有什么不同;很可能,它能从"失败"和部分成功的实验中学习到更多的东西,就像从成功的实验中一样。然而,与化学家不同的是,它通常需要大量的结构化数据--我们可以很容易地在化学中产生这些数据。
化学界在开放数据方面面临的另一个问题是,每个人都同意使数据可重复使用和报告"失败"的实验是有好处的,但在社区所有成员都这样做之前,个别研究人员往往对采用这种行为感到犹豫。社会科学为我们提供了一系列解决这一问题的方法。一种方法是采取某种强制措施。例如,提交DNA序列是在该领域的主要科学期刊上发表文章的一个条件,这被视为GenBank数据库成功的原因之一。这反过来又为生物信息学研究打开了许多大门。我们还看到,对于包括该领域的领导者在内的小团体来说,可以达成诸如"Bermuda Principles"这样的协议,该原则要求DNA序列数据在测量后直接在公共数据库中自动发布。在化学领域,我们观察到晶体学的类似动态,晶体学信息文件必须存放在Cambridge Structural Database中,在出版时可以免费获取 (和搜索)。这使得欧盟委员会得出结论:"学术期刊要求作者提供支持其论文的数据已被证明有可能改变文化,晶体学也是如此"。我们还可以从晶体学中学到的是,一旦采用一些标准,就可以实施自动检查 (如checkCIF)。
从结构基因组学联盟和相关倡议 (例如,Open Source Malaria和COVID Moonshot) 中,我们可以了解到,开放性也可以在联盟层面上强制执行,例如,要求成员公开发表蛋白质结构,不为研究成果申请专利。这种公私合作模式似乎是成功的,因为提供资金和"化学探针" (蛋白质功能的有效抑制剂) 的私营部门可以指导研究,也就是确定应该解决的结构的优先次序,而不透露公司的研究和开发重点,因为联盟的"愿望清单"是匿名的。在竞争前的阶段 (即药物发现的早期阶段) 最能体现这样一个联盟的效用,在这个阶段,它可以分担风险,加强集体学习,避免在新的 (基础) 科学领域的重复工作。这在"化学探针"的情况下尤其有趣,这些探针最好由有经验的工业药物化学家来生产。然而,如果学术界能够使用这种探针来验证药物靶点,那么工业界将获得巨大的利益。出于这个原因,结构基因组学联盟将其作为"开放性"试剂提供--条件是研究成果可以在公共领域获得。卡尔斯鲁厄理工学院的Molecule Archive of the Compound Platform也采取了类似的"物理开放"方法,它充当化合物交换的中介:合成化学家可以将他们的化合物”存档" (这增加了他们的知名度),然后可以要求他们进行生物筛选。
除了这些措施之外,我们还需要改变激励结构,创造更好的方式来奖励研究人员对数据的管理。ELN可以在这方面提供帮助,在数据导入时存储”信用”链,并在数据集准备出版时自动追加引文。
除此之外,将这种以数据为中心的方法应用于化学需要改变大学的课程,以提高对这种新发展的认识,以及对数据管理的需求和承诺的认识。理想情况下,开放科学的解决方案,比如我们在这里描述的基础设施,应该已经被引入到本科课程中。学生们可以在ELN中记录他们的实验结果,在机器学习课上收获数据,在计算化学课上预测他们刚刚测量的红外光谱,并使用开放笔记本来评论和改进彼此的工作。为了实现这个目标,我们在补充资料中的词汇表中定义了常用的技术术语。
目前可能仍未解决的问题是,在整个化学界广泛采用这样一个开放数据平台的现实性如何。我们认为,我们已经有了所有的基本工具和技术。对于许多关键的设计方面,我们在这里使用了我们自己工作中的例子,这些例子是公开的,可以被社区试用,并可以在其他实现中重复使用。也有一些倡议 (补充表3) 致力于我们在本视角中强调的一些方面。其中一个例子是German NFDI4Chem consortium,它被嵌入到德国更大的创建国家研究数据管理基础设施的倡议中 (其中还包括用于催化研究的NFDI4Cat和用于工程科学的NFDI4Ing),并旨在”FAIR化”化学的整个数据生命周期。然而,作为一个社区,我们也必须认识到,我们正处于一个有大量倡议、拟议数据模式和ELN的阶段。作为一个社区,我们面临的任务是接受和连接这些努力。只有当我们成功地使这些工具具有互操作性时,我们才能够利用数据和数字时代的全部潜力。一个有希望的前进方向是形成数据社区,其中实验者和ELN开发者共同合作,通过结合、扩展和打磨现有的构件来开发特定领域 (例如多孔材料或电池) 的开放科学基础设施。
从我们的角度来看,要达到这个目标,需要实施具体的几个步骤:
化学界应该拥护他们自己现有的标准和解决方案。只有当我们开始连接和使用现有的解决方案时,我们才能够作为一个社区取得进展。然后,反馈信息可以被用来改进这些工具。如果我们作为社区不能超越仅仅提出新的格式或实施方案的阶段,而不是在实践中使用它们,我们就不会取得任何进展。显然,这也要求现有的工具能够被重用 (也就是说,从单一的代码库中提取软件包并增加文档) 并在GitHub等平台上共享。
在有社区标准的地方,期刊需要把可重复使用的原始数据的存放变成强制性的。这是由Bermuda agreement的成功和晶体学信息文件的存放所启发的,也是解决集体行动问题所需要的。仅仅使用ELN并不能解决这个问题。我们还需要开放我们的ELN。值得注意的是,这并不意味着数据应该以PDF形式提供,而是以标准的机器可操作形式提供。当社区标准存在或正在形成时,例如在气体吸附领域,期刊应该开始接受这种格式,要求将其存放在社区资料库中。有机化合物的基本特征 (核磁共振、红外和质谱) 也是如此,Chemotion资源库已经为其提供了工具和策划,让人想起Cambridge Structural Database。重要的是,在不同的资源库中,往往是互不相干的数据,只有将它们联系起来,才能切实地使用。因此,例如,一个社区资料库中的气体吸附数据 (如NIST/ARPA-E新型吸附材料数据库) 需要与Cambridge Structural Database中的晶体结构相连接,最好是使用超链接。
我们需要接受”失败”实验的发表。有了数字基础设施,这就可以很容易地讲述最终结果是如何达成的。这也要求我们作为一个社区认识到,实验的结果不是二元的”是/不是一个突破",而只是一个有价值的、可以被报道的观察。要想获得成功,我们必须注意适当地承认这样的数据集,例如,当我们把它们用于数据挖掘练习,或者它们帮助我们避免了一些昂贵的实验。
应避免使用不允许将所有数据导出为开放的机器可操作形式的ELN。这反映了论文2的核心:ELN所能提供的最重要的服务是消除使数据FAIR的麻烦。这不仅是为了避免在许可证过期时失去对数据的访问,或者因为是”旧ELN”格式而无法在以前的工作基础上继续发展,而且也是为了能够与独立于ELN的团体进行合作和分享数据。仅仅存储所提供的数据,甚至不允许输出这些数据的ELN,并不能使我们更接近化学领域可重用数据的目标。
数据密集型的研究必须进入我们的课程。开放科学在化学界的势头越来越猛,越来越多的研究人员正在参与其中 (不同程度上)。我们需要在本科阶段提高对这些新发展的认识,在我们的实验课程中使用ELN,并告诉大家开放科学只是正确的科学。例如,在洛桑联邦理工学院,我们在同一课程中教授机器学习和ELN的使用,并计划将实验课程与ELN中的数据分析练习相结合。这也意味着我们的机构需要为院系提供适当的支持,例如通过校园图书馆。
最后,我们强调,技术在这里不仅是为了促进以FAIR格式发布数据的过程,以满足赞助商的要求,也是为了确保化学数据、FAIR原则和开放性的结合,使科学家有可能收获所有的数据,从而使所有化学家能够获得每个人成功的、部分成功的、甚至”失败”的实验的集体知识。
参考资料
Jablonka KM, Patiny L, Smit B. Making the collective knowledge of chemistry open and machine actionable. Nat Chem. 2022 Apr;14(4):365-376. doi: 10.1038/s41557-022-00910-7.
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。
- 历史文章推荐 -
【AI与化学】
●SRI与杨森制药合作,利用Al驱动的自动化学合成系统进行小分子药物发现
●Nature|DeepMind用深度学习改进化学中的密度泛函理论
●Nat Chem|化学机器学习的最佳实践:推荐的一套标准化指南