查看原文
其他

Nat Comput Sci|迈向可重复的机器学习

智药邦 智药邦 2022-06-15

2021年10月21日,Nature Computational Science 杂志发表文章,就如何报告基于机器学习的研究提供了一些建议,以提方法的透明度和可重复性。

以下是全文内容。

前言

各个领域的数据越来越多,使得数据驱动的研究成为计算科学的重要资产。然而,从数据中提取有价值的见解可能是一项艰巨的任务:数据集变得越来越大,而且随着数据收集工具和操作变得越来越复杂,数据分析也变得越来越复杂。机器学习算法如何应对这些挑战,引起了研究界的极大关注。也许最值得注意的是,深度学习已经成为分析大型复杂数据集的标准工具,有时会达到令人印象深刻的准确度。这在很大程度上推动了科学的发展,比如我们在电池研究、结构生物学和化学中看到的情况。

但是,巨大的力量伴随着巨大的责任。机器学习领域面临着 "可重复性危机",因为建立数据驱动模型的过程缺乏透明度和报告。从数据收集和整理到模型选择和训练,所有这些步骤对于更好地了解所报告的模型的准确性、稳健性、通用性和实用性都是至关重要的,而不仅仅是论文中经常报告的准确性数字。随着机器学习在许多不同的领域变得越来越流行和广泛使用,确保研究人员报告所有这些细节以使结果具有适当的可重复性变得至关重要。

幸运的是,研究界已经注意到了这个问题,不同的领域已经就如何最好地报告机器学习研究以提高透明度和可重复性提出了一些建议。基于这些建议和我们自己的经验,我们想用这篇社论来讨论一些准则和建议,这些准则和建议对整个计算科学研究界在报告他们基于机器学习的结果时可能是有用的。

数据报告

构建模型时的一个重要步骤是收集和选择数据集,因为模型的质量很大程度上取决于数据的质量和特征。数据收集过程需要被适当地讨论和报告,因为在所选的数据源方面可能存在偏见(有意和/或无意的)。任何已发现的偏见和为减轻偏见所做的努力也应该得到适当的讨论,以便其他研究人员在使用报告的模型时能够意识到其局限性。如果使用合成数据,需要详细描述数据生成过程,包括考虑的任何假设。

原始数据集事实上很少使用,因为它们可能有一些不一致、错误和异常值,最终会影响模型的质量。此外,数据可能需要被转换为特定的格式和表现形式,以便用于特定的模型。因此,数据清理和数据整理的步骤对研究至关重要。这些步骤也必须详细报告。

最后,有三个具体的数据集对模型开发至关重要:训练、验证和测试数据集。训练数据集,顾名思义,是用来训练和生成模型的;模型从这个数据集中 "学习"。验证数据集用于评估模型在不同超参数值下的性能,并检测过拟合。最后,测试数据集被用来评估模型的性能。正确解释这些不同数据集的选择是非常重要的,因为这些会大大影响模型的性能和稳健性。

模型报告

有大量的机器学习模型可供研究人员选择。较高的模型复杂性可能会以降低透明度和可解释性为代价,而且不一定是最好的选择;此外,训练时间会因模型的不同而有很大差异。因此,模型的选择和它的复杂程度需要有适当的理由。对于使用深度学习的研究,最好运行并报告消融研究(ablation studies,用于检测深度学习/机器学习模型中各部分构件对于整体的重要性)以更好地了解神经网络架构,以及是否可以在不损失性能的情况下删除一些组件。 

虽然机器学习界已经有效地利用了新的计算架构的力量,如超级计算机和图形处理单元,但训练一个模型仍然是非常耗时的,特别是取决于其复杂程度。此外,不是每个研究人员都能获得更复杂的硬件资源。因此,报告训练所需的时间对于告知读者这一步骤的实用性(即在他们自己的可用资源范围内是否实用)是至关重要的。 

另一个重要的考虑是,机器学习模型可以有不同的随机性来源,如随机初始化、丢失和数据改组等等。如果可能的话,对模型中使用的伪随机数生成器进行“播种(seeding )”,并报告这些选择,对于确保结果的一致性是一个好主意。

数据、代码和模型的可用性

不言而喻,向社会公开提供代码和数据是至关重要的;不仅要提供训练、验证和测试模型的代码,还要提供数据收集、清理和整理步骤的代码。硬件架构和软件库版本的差异也可能导致许多不一致的地方,因此,正确报告这些细节是非常重要的。训练过的模型也应该提供,因为如前所述,训练步骤可能需要大量的资源:提供训练过的模型可以降低其他研究者在自己的研究中重用这些模型的门槛,而且也更容易检验这些模型是否可以推广到其他数据。

结束语

值得注意的是,这并不意味着这是一份基于机器学习的研究准则的全面清单,当然还有其他一些问题没有在这里讨论,比如与隐私有关的挑战和伦理考虑,这些也是非常重要的考虑因素。我们的目标是与更广泛的计算科学家群体就这一话题展开对话,并希望能改善研究成果的整体报告。我们已经看到了来自不同团体的伟大倡议,我们期待着看到我们的研究团体有更多的参与,推动机器学习更加透明和可重复。

参考资料

Moving towards reproducible machine learning. Nat Comput Sci 1, 629–630 (2021). https://doi.org/10.1038/s43588-021-00152-6

----------- End -----------



感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向





- 历史文章推荐 -

机器学习质量

Science|让机器学习值得信赖 

药物设计

●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学

●Drug Discov Today|用于从头药物设计的图神经网络GNN

●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物

●BioRxiv|基于表型和化学结构预测化合物活性

●Drug Discov Today综述|分子从头设计和生成模型

●Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展

靶点发现

●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点

●AI+临床数据助力新药靶点发现,天坛医院院长王拥军谈【神农计划】

临床试验

●NPJ Digit Med|多种数字健康技术在去中心化的世界中赋能临床研究

●Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准

产业进展

●如何管理人工智能和数据科学:来自诺华的实践经验和教训

●20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动

●Drug Discov Today|药物研发风险地图

算法开发】 

●NPJ Digit Med|数字医学和维度诅咒

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存