查看原文
其他

The BMJ:针对患者利益的机器学习和人工智能研究:在透明性、可重复性、伦理和有效性等方面的20个关键问题【2020年第9期】

The BMJ 英国医学杂志中文版 2022-03-25

点击标题下「蓝色微信名」可快速关注




李峰 译

深圳智影医疗公司

徐磊 校

首都医科大学附属北京安贞医院 

赵邑 校

清华大学附属北京清华长庚医院皮肤科



摘要

机器学习(ML)、人工智能(AI)和其他现代统计方法正为利用先前尚未开发且极速增长的数据资源提供新的机会,以期让患者获益。尽管目前正在进行许多有前景的研究,特别是在图像方面,但就文献整体而言还缺乏透明度、对可重复性清晰的阐述、对潜在伦理问题的探究,以及对有效性的明确验证。这些问题的存在有许多原因,其中最重要的一点(为此我们提供了初步解决方案)就是当前缺乏针对ML和AI的最佳实践指南。我们认为从事研究的跨学科团队和应用ML/AI影响健康的项目,将因解决有关透明度、可重复性、伦理和有效性(TREE)的一系列问题而受益。这里提出的20个关键问题为研究团队提供了一个研究设计、实施和报告框架;帮助编辑和同行评审专家评估文献的贡献;让患者、临床医生和政策制定者评估新发现可能会给患者带来的获益。


机器学习(ML)、人工智能(AI)和其他现代统计方法正为利用先前尚未开发且极速增长的数据资源提供新的机会,从而让患者获益。有许多潜在的应用,例如改善诊断准确性1、更可靠地预测预后2、靶向治疗3,以及提高卫生系统运作效率4。潜在的颠覆性技术,如先前提到十分具有前景的,将ML/AI用于基于图像的诊断已在临床应用上初显身手(例如,使用基于深度学习的算法与专业临床医生相比较具有较高诊断视网膜病变的准确性5)。又如将自然语言处理作为工具从结构化和非结构化(即,自由文本)的电子病历文本中提取信息2。尽管我们才刚刚开始了解这些方法所带来的机遇和益处,但是由于这些方法所产生的产品与其他的医疗干预手段(例如,药理学)6并没有完美的契合,所以学术界对此技术的应用也愈加关注。目前对于这些技术成果的研发和使用还没有很详尽的指南,并且很少经过同等程度的审查。

对指南的迫切需求一些知名出版物在对基于ML/AI的预测模型进行报告和评估方面缺乏透明度7,8、可重复性9、伦理10和有效性11的分析。越来越多的证据表明,尽管可以借鉴传统的生物统计学和医学统计文献12中许多相当好的设计、实施、分析、报告、影响力评估和临床实践方法,但它们仍不足以指导使用ML/AI的研究。制定这样的标准是一项宏伟的工程,因为ML/AI算法正日益增长,且评估其性能和对临床的影响具有多面性。我们不能坐以待毙,如果我们一味等待更权威的解决方案,就是在冒着浪费有效工作的风险13,14,15,16,17,同时放任徒劳无功的研究继续进行,或更糟糕的是将电脑上无效(甚至有害)的算法应用到临床。
初始框架我们提出了20个关键问题(框图1)以帮助确定常见的妨碍ML/AI在健康领域应用的陷阱。这些问题涉及透明度、可重复性、伦理和有效性(TREE)。附录1(见网站bmj.com)包括了这些问题如何产生的简要描述。这些问题不仅与成果使用者相关(即患者和政策制定者),而且与那些进行ML/AI健康研究的人相关。我们设想该问题清单能够为期刊编辑、同行评审以及对文献的贡献进行批判性评估的人提供一种框架;为研究团队设计和实施ML/AI研究提供参考;用于监管机构审批算法;亦帮助教育者培训临床医生和相关人员。现有研究出版物中充斥着各类尚未明确处理的相关问题。显然,进一步的工作需要就进行可接受的实践和报告达成共识,但我们认为采用这个框架只是一个开始,对于其他相关出版物18而言,这将有助于对健康相关ML/AI研究流程和结果建立信任。
关键问题起始问题(问题1~2)与患者利益有关的健康问题是什么?绝大多数已发表的临床预测模型从未在临床实践中使用过19。原因之一是缺乏具体临床决策过程以有效完善或优化该模型;仅靠模型本身预测未来发生的事件,可能无法帮助临床医生改变其诊疗实践20(换句话说:我们有能力做,并不意味着我们应该做)。远离独狼态度是很重要的,即使这种态度曾在几十年中帮助促进ML/AI在健康领域的创新。然而,越来越多的人认识到要想让这种研究变得更加实用,需要将其置于更广泛的组织环境中。因此,我们强烈建议研究人员着手进行新的研究时,首先要弄清楚并说明他们的工作与医疗保健系统和患者服务相关。本质上,研究人员应该对从开发到实施路径有着清楚的认知,并能够描述他们提出的研究涉及的是医疗数据科学周期的哪个部分。请注意,这里并不排除理论、概念验证或运作性研究,即便它只占医疗数据科学周期的很小一角或仅间接影响患者(例如,管理任务中与效率相关的获益)。重要的是,就像建立研究注册的原理一样,这些问题需要提前说明。
有什么证据表明算法的开发是由临床研究和流行病学研究设计的最佳实践指导的?在临床研究历史上出现的问题也开始出现在基于ML/AI的研究中。例如使用结果变量作为预测因素,很少关注因果关系路径,对初始队列的概念形成缺乏详细描述,以及准确记录哪种患者纳入了研究分析21。PECO流行病学研究设计原则(即确定研究人群、暴露、关键对照和临床结局)的引入对改善健康研究中出现的这些问题具有重要作用,并已成为评估研究证据质量和相关性的实用指南22。在临床研究领域开发的这些原则,与ML/AI研究仍然高度相关,尤其是为涉及电子健康记录的大型项目提供框架时。这只是研究人员如何使用现有的临床研究框架为基于ML/AI的项目开发提供最佳实践指导的一个例子。
研究(问题3~6)何时以及如何让患者参与数据收集、分析、部署和使用?随着越来越多日常收集的个人参与数据(除了研究人员收集的数据)应用于研究,而且收集这些数据通常以特定法律为依据(即合法利益)代替个人同意,故患者和公众参与在所有医疗领域相关研究中尤显重要,当然也包括与ML相关研究。免于寻求个人同意并不意味着研究人员可以同时免除获取患者和公众的认可。因此(在适当情况下)医疗健康ML/AI项目应包括一个清晰的机制,以评估提出的模型以及相关结果对于被收集数据的个人、用户(即临床医生)和受影响的个体(即该模型将在临床实践中用于谁)的可接受性。
一些已建立的框架23说明了患者和公众是如何参与一个研究项目中的。我们强烈建议研究人员在其项目初始阶段就确定哪个阶段(如果有的话)适合患者和公众参与,例如确定预测性建模解决方案的需求,支持算法开发(即选择相关目标,确定结果呈现的框架),并确定在临床实践中算法的可接受性。关于患者和公众参与的政策应该在政治或制度层面上决定的论点忽视了研究者个人的作用,因此我们提出这个问题,就是要努力将该责任重新分配给真正做这项工作的研究者。
数据是否适合回答临床问题?也就是说,是否能反映相关真实世界的异质性?它们是否在细节和质量上满足需要?这里的关键点是现有数据是否可以回答临床问题。例如,一个不包含与预测结果(已知)相关的或重要的预测因素的数据集不太可能令人满意地回答研究问题。ML/AI算法不能化无为有。为了帮助研究者确定数据是否具有足够的质量和细节以回答其感兴趣的临床问题,我们简要介绍了研究者在尝试将ML方法应用于医疗相关数据时经常遇到困难的两个核心领域:
固有样本特征。如果有数据,但是数据质量或者相关性差,就不太可能开发出好的ML/AI应用24。数据收集方法的准确性、参与者样本、合格标准,以及缺失的数据在评估开发具有实用性和优良概括性的ML/AI算法时都是需要考虑在内。
任务的相关性。由于在训练数据范围之外运行可能会失败,模型通常无法达到训练时所呈现的准确度。例如,图像识别/自动驾驶汽车的决策系统于夜间首次遇到骑自行车的人时可能会失败。因此,包括时间尺度、异质性(数据收集的差异,例如测量设备或依从性)、人口和情景在内的数据应该符合并代表所设想的临床应用场景。
验证方法是否反映了真实世界中的限制条件和数据收集、存储相关的操作程序?ML/AI研究越来越多地使用常规收集的数据,包括医疗保健数据(例如,电子健康病例、临床影像学和基因组信息)、民事行政数据(例如死亡记录和教育程度),以及来自移动设备和可穿戴设备的数据25。这些来源的信息可以成批或连续到达,通常存储在不同地点,调取时需要协调,这本身就造成了特定数据使用时的延迟。与这些真实世界的限制相反,ML/AI算法通常是经过历史数据验证的,只有在数据生成过程不发生改变(例如随着时间的推移或跨医院)的假设下才能保证其性能。实际上,这些假设常被打破,导致与开发过程中所报告的性能相比,ML/AI模型在实际部署时的性能欠佳26
研究人员可以将此问题视为两个不同但有关联的难题。首要问题是确保开发一个稳健的验证方案。例如,可能需要考虑到时间因素,并创建短暂脱节训练和测试集合的方案27,28,以解释数据的收集和存储方式。第二个问题是防止有用的解决方案因机构数据收集或存储方法的变化而变得过于庞杂。但是,开发人员和研究人员除了使用具有可重复性的最佳实践(即依赖关系的明确描述和数据进入途径的模块化开发、清理、预处理和建模)以减少重新部署相关解决方案所需的工作量,很难用其他方法来证明他们的工作。
任务需要哪些计算和软件资源,可用资源是否足以解决此问题?在许多健康相关的预测模型中,例如基于图像的深度学习29和统计遗传学30,使用数百万个参数是很常见的。因此,确定数据的复杂性的同时,确定有可用的计算资源是十分重要的,因为这些资源可能是决定采用哪种分析方法时的限制因素31(这些限制比传统统计模型更为常见)。在某些情况下,允许使用更多的计算资源可训练出更好的模型。例如,在没有足够的计算机资源的情况下,使用基于复杂神经网络的模型可能会十分困难,尤其是在这些大型模型需要额外复杂的操作(例如规则化)以防止过度拟合的情况下32,33。理想状态时,分析不应受限于可用的计算资源,但研究人员应了解他们工作时的约束条件,以便进行任何分析时可以根据要求量身定制。使用安全的计算机环境可能出现类似的问题,例如数据飞地(data enclaves)或数据安全港,相关软件框架可能在这种环境下无法使用,因此需要从头开始实施。因此,了解使用特定软件的内在作用十分重要,因为其潜在的许可可能会对商业化潜能和算法未来的其他方面产生深远的影响。科学家程序员软件许可的简要概述已在其他地方发表34
统计方法(问题7~9)报告的性能指标是否与模型应用的临床场景相关?性能指标的选择至关重要,以便将评估设置中的良好性能(训练数据)最终转化为在临床环境中的良好性能,并为患者带来便利。模型性能间差异的存在可能有多种原因,其中最常见的是评估指标不能很好的代表患者结局的改善(例如在不平衡分类的情形下筛查应用的分类错误)。另一个常见错误是选择了一种与改善患者临床结果模糊相关,而非明确指示或说明临床结局改善的性能指标。例如,IBM的Watson For Oncology(WFO)35是世界各地多家医院使用的用于支持决策的专家系统。但是,已发表的文献描述了WFO不报告相关统计导向(例如,鉴别和校准)和临床导向(例如,净收益类型)的性能指标。相反,他们专注于一致性(真实阳性率,其中基本事实由医生提供,即WFO的建议与主治医师的建议一致的情况所占的比例36,37,38)。我们建议研究人员遵循指南以避免以下陷阱:
咨询所有相关方(例如,患者、数据科学家/统计学家、临床医生)来确定统计目标最适当的表达方法,例如预测事件的绝对风险、建立等级排序或模式检测或分类(请参阅问题3)。
选择适当的性能指标。每个目标都有它自己的独特要求,明确统计目标将帮助研究人员确定每一具体情况预测性能的相关度量标准。例如,如果预测(不是分类)是目标,那么进行校准和鉴别是报告的最低要求。此外,为了比较两个模型,应使用适当的评分规则(或至少使用并排直方图)。TRIPOD解释和阐述文件在这方面为研究者供了更详细的信息12
报告所有结果。尽管训练结果不太可能足以证明模型的有用性,但他们提供了在一定样本特性和样本外条件下的重要参考。然而,无偏倚的估计(即已针对过度拟合进行了适当的调整)是报告最为重要的内容。
ML/AI算法是否与目前最好的技术进行比较?是否和其他合适的基准进行比较?ML/AI算法应被视为健康技术,并且在设计阶段应考虑确定该算法可能替代的方法。一种常见夸大ML/AI方法效益的方法是避免将ML/AI与无效模型或当前正使用的方法进行任何的比较,而是与低标准的比较对象进行比较(包括不合适或开发欠佳的统计模型),或完全避免进行比较。这个"孱弱比较"的偏倚在当前预后模型报告中普遍存在33。例子之一来自对于弗雷明汉(Framingham)风险评分用于预测10年间心脏病发病风险修正建议的系统综述。该综述显示,大多数建议替代方案的设计、分析和报告都存在缺陷,令人质疑其所谓的"改进预测"的可靠性39。为了简化此过程,我们总结了三个基准,以期构建扎实可信的比较:
使用模型进行未知猜测,例如分类任务中的多数类预测。这是研究人员可以用来检验他们的ML/AI模型是否在进行学习的最简单明了的方法。在某些情况下,概率猜测可能是更合适的基准,但应该针对特定任务决定使用哪种方法。
对于几乎所有的临床问题,都会有一个在几十年来的生物统计学研究中一直被广泛接受的标准统计方法,例如生存建模中的比例风险模型。开发人员和研究人员有使用ML代替标准方法以证明其价值的冲动。最近的证据表明,这些比较通常是不公平的,其对一套方法(通常为ML)而不是对经典统计方法有利40。我们提醒研究人员在进行此类比较时应牢记这一点。
当前的首选方法作为标准,无论它是临床诊断、生化检验或已有的模型。研究人员应展现出其模型是如何与相关金标准进行比较的。ML/AI工具无需比金标准好,但是应说明如何与金标准比较。可能会有提高准确性之外的用处(例如,可能会因为需要较少的数据,所以对更大类别的患者进行预测)。研究者有责任根据具体情况明确阐明这一点。
所报告的ML/AI算法的统计性能收益,经权衡后是否合理?新的诊断或预测工具要证明其可用于日常工作,必须给出在解决特定需求方面比现有方法更具临床意义的优势41。当然,正如前所述,这需要使用适当的性能指标。尽管必要,但仅靠(在临床上)有意义的优势是不够的,因为任何改进必须权衡所需的成本(例如,评估收集额外数据所需的资源)。在最近一篇由Google发布的论文中,研究人员调查了深度学习方法与电子健康病历相结合以预测死亡率、再入院率和住院时长的准确性2。在附录中,论文的作者将他们的深度学习模型和Logistic回归模型进行了比较。三项任务中每项任务的曲线下面积提升范围为0.01~0.02。如果我们假设与统计显著性相关的所有注意事项,以及用于做出决策的报告指标的充分性都能够得到满足,那么实施复杂的ML/AI解决方案的边际收益是否值得?深度学习模型是否更加有效地解决了这一需要?虽然回答上述问题肯定需要根据具体情况而定,但(至少)需要证明以下几点:
开发、部署、使用和维护一种深度学习模型的成本,例如与观察到的改进相关的描述;以及需要更多的子模型,来弥补从人类可解释(例如,具有简单系数或由决策树组成)的模型过渡到ML/AI过程中所丢失的可解释性。
可重复性(问题10~12)其他研究人员可以在什么情况下可获取数据?数据共享本身并不是终点,而是一种增强、验证和分享由ML/AI算法产生的知识的一种手段42。现在大多数主要研究资金资助方都需要申请人概述数据管理和数据共享计划。这可能需要(除其他事项外)将数据与数据字典、长期存档计划一起以通用的格式存储,并提供独立的访问机制(例如,大学伦理委员会或研究和开发部门)。如用于开发ML/AI算法的数据可通过国家数据保管机构访问[例如,临床实践研究数据链接(CRPD)43、数字NHS(NHS Digital)44、医疗保健质量改善伙伴关系(Healthcare Quality Improvement Partnership)45],明确说明数据访问流程,以供其他研究人员进行独立验证。此外,数据共享可通过一系列机制实现,包括:
可将数据置于开放性存储库中,例如datadryad.org46(使用Amnesia等工具匿名处理后存入47);也可置于有限制条件的存储库,例如英国数据档案库(UK Data Archive)48
签署数据共享协议;
提供对存储数据的本地计算机设施的远程访问途径,如可能使用特定受限访问的数据飞地,如芝加哥大学的NORC49,以及电子数据研究与创新服务(the electronic Data Research and Innovation Services)50
公开共享通过隐私保护方法处理过的数据51
我们承认,免费开放共享所有数据是一个遥远的目标,但是,我们希望不久的将来研究者在描述ML/AI算法开发情况时都能明确说明使用哪些工具和机制支持获取算法开发的数据,以便重复研究结果。上述设施的出现意味着公共资金资助的研究拒绝共享数据的借口越来越少,因此,我们强烈建议研究人员尽早确定他们认为最合适的共享数据机制,并确保能与相关合作伙伴达成一致。
预测模型建模路径的代码、软件和所有其他相关部分是否可供其他人使用,以促进可重复性52在包括ML/AI领域在内的许多科学领域中53,54,研究的可重复性已成为人们日益关注的问题。对基础代码和原始数据的访问是预防和减轻影响可重复性问题的中心性环节。最近就有一项关于医学建模研究中重复性问题的例子。该研究对使用麻省理工学院危重病护理数据库(MIMIC)数据发表的文献进行了综述,说明了报告不足会在多大程度上影响预测建模的可重复性9。具体而言,文献中已经发现的可重复性问题不仅出现在试图重现报告的结果中,还出现在作者如何报告数据特征时,例如用于获得可用数据的纳入和排除标准。在综述中,作者对基于相同核心数据集(MIMIC)的28个预测死亡率的研究进行了评估总结,并得出了两个重要结果。在被评估的研究中有超过一半的研究,重复获取的样本量与报告的样本量有超过25%的差距,这是由于纳入或排除标准描述不够清晰造成的。不充分报告的结果是,在重复过程中使用现成逻辑回归和提升树回归处理重复获取的样本,结果在这28项研究中分别有64%和82%的研究产生了比原始报告中的ML/AI模型更好的结果。
通过提供项目编码,特别是与数据清理和预处理有关的编码可以轻松避免这些问题。使用常规收集的健康数据所进行的研究可参照RECORD报告指南,其建议已为此类问题提供了详细的信息55,还提供一些潜在的解决方案以促进这一过程,包括像GitHub这样的代码共享和项目托管平台。然而,我们承认,出于各种原因,并不总能达到理想的共享水平56。我们强烈建议在可能的情况下,研究人员应将注释文件代码和包括软件版本控制信息在内的合理信息存档,以支持其他研究者尝试重现其结果57
在数据和结果产生方面是否有组织透明性?患者对数据流的透明性以及如何保护他们的数据有强烈的主观意愿58。为了让患者及临床医生信任ML/AI模型,他们需要了解其与模型开发之间的互动,无论这些互动存在于公共、非营利和工业部门组织之间还是在它们内部(例如,从医院的一个科室转移到另一个科室)。符合前述法定框架(例如,欧盟的通用数据保护条例)是必要的,但不足以显示ML/AI研究值得信赖所需的透明度。所需的细节将因涉及的机构以及所进行工作的性质有所不同。因此,ML/AI算法开发人员以及参与数据访问、传输或存储的人员有责任让关键利益相关者了解每种具体情况下的要求。报告程序有助于确保上述互动的透明度的措施之一就是要求有关各方都提交明确的利益声明。
影响评估(问题13~16)结果是否可以推广到系统开发的环境之外(即结果的可重复性/外部有效性59)?即使ML/AI开发之前,也很少有对诊断和预后工具的验证研究60。在外部验证研究中,预计模型的预测准确性(相对于其在开发中的原始性能)会降低61,62。从急性肾病患者的死亡风险预测63到老年人跌倒的风险预测64,系统综述已经反复观察到了这种在将经典的统计学模型应用于各种医疗保健相关的预测性任务时准确性降低的现象。这种现象是如何与结果可重复性相关联的(即,在遵循相同的实验方法前提下,一项新研究可证实该结果65)尚不清楚。可能是因为建模文献未充分报告观察所得造成的59,也可能是其他相关问题所致。考虑到ML/AI算法带来的额外复杂性,开发人员应积极确保提供足够信息,以允许他们的模型进行严格但公平66的外部验证(最好由独立的研究人员进行认证)。这项工作可能包括在计划阶段就确定用于验证实验的潜在数据集,并行收集验证数据集,或使用模拟数据以说明该模型的效果符合预期。
该模型是否会在年龄、性别、种族或其他受保护的特征方面引起或加剧医疗保健方面的不平等现象?对偏倚和公平性的系统测试是已知模型选择的首要决策步骤,以最大程度地减少可能由使用ML/AI算法而引起的不平等现象67。尽管许多ML/AI算法在开发时会有偏倚,但也应该与正在使用的系统中的偏倚进行比较。在不同人群的错误的比例分配就是ML/AI算法产生偏倚的一种方式。
ML/AI算法的开发方式[包括关键人群(以性别、年龄和种族进行界定)是否在数据中充分体现,并包括在内在算法的训练中]可以影响不同亚组中算法的预测准确性。因此,当这些预测作用于个人时,可能造成或加剧不平等现象68。数据不能真正代表整个目标人群的问题是特别重要的69,因为它突现了在项目周期中每个点进行公平性考量的重要性。这些问题是如何在真实世界中体现的案例还有ProPublica对累犯预测工具(惩教罪犯管理档案代替性软件)10的分析以及对美国的糖尿病筛查标准的分析70,二者都说明了一种算法在应用于不同种族时性能发生的变化。
要调查的性能变化类型取决于应用算法帮助确定的后续行动(或干预)。如果干预费用昂贵或有不良副作用,那么我们希望最小化不同亚组间的假阳性预测数量的差异以防止不必要的伤害。如果干预主要是辅助性的,我们应该更多关注假阴性的差异,以防止个人错过了潜在的有益行动。上面的解释假设了已经设置了一个决策阈值,这有时可能不在开发人员的职责范围之内。但是,开发人员仍然需要证明在使用合理的阈值时,该算法不会产生或加剧不平等现象。其实公平性评估领域已发展出几种方法可支持这种类型分析71,72,73,ML/AI开发人员和医疗保健从业人员应该学会使用这些工具。有一种研究人员在说明关键亚组(例如,少数民族组或按年龄分组)中偏倚的方式,就是明确呈现这些结果,这样算法的用户就可知道算法在哪里使用有较好或较差的预测准确性。
有什么证据表明临床医生和患者可以认为模型和其产出结果(合理)可解释?临床上是否使用某个算法取决于两个主要因素:临床实用性和可信赖性。当预测模型的输出结果不能直接回答特定的临床问题,其用途便是有限的(如前所述),而处理流程难以向一般受众进行解释和证明的算法即便有较为稳定且清晰的统计学收益,但始终会限制对其输出结果的信任74。但是,算法具有可解释性的重要性不仅仅因为其可增加信任度75。最近的立法中的变化(例如,欧盟通用数据保护条例)引入了对个人额外的保护条例(包括有权得到如何做出决定以及在何处适用的解释76),从而为深入了解算法学习的基本决策过程创建了相应的法律要求。当使用ML/AI方法时,可以使用一些局限性解决方案,包括模型特定的和模型不可知的方法(例如LIME77)来弥补一些可解释性。为建立信任而进行解释的法律和道德负担会随着决策的性质而发生变化。当ML/AI应用于分配可能延长寿命的治疗资源这样的健康领域时,需要更高的解释负担来满足那些受影响的人。因此,任何解释的充分性和理解方法的恰当性,只能通过与最终用户(临床医生)以及目标受众(患者)的协商和合作来确定。
如何在特定临床状况下产生真实世界模型有效性的证据,以及如何预防意想不到的后果?ML/AI工具通常戴有"技术先进"这类误导性光环。一旦将它们用于临床实践,这类误导性光环就会限制了人们对其性能、临床使用以及总体使用进行仔细验证。最近的一篇系统综述显示,(在共计一百万项试验中)仅有几百项随机临床试验验证了诊断测试的使用方式是如何影响临床结果(从而影响临床效用)的78。对于ML/AI领域,巴比伦健康公司的症状检查器用于患者分类,已在少量全科诊所中进行了测试。在早期测试中,患者焦点小组担心患者可能通过"哄骗症状检查器来获得全科医生的预约。4"这个例子说明了算法在现实世界中并非总是按预期使用,这些因素需要通过实际临床试验进行评估79。尽早考虑基于ML/AI的工具可能存在的陷阱及其解决方案将有助于研究人员建立更好的信息框架,来完善他们的产品。
实施(问题17~20)如何定期重新评估模型,并根据数据质量和临床实践进行更新(即部署后监管)?即使有证据表明模型的效能以及真实世界有效性足以支持其在临床实践中的广泛应用,但鉴于医疗环境的动态场景,故其有效性仍需要连续评估。例如,自美国食品药品监督管理局(FDA)1998年首次批准计算机辅助诊断程序使用以来80,其已成为全球乳腺癌筛查计划不可或缺的部分,但它们还像20年前一样有用吗?大多数商用工具是基于神经网络,先识别感兴趣区域,然后对发现的异常区域(例如钙化或肿块)做出诊断。早期研究表明,与没有借助辅助系统的临床医生相比,使用计算机辅助诊断或检测(CAD)系统的乳腺癌检出率略有提高1,81。但是,距FDA发布首个基于乳腺影像的CAD系统许可证已近20年。经基于国家注册的研究表明,在乳腺X线摄影判读时使用CAD,其诊断准确性并没有显著提高82。此外,研究人员最近证明基于乳腺摄影的CAD系统产生的错误提示致使诊断经验丰富的用户对于困难病例的诊断敏感度降低了0.145(95%的可信区间为0.034~0.257)83。尽管这对并不是乳腺癌CAD系统的全面评估,但是该结果还是提示对于技术持续进行再评估的重要性,因为其实用性会随着时间而改变。研究人员在计划和开发模型性能时应考虑到再评估事宜,因此,他们需要尽早讨论促进这一过程需要哪些必要机制,以及如何在开始实施时(而不是在计划外的几年后)就将这些机制整合进来。
ML/AI模型在构建、实施和维护方面是否具有成本效益?尽管ML/AI算法可能会给医疗保健系统和患者带来革命性的效益,但软件开发、数据生成和使用、在临床实践中应用新系统,并根据获得的额外信息采取行动等,都需要付出可观的成本。了解新模型的潜在临床效益(在当前的实践之上)以及使用这些模型带来的开销以及资金节约,应构成决策者对基于ML/AI技术进行评估的重要组成部分。有效的评估需要开发能同时考虑有效性证据和经济影响证据的评估框架。在这一领域,医疗保健决策者(例如国家健康与临床优化研究所和FDA)起着十分关键的作用。他们可以为ML/AI模型开发人员提供明确的指南,说明如何生成的适当证据,以证明模型的有效性和经济影响,具体包括:与模型技术的准确性有关的可靠证据;在全科实践中显示临床有效性的相关结果;并酌情提供证据告知决策者预算影响或成本效益。研究人员应在计划项目时就对他们的工具或算法最终如何实施运作了然于心。
如果ML/AI模型进行商业化,如何分配潜在的经济效益?像所有技术一样,ML/AI算法也有市场价值。在以商业化为目标的情况下,医疗系统和政府研究经费基金可以通过承担不可收回成本,对算法的研发提供支持。这些成本可以是数据采集(临床医生的时间,扫描设备)、数据注释(培训对数据进行最终解释的临床医生),以及开发人员时间(即他们是由公共资金支持的研究人员)等。这一问题在公共资金资助的医疗系统中更为重要,因为在这类系统中,数据生成机构和ML/AI开发机构间的共生关系得以存续,需要将数据使用而产生的效益(在一定程度上)保留在医疗系统中,从而满足与公众的社会契约。因此,应确认医疗系统或机构对于算法的投资或贡献,并且建立相应的补偿机制。在算法或基于ML/AI的工具开发完成后才回答这个问题通常充满了复杂性,可能需要数年才能解决的。因此,我们强烈建议研究人员和开发人员在项目规划阶段就明确其机构的创新途径,包括商业化途径以及实现这一目标的框架。
认证/批准所需的监管要求是如何解决的?包含ML/AI算法的软件产品可能会受到许多法规要求的影响,具体取决于从研发到投放市场过程中产品的使用环境(框图2提供了英国监管框架的高度概括)。根据我们的经验,虽然大多数临床医生都知道实体设备的"CE"标记(欧盟和英国的监管框架),其在软件产品中的应用通常十分令人惊讶,在软件开发人员中的情况也是如此。鉴于在过去十年中,与健康相关的基于ML/AI软件的监管环境发生了很大变化,并在可预见的未来将继续根据实际情况做出动态反应,因此在研究项目的规划阶段就要讨论如何满足监管要求。然而,一次对话显然不够。例如,内部开发和使用的设备(在英国)当前不受设备法规限制,但这将在2020年新的法规适用时发生变化87,88,因此,有必要定期审查是否合规。
结论:从关键问题到共识性TREE框架与过去几十年中,临床医生通过使用评估证据强度的框架而获益匪浅。与之类似,ML/AI领域应学习传统统计学方法在产生临床证据和保证质量路径上发挥的作用6,19,89,90,91,92,93。但是,正如我们所看到的,一些全新的、不同的挑战正不断出现。鼓励患者、临床医生、学者和各种医疗决策者提出这些具有挑战性的问题,有助于开发安全有效的基于ML/AI的医疗保健工具。为如何在ML/AI领域进行有效且符合伦理的研究制定一个明确的框架将涉及许多挑战。这些挑战包括查找通用术语(关键术语的含义部分或完全重叠),在不限制创新的情况下需要平衡关于有效性的有力的经验证据,确定如何最好地管理有关开发和结果沟通最佳实践方面的开放性问题,不同交流和报告场所的作用,同时给出详细的建议为非专业者提供可行的指导,并平衡透明化的需要以防止知识产权被破坏的风险。应对这些在透明度、可重复性、伦理和有效性方面的挑战,对于从ML/AI中获得健康效益至关重要。

BMJ 2020;368:l6927 doi: 10.1136/bmj.l6927





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存