01
背景和起因
概要:
2020年9月9日,SPIRIT-AI和CONSORT-AI在《Nat Med》、《BMJ》、《The Lancet Digital Health》杂志同步发表,为如何设计、开展和报告涉及AI的临床试验提供了框架。
SPIRIT-AI是对临床试验方案指南SPIRIT 2013的扩展,CONSORT-AI是对临床试验报告指南CONSORT 2010的扩展。
01
背景和起因
如今,人工智能(AI)在各个行业的发展如火如荼。通过交叉融合,AI在许多行业中开辟出了新的应用场景。就医疗行业来说,AI算法越来越多的涉及到医学中疾病症状分类、疾病筛查(如AI医学影像)、诊断、预测、决策支持(如合理用药)、治疗建议等方面。
然而,越来越多的人开始意识到,涉及AI的干预措施需要进行严格的评估,以证明其对健康结果的影响,消除潜在的风险。
随机对照临床试验(RCT)通常被认为是评估干预措施(如药物治疗、手术等)效果的黄金标准。涉及AI的干预措施要在医疗体系中被接受并实施,就需要在设计良好的RCT中测试,并以标准化和透明的方式报告结果。
在这种情况下,关于这类临床试验的方案和报告的首份指南适时出现。SPIRIT-AI和CONSORT-AI提供了更好的方案设计、一致且完整的数据表示,将极大地促进这类试验的解释和验证,推动这一领域的发展。
02
涉及AI的临床试验
我们先用两个案例,来介绍目前涉及AI的临床试验。
每年有数百万患者需要麻醉,在此期间,低血压是常见的,并且与不良后遗症有关。荷兰的一个研究小组采用RCT,考察了一个基于机器学习的早期预警系统能否有效减少术中低血压的出现。
这个早期预警系统事先对1000多名患者的动脉波形数据进行机器学习建模,在试验中,该系统将根据患者的多个参数来预测未来低血压的可能性。
具体的研究过程是,对随机的68名择期全麻非心脏手术患者进行术中管理,分基于AI的预警系统组(干预组)和标准护理组(对照组)。试验设定了术中低血压时间加权平均值、患者的平均低血压发作次数、低血压平均分钟数等观察指标。
试验结果表明,该预警系统降低了患者术中低血压的深度和持续时间,降低了患者低血压的风险。
该研究于2020年2月发表在《JAMA》上。
尽管胰岛素泵和连续葡萄糖监测设备的使用越来越多,然而大多数1型糖尿病患者的血糖控制水平仍然不够理想。
一项为期6个月的RCT试验ADVICE4U,考察了基于自动化AI的决策支持系统(AI-DSS),在胰岛素剂量调整的指导上,是否与医生的指导一样有效和安全。
研究对象为108位年龄在10-21岁之间的1型糖尿病患者,均使用胰岛素泵治疗。患者按照AI-DSS(AI-DSS组,n=54)或医师(医师组,n=54)的指导,每三周1:1随机接受远程胰岛素剂量调整。主要指标为在目标血糖范围(70-180 mg dl-1(3.9-10.0 mmol l-1))内的时间百分比。
AI-DSS组与医师组相比,目标血糖范围内的时间百分比在统计学上无差异(分别为50.2±11.1%和51.6±11.3%,P<1×10-7)。并且,在医师组中报告了与糖尿病相关的三个严重不良事件(两个严重的低血糖,一个糖尿病性酮症酸中毒),而在AI-DSS组中无报告。
试验使用的AI-DSS是以色列DreaMed Diabetes的The DreaMed Advisor Pro,该产品已于2018年6月获得FDA批准。
该研究于2020年9月发表在《Nat Med》上。
AI算法的最新技术进步为临床研究和临床问题的解决带来了广阔的前景,针对AI的临床试验也正在开展,然而这些试验缺乏统一的标准。这导致很多试验在关键方面报告不足,或缺乏外部验证,或不够透明。
03
SPIRIT-AI和CONSORT-AI的起源
不同的临床试验方案指南差异较大,并且可能不够系统,存在较多缺陷。
因此在2007年,一个国际小组 (the SPIRIT Group)发起了SPIRIT计划,广泛咨询了115位代表不同利益主体的专家的意见,包括试验研究者30人、医疗专业人员31人、方法学专家34人、统计学家16人、试验协调者14人、杂志编辑15人、研究伦理委员会代表17人、企业和非企业资助者7人及监管机构人员3人,以帮助提高试验方案的完整性和质量。最终在2013年发布了SPIRIT声明,以及随附的解释与阐述文件。
SPIRIT 2013是一个完整的、系统的规范,主要用于临床试验方案的内容设计,主要适用对象为RCT,被广泛认可为是试验方案的国际标准。
SPIRIT-AI用于评估具有AI成分的干预措施的临床试验方案。
为了提高RCT的报告质量,减少RCT报告中重要信息缺失的情况,在1993年,30名生物医学期刊编辑、临床试验专家、流行病学专家齐聚加拿大渥太华,通过了《试验报道标准》(简称“SORT声明”)。此后,另由专家组成的Asilomar工作组在美国加利福尼亚州召开了类似的会议,也发布了类似的建议。1996年,SORT小组和Asilomar工作组共同商议,将“SORT声明”和“Asilomar建议”合并。
CONSORT声明于1996年在《JAMA》上首次发表,经过2000年和2010年两次修订,并衍生出了不同试验类型的扩展版。CONSORT声明已经被多种主流生物医学期刊和编辑组织采用,成为评价RCT报告质量的国际推行标准。
此次发布的CONSORT-AI,便是针对具有AI成分的干预措施的报告指南的扩展。
可以通过https://www.clinical-trials.ai/consort查询CONSORT-AI的条目。
04
SPIRIT-AI和CONSORT-AI的形成过程
方法
SPIRIT-AI和CONSORT-AI计划的公告于2019年10月在《Nat Med》上发布。并且这两个指南于2019年5月在EQUATOR报告指南库中注册为正在制定中的指南。根据EQUATOR的方法框架,由15名国际专家组成的SPIRIT-AI和CONSORT-AI指导小组成立,以监督研究的进行和研究的方法。
伦理批准
该研究得到英国伯明翰大学伦理审查委员会(ERN_19-1100)的批准。
资料综述和候选条目生成
研究通过审查已发表的资料,并与指导小组和知名国际专家进行磋商,生成了SPIRIT-AI和CONSORT-AI候选条目的初始列表。
搜索工作于2019年5月13日进行,使用术语“人工智能”、“机器学习”和“深度学习”搜索ClinicalTrials.gov中列出的涉及AI的干预措施的现有临床试验。在316项注册试验中,62项已完成,7项已公布结果。运营团队(XL,SCR,MJC和AKD)从这些试验中确定了AI特定的考虑因素,并将其重新设计为候选条目。
在与指导小组和其他国际专家(n=19)协商后,研究生成了29个候选条目,其中26个与SPIRIT-AI和CONSORT-AI相关,其中3个仅与CONSORT-AI相关。
Delphi共识流程
2019年9月,169位主要国际专家被邀请参加在线Delphi(一种研究方法)调查,以对候选条目进行投票并提出其他建议。
这些专家包括医疗保健专业人员、方法学家、统计学家、计算机科学家、行业代表、期刊编辑、政策制定者、卫生信息学家、法律和道德专家、监管者、患者和资助者。
调查的结果为随后的国际共识会议提供了依据。Delphi研究参与专家提出了12个新条目,并在共识会议上进行了讨论。
为期两天的共识会议于2020年1月举行,由英国伯明翰大学主办,旨在就SPIRIT-AI和CONSORT-AI的内容达成共识。
清单试点
协商会议之后,SPIRIT-AI和CONSORT-AI通过清单试点(34位参与者)进行完善。与会者有机会就措辞发表最后评论。
05
SPIRIT-AI的条目和说明
SPIRIT-AI的15个条目包括:
管理信息
• SPIRIT-AI 1(i)说明:表明AI/机器学习相关的干预措施并指明模型类型
• SPIRIT-AI 1(ii)说明:陈述AI干预的预期用途
介绍
• SPIRIT-AI 6a(i)扩展:在临床路径的背景下解释AI干预的预期用途,包括其目标和预期用户(例如,医疗保健专业人员,患者,公众)
• SPIRIT-AI 6a(ii)扩展:描述有关AI干预的任何现有证据
受试者,干预措施和结局
• SPIRIT-AI 9扩展:描述将AI干预纳入试验环境所需的现场和非现场要求
• SPIRIT-AI 10(i)说明:在受试者层面陈述纳入和排除标准
• SPIRIT-AI 10(ii)扩展:在输入数据层面说明纳入和排除标准
• SPIRIT-AI 11a(i)扩展:说明将使用哪个版本的AI算法
• SPIRIT-AI 11a(ii)扩展:指定为AI干预获取和选择输入数据的过程
• SPIRIT-AI 11a(iii)扩展:指定评估和处理质量差或不可用输入数据的过程
• SPIRIT-AI 11a(iv)扩展:指定在输入数据的处理中是否存在人机交互,以及用户需要什么专业知识水平
• SPIRIT-AI 11a(v)扩展:指定AI干预的输出
• SPIRIT-AI 11a(vi)扩展:解释AI干预的结果将如何对决策或其他临床实践因素作出贡献的程序
监测
• SPIRIT-AI 22扩展:指定任何计划来识别和分析性能错误。如果没有这样的计划,解释为什么没有
伦理与传播
• SPIRIT-AI 29扩展:说明是否以及如何访问AI干预和/或其代码,包括对访问或重复使用的任何限制
SPIRIT-AI的条目说明
06
CONSORT-AI的条目和说明及流程图
CONSORT-AI的14个条目包括:
标题和摘要
• CONSORT-AI 1a,b(i)说明:表明AI/机器学习相关的干预措施的标题和/或摘要,并指明模型的类型
• CONSORT-AI 1a,b(ii)说明:在试验标题和/或摘要中说明AI干预在试验中的预期用途
介绍
• CONSORT-AI 2a(i)扩展:在临床路径的背景下解释AI干预的预期用途,包括其目标和预期用户(例如,医疗保健专业人员,患者,公众)
方法
• CONSORT-AI 4a(i)说明:在受试者层面陈述纳入和排除标准
• CONSORT-AI 4a(ii)扩展:在输入数据层面陈述纳入和排除标准
• CONSORT-AI 4b扩展:描述如何将AI干预整合到试验环境中,包括任何现场或非现场要求
• CONSORT-AI 5(i)扩展:说明使用了哪个版本的AI算法
• CONSORT-AI 5(ii)扩展:描述AI干预如何获取和选择输入数据
• CONSORT-AI 5(iii)扩展:描述如何评估和处理质量差或不可用的输入数据
• CONSORT-AI 5(iv)扩展:指定在输入数据的处理中是否存在人机交互,以及用户需要什么专业知识水平
• CONSORT-AI 5(v)扩展:指定AI干预的输出
• CONSORT-AI 5(vi)扩展:说明AI干预的输出如何有助于决策或临床实践的其他要素
结果
• CONSORT-AI 19扩展:如果适用,描述对性能错误的任何分析结果,以及如何识别错误。如果没有计划或进行此类分析,请说明为什么不这样做
其他信息
• CONSORT-AI 25扩展:说明是否以及如何访问AI干预和/或其代码,包括对访问或重复使用的任何限制
CONSORT-AI的条目说明
CONSORT-AI流程图
图3 适用于涉及AI的临床试验的CONSORT 2010流程图
07
总结和展望
语音和文本数据集的标准。由于当前涉及AI的临床试验主要集中在影像方面,因此SPIRIT-AI和CONSORT-AI也主要是围绕图像处理相关的AI临床试验建立标准,目前还没有针对语音和文本数据集的详细的、有意义的推荐标准。
无监督学习、自监督学习的标准。到目前为止,几乎所有的AI临床应用都使用了监督学习,然而关于如何处理无监督学习、自监督学习的形式,还是未知。
算法锁定。深度神经网络的一个特别优势是自主学习能力,学习的数据越多,性能就越好。这种能力显然可以用来为医疗服务。然而,监管层面对这种算法尚无监管框架。目前,当一个算法被发布时,它就被冻结了,称为算法锁定(“locked” algorithm),这就抑制了AI潜在的最强大的能力之一。
1.TopolEJ. Welcoming new guidelines for AI clinical research. Nat Med. 2020; 26(9): 1318-1320.
2.https://www.clinical-trials.ai/
3.AngusDC. Randomized Clinical Trials of Artificial Intelligence. JAMA. 2020; 323(11): 1043-1045.
4.NimriR, Battelino T, Laffel LM, et al. Insulin dose optimization using an automatedartificial intelligence-based decision support system in youths with type 1diabetes. Nat Med. 2020; 26(9): 1380-1384.
5.CruzRivera S, Liu X, Chan AW, et al. Guidelines for clinical trial protocols forinterventions involving artificial intelligence: the SPIRIT-AI extension. NatMed. 2020; 26(9): 1351-1363.
6.LiuX, Cruz Rivera S, Moher D, Calvert MJ, Denniston AK; SPIRIT-AI and CONSORT-AIWorking Group. Reporting guidelines for clinical trial reports forinterventions involving artificial intelligence: the CONSORT-AI extension. NatMed. 2020; 26(9): 1364-1374.
7.顾佳,石朝云. CONSORT声明:评价随机对照试验报道质量的标杆[J]. 中华临床营养杂志, 2012 (03): 131-135.
(Chris)
----------- End -----------