Stanford HAI|基础模型颠覆医疗人工智能
这类新型模型可能会带来更实惠、更容易适应的健康人工智能。
来自:Stanford HAI,HealthX编译+评注,欢迎讨论!
在过去的一年里,针对文本、图像、视频和其他模式的人工智能(AI)的发展取得了一系列令人眼花缭乱的进步。GPT-3、BLOOM和Stable Diffusion以它们写诗、总结文章、解决数学问题、将文本描述转化为图像甚至视频的能力,抓住了公众的想象力。像ChatGPT这样的人工智能系统可以以惊人的流畅性回答复杂的问题,CICERO(注:由Meta开发的一款策略型AI游戏)在外交方面表现得和人类一样好,这是一款需要使用自然语言与其他玩家进行谈判和制定策略的游戏。这些例子突出了基础模型在支持人工智能创新方面的作用——基础模型是根据大量、未标记的数据训练的,以及对新应用的高度适应性。事实上,《经济学人》观察到,基础模型的兴起正在通过提供通用技术来驱动长期生产力和增长的通用技术,将人工智能推向其“工业时代”。
然而,在医疗保健领域,从令人印象深刻的技术展示向真正部署的人工智能系统的转变一直是一个挑战。尽管人工智能有望改善临床结果、降低成本和有意义地改善患者生活,但很少有模型被部署。例如,在用于预测COVID-19患者预后的大约593个模型中,几乎没有一个被用于患者护理。由于医疗数据获取的困难性,比如严重依赖于医疗IT系统中的非标准化的自定义数据提取(注:或者说现有医疗IT系统为什么要白给你数据用来训练AI?)、回顾性训练集(Ad hoc training set)以及手动维护和监控机制(谁来维护这个系统?医生还是公司?),在医疗保健中创建和部署模型经常被技术性阻拦。
在这篇文章中,我们将讨论基础模型(Foundation Model)对“医疗保健中的人工智能”做出的范式改变。首先,我们概述了什么是基础模型及其与医疗保健的相关性。然后,我们强调我们认为下一代医学基础模型提供的关键机会,特别是:
1. 人工智能的适应性与更少的人工标注(注:原来阻碍AI系统构建,或者说某些医疗AI公司所谓的壁垒-医生标注,这个问题逐渐将不是问题)
2. 模块化性、可重用性和健壮的AI
3. 使多模态成为新的常态
4. 人类与人工智能协作的新接口
5. 减轻在医院中开发、部署和维护人工智能的成本
什么是“基础模型”?
“基础模型”是Bommasani等人在2021年创造的一个新术语,旨在确定一类人工智能模型,它们利用了深度学习的经典思想,但有两个关键区别:
1. 从大量的未标记数据中学习:先前的深度学习方法需要从大型的、手动标记的数据集中学习,以达到较高的分类精度。例如,用于皮肤癌和糖尿病视网膜病变分类的早期深度学习模型需要近13万张临床标记的图像。基础模型在一个被称为“预训练”的过程中使用了自我监督学习的进步,该过程涉及到一个简单的学习目标,如预测句子中的下一个单词或重建图像中的掩蔽像素块。虽然这种简单性允许使用数十亿个可学习的参数来训练基础模型,但它也需要大量的、未标记的数据集和大量的计算资源。例如,GPT-3使用45TB的文本进行训练,而BLOOM使用Jean Zay超级计算机进行训练花费了100万个GPU小时——相当于一个Nvidia A100 GPU的100多年。
2. 具有更好的样本效率的适应性:基础模型在预训练期间学习有用的模式,并将这些信息编码为一组模型权重。该预训练模型是通过迁移学习快速适应新任务的基础。这个过程可能并不是什么新鲜事,但它使得基础模型在迁移学习方面比之前的人工智能方法更有样本效率。这意味着模型可以使用较少标记的例子迅速适应新任务,这在许多医疗环境中是至关重要的,这些疾病或兴趣结果可能罕见或复杂的规模标记。
为什么基础模型会颠覆医疗保健?
人们普遍认为,信息包含在电子健康记录(电子病历)—编码形式如国际疾病分类(ICD)和当前程序术语(Current Procedural Terminology,CPT)代码以及非结构化形式如文本和图像,可用于学习分类、预测或生存模型,协助诊断或使积极干预。这个预期是明确的。然而,尽管具有良好的预测性能,在EHR数据上训练的模型并不能以更好的护理或更低的成本的形式转化为临床收益,这导致了一个被称为人工智能鸿沟的差距。还有人担心,目前的模型不是有用的、可靠的或公平的,这些失败仍然隐藏着,直到由于偏见或拒绝医疗保健服务而导致的错误引起公众的强烈抗议。(注:医疗AI就是定时炸弹,医生出错比如最近,或者系统出错比如误诊,病人出错比如不会用系统都会引爆这个炸弹)
更重要的是,医疗AI模型的创建和管理仍然是手工的和昂贵的(注:各种开会确定需求,医生标注,模型训练)。医疗AI模型需要自定义数据提取,成本超过20万美元,端到端项目成本超过30万美元,每个模型和项目承担的下游维护费用在很大程度上是未知的和不可估算的(斯坦福估计模型开发成本,国内成本基本在三分之一左右)。简单地说,医疗保健中现有的“模型”的开发和总成本太高,很可能由于新的报告指南、法规和实践建议而上升——与此同时这些AI建议的依从率仍然很低。(参考首批医疗AI上市公司股价和季度报告)
如果我们能减少花在培训模型上的时间和精力,那么我们就可以专注于创建模型导向的护理工作流程,并确保模型是有用的、可靠的和公平的,并根据它们运作的临床工作流程提供信息。
基础模型的好处是什么?
基础模型提供了几个优势,可以帮助缩小人工智能在医疗保健领域的鸿沟。
1. 具有较少标记的例子的适应性
在医疗保健领域,模型通常针对脓毒症预测等单一目的进行训练,并作为随时随地安装的软件分发。这些模型经过训练,使用生物输入(如实验室检测结果,在患者群体中更稳定)和操作输入(如护理模式,它们是可变的,往往是医院特有的)来执行分类或预测任务。但是模型的泛化性往往很差(https://pubmed.ncbi.nlm.nih.gov/34152373/),这反过来又限制了它们的使用。
EHR的顶级供应商Epic最近开始在部署前对一家医院的脓毒症模型进行再训练,因为该算法因性能不佳而受到广泛批评。https://www.statnews.com/2022/10/03/epic-sepsis-algorithm-revamp-training/
需要针对特定的患者群体和医院数据进行再训练,这给使用人工智能造成了成本、复杂性和人员障碍。在这里,基础模型可以提供一种机制,以快速和廉价地适应模型以供本地使用。基础模型不是专门用于单一的任务,而是从未标记的数据中捕获广泛的知识。然后,从业者可以调整现有的基础模型,而不是从头开始训练模型,这一过程需要更少标记的训练数据。例如,当前一代的医学基础模型报告说,在适应新任务时,训练需求减少了10倍。https://www.nature.com/articles/s41746-021-00455-y
对于临床自然语言提取任务,像GPT-3这样的大型基础模型只使用一个训练示例就可以获得强大的性能。(One shot learning。注:few shot learning必将颠覆现有医疗AI公司,时间问题)
模块化性、可重用性和健壮性的AI
安德烈·卡帕西的软件2.0的想法(https://karpathy.medium.com/software-2-0-a64152b37c35)预期将软件开发的一些部分从代码的编写和维护过渡到使用A智能模型。在这个范例中,从业者通过设计数据集,然后训练商品人工智能模型来取代软件堆栈的关键层,来编码所期望的行为。(注:比如之前要分词要自己写算法,现在直接调用OpenAI API)我们已经看到了软件2.0的好处,它来自于Hugging Face等公司的模型中心,这使得共享、记录和扩展预先训练过的模型比以往任何时候都更容易。
由于基础模型的培训成本很高,但很容易适应新任务,因此共享模型使开发人员社区能够在现有工作的基础上进行构建并加速创新。使用共享的基础模型还可以让社区更好地评估这些模型的局限性、偏见和其他缺陷。我们已经看到这种方法正在医疗环境中被探索,而在NLP方面的努力,如GatorTron、UCSF BERT等。
基础模型改变医疗AI开发流程:大模型通用表征各种模态医疗数据,赋能下游任务:问答、图表总结、图像分析、风险分级、相似病例
医学基础模型还提供了除了改进分类性能和样本效率之外的好处。在我们小组使用结构化EHR数据的基础模型CLMBR进行的研究中https://www.sciencedirect.com/science/article/pii/S1532046420302653,我们发现适应的模型对ICU入院等任务表现出更好的时间稳健性,在这些任务中,表现随着时间的推移而衰减更少。https://www.medrxiv.org/content/medrxiv/early/2022/04/19/2022.04.15.22273900.full.pdf
使多模态成为新的常态
今天的医学人工智能模型通常使用单一的输入模式,如医学图像、临床记录或ICD代码等结构化数据。然而,健康记录本质上是多模式的,包括医疗服务提供者的笔记、账单代码、实验室数据、图像、生命体征,以及越来越多的基因组测序、可穿戴设备等。EHR的多模态性只会继续增长,从2008年到2015年已经增长了20倍。任何孤立的方式都不能提供一个人的健康状况的完整画面。分析医学图像的像素特征通常需要查阅结构化记录来解释研究结果,那么为什么人工智能模型应该局限于单一的模态呢?
医疗数据的多模态属性,文本,代码,图像,过程,信号。
基础模型可以在训练期间结合多种模态。像Stable Diffusion这样的模型的许多神奇的科幻能力都是从语言和图像中学习的产物。从医疗数据中表示多种模式的能力不仅可以更好地表示用于下游应用程序的患者状态,而且还为与人工智能的交互开辟了更多的路径。临床医生可以使用异常的自然语言描述查询医学成像数据库,或使用描述生成具有反事实病理的合成医学图像。
人类与人工智能协作的新接口
当前的医疗保健人工智能模型通常生成的输出会呈现给临床医生,而临床医生对于询问和改进模型输出的选择有限。基础模型为与人工智能模型的交互提供了新的机会,包括自然语言界面和参与对话的能力。通过构建自然语言指令的集合,我们可以通过指令调优来微调模型,以提高泛化性。
在医学领域,我们还没有一个良好的机制来系统地收集临床医生在与电子病历互动时产生的问题类型。然而,在医学上采用基础模型将把这些类型的人工智能合作放在前沿和中心。在高质量的训练数据集上的训练似乎是ChatGPT和更小的开放语言模型的许多令人惊讶的能力背后的秘密武器。事实上,OpenAI已经在招募人工智能专家教师,他们可以帮助向下一代GPT模型教授专业领域的知识。
减轻在医院中开发、部署和维护人工智能的成本
目前的“医疗人工智能”模式,即为单一临床任务开发、部署和维护分类器或预测模型的成本可能超过20万美元,这是不可持续的。商业解决方案也存在不足,因为供应商通常根据每个模型或每个预测基础向健康系统收费。很明显,我们需要一个更好的范式,而不是一个模型、一次数据拉取、一个项目每个用例的思维模式,我们专注于创建构建更便宜、具有可重用部分、可以处理多种数据类型以及对底层数据的变化具有弹性的模型。
类似于医疗保健部门通过FHIR和其他EHR API关注标准化患者级数据访问,通过API提供基础模型以支持特定任务的后续模型的开发,可以显著改变医疗保健领域培训模型的成本结构。具体来说,我们需要一种方法来摊销(从而降低)原型化、验证和部署任何给定任务的模型的成本(如在许多其他任务中识别未确诊的外周动脉疾病的患者),以便使这种开发可行。通过api广泛共享的基础模型,有潜力提供这种能力以及灵活性,以检查已经驱动了其他领域创新的涌现行为。【理想很丰满,但是医疗大模型还停留在科研、商业噱头阶段,如何落地,HealthX希望邀您一起探索!】
通过减少训练模型所需的时间和精力,我们可以专注于确保它们的使用导致资源的公平分配,从而有意义地提高临床护理和效率,并为医疗保健中的人工智能创建一个新的、超级增压的框架。采用基础模型是实现这一最终愿景的一条很有前途的道路。
【完】
希望对你有所收获!基础模型势在必行,欢迎加入我们!
我们开发了首个医疗GenAI与通用AI系列课程,邀你来一起创造医疗AI的未来!
干货课程报名|HealthX团队前沿与实践:医疗中的GenAI与通用AI