arXiv:
https://github.com/LibertFan/AI_Hospital
Github:
https://arxiv.org/abs/2402.09742
近年来,人工智能在医疗保健领域取得了显著进展,特别是大语言模型(LLMs)在多个医学问答数据集上中展现出与人类专家相媲美的卓越表现。然而,将 LLM 直接应用于临床诊断仍面临诸多挑战。现有研究主要集中在大模型在静态医学问答上的性能,忽视了患者与医生之间的动态互动过程。在实际就诊场景中,由于患者医学知识有限,难以准确、全面地表达自己的身体状况,因此对医生的指导和澄清有很强的依赖性。尽管以患者为中心的动态诊断过程至关重要,但目前鲜有研究评估 LLM 在模拟这一互动方面的能力。本文旨在探索利用 LLM 进行临床诊断的可行性。我们提出 AI Hospital 框架,通过设置多个智能体来模拟真实世界中的医疗互动场景。AI Hospital 包括若干非玩家角色 non-player characters (NPCs),如 Patient(病人)、Examiner(检查员)和 Chief Physician(主治医师),以及玩家角色 - Doctor(医生)。该框架重现了患者就诊的场景,它要求 Doctor 与 Patient进行多轮对话,提出相关问题,推荐合适的医学检查,并在收集足够信息后作出诊断。我们构建了 Multi-View Medical Evaluation(MVME)评估基准,它包含一系列高质量的中文病历,并从多个维度评估由 LLM 驱动的医生的表现。此外,我们还探索了一种协作机制,促进医生之间的迭代讨论,以提高 LLM 诊断的准确性。为了评估 LLM 在临床诊断中的表现,我们基于 AI Hospital 框架下开展了大量实验。首先,我们验证了 AI Hospital 中各个智能体的可靠性,然后评估了一系列 LLMs 在交互式诊断过程中的表现。实验结果显示,交互式 LLM与One-Step GPT-4(一次性输入所有患者信息)之间存在显著的性能差距。在诊断结果、诊断依据和治疗计划等关键指标上,交互式的 GPT-4 的表现不及 One-Step GPT-4性能的 50%。 尽管进行了专门的 Prompt 优化,LLM 在多轮交互中仍难以做出合理决策,导致诊断性能欠佳。引入协作机制在一定程度上提升了性能,但仍远低于上限。这些实验结果表明,现有LLM可能尚未完全掌握有效的多轮诊断策略。我们的定量分析凸显了当前 LLM 在提出恰当问题、获取关键症状以及推荐适当医学检查方面面临的挑战。 这些发现强调了LLM在复现专业医生复杂临床推理过程方面遇到的困难,突显了进一步研究的必要性,以缩小LLM与人类医生在临床诊断方面的差距。
AI Hospital 框架旨在利用公开的真实世界的医疗记录或病历(Medical Record),模拟真实就医场景,以评估 LLM 在临床诊断中的应用潜力。该框架由三个 NPC 角色 (病人、检查员、主治医师)和一个玩家角色 (医生)组成,通过精心设计的提示工程引导角色展现真实行为。AI Hospital 框架运作分为诊断和评估两阶段:1)诊断阶段 :病人、检查员、医生之间进行多轮对话,交换诊断所需信息,轮次由医生诊断策略决定(或者达到所规定的最大轮次);2)评估阶段 :诊断阶段结束后,主治医师对医生的表现进行多维度评分。我们将医疗记录中的信息分为三类:1)主观信息 ,包含病人症状、病史等,这些信息通常由医生在和病人的交互过程中获得;2)客观信息 ,包含病人的各类医疗检查结果等,这些信息通常是医生建议病人去做相关检查后获取的检查结果报告;3)诊断治疗信息 ,包含诊断结果、诊断依据、治疗方案等,这些信息通常是医生在诊断结束后对病人状况的总结。其中病人掌握主观信息,检查员掌握客观信息,主治医师掌握诊断治疗信息,医生则不预先掌握任何信息。
图 1:AI Hospital 框架的示例
在 AI Hospital 框架中,每个智能体的行为模式被设定如下:
病人智能体 :作为就医过程的信息提供者,病人智能体被设计为具有以下行为模式:1)配合就诊,积极回应医生的问询,如实提供病情信息,但是可能不会主动披露全部相关细节。同时,积极配合执行医生建议的医学检查;2)口语化表达:在描述病情时,使用口语化、通俗的语言,可能因医学知识有限或主观认知,而遗漏某些重要细节或存在偏差;3)好奇提问:基于自身的理解程度,就诊疗过程中的疑虑向医生提出关切或疑问,希望医生给出明确解释;4)个性化设定:针对每份病历,我们利用 GPT-4 推理并虚构病人独特的背景、经历、情绪反应和性格特点,增强仿真的真实感和深度。
检查员智能体 :作为客观医学信息的提供者,检查员智能体的核心职责是在病人提出特定检查请求时,提供相关检查结果。为保持仿真的真实性,该智能体遵循以下工作流程:收到病人的检查请求后,首先识别所需的医学检查项目,对不明确的请求予以驳回。若病历中有相应检查结果,则如实返回;若无对应结果,则如实报告未见异常。 主治医师智能体 : 作为诊疗过程的评估者,主治医师智能体的首要任务是评判医生智能体在互动式诊断中的表现。 在诊断阶段结束后,主治医师智能体要求医生提交一份完整的病例总结报告,并将其与医疗记录中的事实结果(即 gold standard)进行对比,从多个维度对医生的总结报告进行评分。 医生智能体 : 作为整个诊疗活动的引导者,医生智能体需要发挥医者仁心和严谨思维。 它需要主动收集患者的症状、病史等信息,在认为客观医学数据对明确诊断或排除疑似疾病必不可少时,需要建议病人进行医学检查。 医生智能体需结合主客观信息,高效询问病人并提供建议,准确诊断病人病情,彰显经验丰富的医生所具备的系统性思维。
AI Hospital 框架通过多方对话流程,模拟真实诊疗过程中医患之间的互动。整个诊疗过程以多轮对话的形式进行,由基于病历使用GPT-4生成就诊主诉 作为起点(病人发起第一轮对话),继而医生、病人、检查员之间展开一系列互动,医生被提示主动询问病情、提出检查建议,病人回答问询、提出检查需求,检查员提供相应结果。对话持续进行,直至病人收到医生的诊断结果或达到预设的最大对话轮次。图 1 展示了一个对话示例。
在 AI Hospital 中,我们已经提到,在评估阶段,主治医师智能体用于评判医生智能体的表现(Model-based Evaluation)。 LLM 驱动的医生智能体 在诊断流程结束后,需要向主治医师智能体 提供一份全面的病历总结报告,包括患者症状、医学检查结果、诊断结果、诊断理由和治疗方案这 5 个部分。由 GPT-4 驱动的主治医师将直接比对每个部分与患者完整的病历,从1-4打分,反映 LLM 从主动问询、信息收集到临床知识和综合判断的动态、静态医疗决策能力。除了基于模型的评估,我们还引入了基于实体重叠的自动化指标,利用一些现成的实体识别工具,提取 LLM 给出的诊断结果和实际病历中的所有疾病实体,进行标准化对齐之后,计算实体重叠度来衡量 LLM 的诊断准确性。我们的测试集为从网上收集的跨科室的中文电子病历,我们请专业医生进行了审核,剔除了信息不全等有缺陷的病例后,共剩下 506 份高质量病历。这些病历覆盖外科、内科等多个科室,分布详见表 1。经过医学专家的人工验证,94%的病历记录被认为是正确的(符合医学常识的)。我们将评估的方法与对应的测试集称为 MVME (Multi-View Medical Evaluation) 多维度医学交互评估标准,旨在评估大模型作为医生进行临床诊断的能力。MVME 基于 AI Hospital 框架,从多个维度全面考察 LLM 的医疗决策能力。
表1:病历测试集的科室分布统计
为进一步提高诊断准确性,我们提出了一种利用多个大模型进行协作诊断的机制。在这个协同框架中,不同的LLM 独立扮演医生的角色,各自与病人进行互动问诊。由于 LLM 之间的固有差异,这些互动可能产生不同的对话轨迹和诊断报告。为了简化形成统一诊断报告的过程,我们引入一个中央代理人(也称为主治医师)作为协调员参与其中。主治医师汇总和分析从各个医生那里收集的数据,与病人和检查员确认有争议的点,并综合总结患者的病情。通过多轮讨论迭代,主治医师找出医生之间意见分歧的关键点,引导他们进行有针对性的讨论,逐步完善认识,达成共识。这一协同机制充分利用了 LLMs 的集体智慧,通过发挥它们多样的知识和推理能力,同时促进一个结构化的、迭代优化诊断报告的过程,从而提高临床诊断的准确性和稳健性。
图 2:多智能体协作与争议解决机制示例
如图2 所示,整个协作诊断框架分为两个主要阶段。
交换事实信息 :医生将获得的患者事实信息,主要是症状和医学检查结果,告知主治医师。主治医师汇总分析,与病人和检查员确认有争议的症状和检查结果,形成一个全面的总结。这是达成共识的基础。 讨论解决分歧 : 协作诊断包括多轮讨论迭代。 在主治医师的引导下,医生们逐步深入,解决分歧,达成共识。 每轮讨论中,医生们既要阐述自己的诊断报告,也要对其他医生的报告进行评判。 主治医师总结医生间的争议点,使他们能有的放矢地进行深入思考,不断完善报告。 讨论结束后,主治医师评估医生间是否还存在分歧,若有,则归纳争议问题作为下一轮讨论的议; 若无,则主持医师总结讨论,自行定稿最终诊断报告。
AI Hospital 中的智能体
可以遵循被设定的行为模式吗?
在展示主要结果之前,验证 AI Hospital 框架中的智能体是否有效地符合其预期角色和行为至关重要。我们进行了一项实验,研究了几个关键智能体的行为,包括病人、检查员和医生。实验采用了以下评估指标。对于病人智能体 ,我们关注患者与医生沟通的两个维度,一是患者对医生问题的回答的相关性(Relevance),二是患者回答与病历中主观信息的诚实度(Honesty)。对于检查员智能体 ,我们评估智能体对请求的医学检查的理解的准确性,以及在收到医学检查查询时返回相应检查结果的能力(Accuracy)。对于医生智能体 ,我们评估其生成的最终诊断报告与其在对话流程中收集到的信息的一致性。我们将一致性分为三个等级:1)明显不一致,2)略有不一致,3)大多一致。这些级别分别被赋予 1、2、3分。最后,我们将这个分数映射到 0-100 的范围内。实验设置方面,我们采用了多个医生智能体,包括 GPT-3.5、GPT-4、文心4.0 和 Qwen-Max。我们随机选择50份病历样本,要求每个智能体在 AI Hospital 框架内生成 50 个多轮对话轨迹。我们人工标注了所有指标,并报告平均值。
表 2:AI Hospital中智能体行为的人工评估结果
实验结果表明,AI Hospital 框架在模拟逼真的医疗互动方面非常有效。如表 2 所示,所有指标的得分都很高(均超过98% 或者 98分),表明智能体行为可靠且一致。病人智能体能提供自身准确、相关的信息;检查员智能体能准确理解并返回所请求的医学检查结果;医生智能体能生成与对话流信息一致的诊断报告。 这验证了所提出的多智能体系统的可靠性和有效性,为评估大语言模型在临床诊断中的表现奠定了坚实的基础。
我们进一步研究了本文的核心问题,即大模型能否像医生一样进行诊断?基于 AI Hospital,我们评估了一系列LLM,包括GPT(GPT-3.5和GPT-4)、文心4.0、Qwen-Max、百川13B、华佗 GPT-II 13B 和 34B。其中,华佗GPT-II 是专门为医疗领域设计的大模型。我们只选择华佗 GPT-II 作为比较模型,因为大部分医疗 LLMs 在训练过程中显著失去了遵循指令的能力,难以遵循我们的提示并进行有意义的对话,导致在我们的基准测试中性能过低,从而失去参考价值。我们采用了多视角评估标准(MVME),所有指标的分数被归一化到 0 到 100 之间,并利用经典的 Bootstrap 方法计算方差。作为性能上限,我们直接将病人的主客观信息一次性输入 GPT-4,提示其生成诊断报告,无需经过交互式诊断阶段,将 GPT-4 在这种一步设置下的性能视为 LLMs 性能的上限。
表 3:单一交互 LLM、协作交互 LLMs 与 One-Step GPT-4 在 MVME 评估基准上的实验结果
主要实验结果见表 3 和表 4。我们发现,现有 LLMs 在 AI Hospital 框架下的诊断性能明显弱于 One-Step GPT-4方法设定的上限,即使GPT-4也不到上限性能的一半。这凸显了当前 LLMs 在交互式环境中的局限性,表明它们尚未学习到足够丰富的真实临床决策经验。我们还观察到,参数较少的 LLMs 往往表现出较弱的交互能力,如百川 13B 在交互式诊断中的表现较低。
表 4:基于实体重叠的自动化诊断评估实验结果
我们进一步探讨了最终收集到的信息与诊断质量之间的关系。我们用 MVME 中,症状和医学检查两个指标来衡量患者信息的完整性,用诊断结果、诊断依据和治疗计划来评估诊断质量 。通过线性回归,如图 3 所示,我们发现交互过程中,医生掌握到的患者信息越完整,最终的诊断质量越高,两者呈显著正相关 。这进一步解释了当前 LLMs 的不足,即 LLMs 难以像医生那样通过主动提问收集患者的症状,更难以推荐正确的医学检查。这种动态临床决策能力的缺乏是阻碍 LLMs 像医生一样诊断的巨大障碍。以上分析突出了当前 LLMs 在医疗互动中的一个重大局限性:它们无法像人类医生那样,通过互动动态、主动地收集全面的患者信息。此外,它们在推荐适当的医学检查方面面临挑战,这进一步加剧了这一局限性。需要强调的是,真实世界中的医生在掌握足够信息之前不会做出诊断。他们具备主动向患者询问各种主观信息(如症状细节)的能力,并知道需要哪些检查来获得更多定量和客观信息。这些能力是有效医疗互动的关键。
图 3:症状、医学检查 与 诊断结果、诊断原理、治疗方案性能指标之间的线性回归分 析
在表2中,我们还评估了具有不同合作机制设置的几个模型。比较方法包括 3 个智能体和 2 个智能体的协作诊断,以及没有争议解决机制的 2 个智能体。它们分别被称为"3位医生"、"2位医生"和"没有争议解决的2位医生"。最初的两个医生由 GPT-3.5 和 GPT-4 提供交互式咨询,而最后一个使用文心 4.0。实验结果表明:模型的协作使用可以超过交互式 GPT-4 的性能,从而验证了合作机制的有效性;"3位医生"之间的协作比"2位医生"更能提高诊断水平,突出了更多智能体合作的好处;从"2位医生"中移除"争议解决"机制会降低其有效性,强调了建立更好共识的重要性。
图 4:具有和不具有“争议解决”机制的协作框架中的讨论轮次进行统计分析
对于"争议解决"机制,我们继续检查实习医生是否可以更快地达成共识。在效率方面,我们对有无"争议解决"机制达成共识所需的讨论轮数进行了比较分析。结果如图 4 所示。这些发现表明,在采用争议解决机制后,在最初四轮讨论中达成共识的比率显著提高。这种改进表明,在主治医师强调有争议问题、医生集中讨论这些问题的促进下,该过程有效地减少了达成共识所需的时间。
我们对GPT-4做出错误诊断结果并被主治医师评为1分的219个病例进行了分析。通过系统的人工审查,这些错误主要分为三种不同类型,如表 5 所示。
表 5:交互式 GPT-4 的错例统计
第一类错误是遗漏辅助检查。 一个典型案例是未能检测出胆囊结石,原因是没有推荐腹部超声检查。这一类突出了GPT-4没有建议可能确诊或排除潜在医疗状况的必要辅助检查的情况。第二类错误是未关注到潜在相关的症状。 在某些情况下,GPT-4 只关注患者提供的症状,如足部软组织肿胀,而忽略了潜在的症状或并发症,如糖尿病。这类错误源于 LLMs 对症状之间相互联系的认识有限,以及未能进一步询问患者的全面健康状况。第三类错误是诊断出错。 即使获得完整的症状学和医学检查结果,GPT-4 也可能得出错误的结论。这类错误表明已有 LLMs 中的医学专业知识不足,即使有完整的病人数据也会导致诊断不准确。
在本文中,我们引入了 AI Hospital 框架,用于构建交互式的医学诊疗场景。我们使用收集的高质量病历数据模拟患者、检查者和主任医师,建立全面的交互流程。在此平台基础上,我们构建了 MVME 基准,探索不同 LLM 在交互式诊疗中的可行性。为提高诊断准确性,我们还引入了一种基于多智能体的协作机制,在主任医师的监督下,通过迭代讨论和争议解决机制达成多智能体的意见一致。实验结果揭示了已有 LLMs 在医疗交互场景上与交互性能上限之间的差距,并分析了造成这些差距的原因。同时,实验也验证了多智能体协作方法在一定程度上的有效性。然而,尽管 AI Hospital 框架和 MVME 基准在评估 LLMs 在临床诊断中的交互性能方面取得了一定的进展,但仍有几个局限性。主要使用中文病历可能限制了对其他语言和医疗体系的普遍适用性。尽管样本多样,但 506 个案例的样本量可能无法完全捕捉现实世界的复杂性,例如罕见疾病。此外,智能体之间的模拟交互可能无法完美复制人与人之间的细微差别,需要进一步验证。目前的对于治疗计划的评估不够完善,因为它没有考虑可行的替代策略,可能低估了 LLMs 的性能。最后,大量使用 OpenAI 的 API 可能会增加环境负担,未来研究可以通过利用更小、更高效的开源模型来缓解这一问题。尽管存在这些局限性,AI Hospital 框架和 MVME 基准为未来评估和改进 LLMs 的交互式临床诊断能力提供了坚实的基础。
联系方式:disclab@fudan.edu.cn
地址:复旦大学邯郸校区计算中心