Radiology：人工智能系统脑MRI鉴别诊断精度接近神经放射科医生水平

Original 杨晓飞思影科技 2022-04-17

收录于话题 #神经影像 196个

请点击上面“思影科技”四个字，选择关注我们，思影科技专注于脑影像数据处理，涵盖（fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS,眼动）等，希望专业的内容可以给关注者带来帮助，欢迎留言讨论及转发推荐，也欢迎了解思影科技的课程及数据处理服务，可添加微信号siyingyxf或18983979082进行咨询(咨询电话18580429226，杨晓飞）。(文末点击浏览）

摘要

背景：虽然人工智能(AI)在放射学的许多方面都显示出很好的前景，但在脑MRI中使用人工智能来进行罕见和常见疾病的鉴别诊断(differential diagnoses)尚未得到证明。
目的：通过与放射科医生的比较，评价一种用于脑MRI鉴别诊断的人工智能系统。
材料和方法：这项回顾性研究测试了2008年1月至2018年1月期间，利用脑MRI诊断的19种常见和罕见病的患者中，AI系统用于概率诊断的性能。AI系统结合了数据驱动和领域专业知识方法，包括深度学习和贝叶斯网络(Bayesian networks)。首先，使用深度学习检测病灶。在此基础上，采用基于图谱的配准和分割方法提取了18个定量成像特征。第三，利用贝叶斯推理将这些影像特征与五个临床特征相结合，进行基于概率的分级鉴别诊断。在一个有86名患者的训练集(平均年龄49±16岁[标准差]；其中有53名女性)上，定量特征提取算法和条件概率进行了微调。通过对一个有92名患者的独立测试集 (平均年龄47±18岁；其中有52名女性)进行诊断，将鉴别诊断算法概率为前三的判别与放射科住院医生、普通放射科医生、神经放射科研究员和学术神经放射科医生的诊断结果进行对比。

结果：人工智能系统(91%正确)概率为前三的诊断的表现与学术神经放射科医生(86%；P=.20)相似，但优于放射科住院医师(56%；P=.001)、普通放射科医生(57%；P，.001)和神经放射学研究员(77%；P=.003)。人工智能系统的性能不受疾病流行的影响(普通疾病的准确率为93%，罕见疾病的准确率为85%；P=.26)。放射科医生诊断普通疾病比罕见疾病更准确(78%对47%，P<0.001)。
结论：脑MRI的AI系统对于大脑疾病的鉴别诊断总体上接近神经放射科医生的位列前三的鉴别诊断准确率，并超过了专业程度较低的放射科医生的诊断准确率。

人工智能(AI)显示出了改变医疗卫生和医学影像的巨大潜力，其中深度学习是影响最大的AI工具(1，2)。深度学习在神经放射学中许多成功实现都是为了提取发现(extracting findings)，如头部CT图像中的出血等(3-5)。尽管被证明有用，一个完整的诊断系统必须适用于罕见疾病的诊断。尽管可用于训练的案例很少，但必须可区分大量诊断，并提供直接访问用于得出诊断的中间特征(intermediate features)的途径。

此外，在像放射学这样一个固有的概率性领域，具有相关疾病概率的鉴别诊断，而不是单一的最佳诊断输出，是指导管理的关键(6，7)。贝叶斯推理(8)提供了可以直接进行疾病几率计算的机会，考虑到图像和临床特征以及罕见和常见疾病的基线概率，可以直接提供这种计算。信息系统是一项非专业人员和深度学习都不能胜任的任务。

由于不同AI方法的互补性，我们试图开发一种系统，通过使用一组AI工具，对放射科医生用于MRI解释的三个连续步骤进行计算建模。首先，系统采用深度学习的方法检测图像异常，通过大量的实例训练，模拟放射科实习医师学习识别异常图像的过程。第二，它通过现有的MRI序列，利用定量输出的图像处理对异常进行表征，类似于放射科医生明确描述影像特征或发现。最后，使用贝叶斯推理将这些基于AI的图像特征与临床特征整合成一个概率性的鉴别诊断，就像放射科医生基于知识将成像特征与某些诊断相关联一样，通过贝叶斯推理将影像特征与某些诊断相关联。

虽然这个过程的第一步，图像异常检测，是纯数据驱动的(即从训练数据中学习)，但第三步是由专家导出(expert-derived)条件概率的形式，明确地从领域专业知识中获得信息。也就是说，一个提取图像特征的系统，从概率上区分出感兴趣的诊断，不需要额外的训练数据来推导出鉴别诊断。相反，训练数据的需要可以由专家知识来代替，这些图像特征的概率给定每个诊断的概率。为了验证这样一个复合的数据驱动和领域专家知识的自动化系统的输出，我们将其诊断性能与不同专业水平的放射科医生进行了比较。我们假设该AI系统在诊断方面的表现可以达到学术神经放射科医生的水平，我们以19种影响大脑半球的常见和罕见的疾病为重点进行了概念验证。

材料和方法

这项符合《健康保险可移植性和责任法案》的回顾性研究获得了我们的机构审查委员会的批准，并豁免了书面知情同意书。非雇员或非咨询作者(A.M.R.、J.D.R.、J.W.、L.X和M.T.D.)对数据进行分析和控制。
病人和疾病
共有178名研究患者(其中有105名女性；平均年龄48±17岁[标准差])，每个患者有一个匿名的脑MRI数据，是在2008年1月至2018年1月期间获得的。根据图1和附录E1（在线）中详述的程序，研究数据从我院的图片存档和通信系统中获得（表1）。

图1. 流程图显示了根据排除标准进行的研究选择（从最初的患者搜索到训练集和测试集的随机化）。FLAIR = 流体衰减反转恢复，IRB = 机构审查委员会。

表1：受试者人口统计学信息及临床特征

注：-患病率等级(prevalence ratings)是由两位神经放射科医生协商一致确定。免疫状况(immune status)是根据预先定义的条件或在患者进行MRI扫描时所进行的药物治疗的清单来确定的：人类免疫缺陷病毒(HIV)阳性(不论目前的CD4计数如何)、硫唑嘌呤、纳他利珠单抗、纳他利珠单抗、富马酸二甲酯、芬戈莫德、奥克立珠单抗、目前的化疗药物(包括甲氨蝶呤内酯)、器官移植后的免疫抑制疗法、近期(<2周)的任何类型的放疗。如果患者的电子病历中有任何临床记录提到：在促使进行MRI检查的神经系统症状出现前2周内，患者有病毒性疾病（呼吸道、溃疡性或胃肠道）病史，则认为存在病毒前驱症状(Viral Prodrome)。对于慢性(Chronicity)，急性(acute)被定义为MRI检查7天内出现的神经系统症状；慢性(Chronic) 被定义为MRI检查前持续7天以上的神经系统症状。如果患者在MRI检查前没有出现神经系统症状（如常规癌症筛查检查时的偶然发现），则其慢性被编码为无（N/A）。

ADEM=急性播散性脑脊髓炎，ALD=肾上腺白质性脑病，CADASIL=大脑常染色体显性动脉病变伴皮层下梗塞和白质性脑病，CNS=中枢神经系统，MS=多发性硬化，NMO=视神经髓炎，PML=进行性多灶性白质性脑病，PRES=后可逆性脑病综合征，SVID=小血管缺血性疾病

诊断包括19种疾病，涵盖了大量的常见和罕见的疾病，包括引起流体衰减反转恢复（FLAIR）异常的常见和罕见的疾病，重点是主要影响大脑半球的疾病(图2)。诊断结果被选择为包含相当大的影像学重叠，使得明确的诊断鉴别变得困难或不可能，从而需要鉴别诊断(differential diagnoses)(类似于标准的神经放射学实践)。
除了影像学数据，还从每个患者的图表中提取了五个临床特征：年龄、性别、免疫状况、是否存在病毒前驱症状和临床症状的慢性化(表1)。

图2：图像显示了纳入研究的19种神经系统疾病中的每一种神经系统疾病的轴向流体反转恢复（FLAIR）切片示例。ADEM=急性播散性脑脊髓炎，CADASIL=脑常染色体显性动脉病伴皮层下梗塞和白质脑病，CNS=原发性中枢神经系统，HIV=人类免疫缺陷病毒，MS=多发性硬化症，NMO=神经性视神经髓炎，PML=进行性多灶性白质脑病，PRES=后可逆性脑病综合征。重复时间和回声时间值范围见表2。

影像学数据

研究分为训练集（n = 86）和测试集（n = 92）。以前用于训练卷积神经网络的训练数据（见下文）与这里描述的86个训练研究重叠，但不与测试研究重叠。这86个病例的训练集被用来更新AI系统参数（具体来说，即为关键特征提取的阈值[见“病变特征”部分]和条件概率[见“用于鉴别诊断的贝叶斯推理”部分]）。测试集被保留下来进行独立测试。因为没有进行超参数优化，所以不需要单独的验证集。测试数据集包括从研究队列中随机选择的每种疾病的5个实例，但Susac综合征除外，由于其罕见性，我们只发现了2个患者。其余的形成了训练集（表1）。成像数据来自于20多个不同的物理MRI扫描仪（16个扫描仪模型跨多个位置）的各种成像参数（表2），这是典型的临床成像数据。从MR图像中提取的序列包括T1加权、T1增强后、T2加权、FLAIR、扩散加权、表观扩散系数、梯度回波或磁化率加权成像。如果一个序列（如T1后增强后）对患者不可用，则AI算法和放射科医生在没有该序列的情况下提供诊断。特定的脉冲序列具有高度异质性，仅FLAIR序列就有30多个（随回波时间、重复时间、平面内分辨率和切片厚度而变化）（表2）。

深度学习在病变检测中的应用

该AI系统由三个独立的组件组成（图3）。首先，图像预处理后（见附录E1[online]），使用我们先前开发的三维U-Net架构的卷积神经网络（9）（图3，A），基于FLAIR序列检测颅内病变。使用相同架构和训练集的两个单独训练的三维U-Nets也被应用到我们的数据，用于检测病理T1信号（10）和异常梯度回波或磁化率加权成像信号（11）。

图3. 人工智能（AI）系统概述。

A.用于异常信号检测的三维U-Net架构。

B.利用图像处理自动提取特征。除梯度回波(GRE)易感性检测外，其余均来自原发性中枢神经系统淋巴瘤患者。有关如何提取每个特征的详细信息，请参见材料和方法部分。

C.对每个患者的每个病变都计算出多个定量特征，包括本例中所示的病变。这些特征被存储，提供了丰富的病变的定量描述。为了开发鉴别诊断，将阈值化的特征在贝叶斯网络中进行概率组合。

D.贝叶斯网络示意图，展示了AI系统的朴素贝叶斯结构，具有用于区分大脑半球疾病的完整特征集，分为临床、信号、空间和体积四类。ADC=表观扩散系数，ANTs=高级归一化工具，CC=胼胝体，DWI=弥散加权成像，FLAIR=流体衰减反转恢复，vol=体积。

如果您对脑影像机器学习感兴趣，欢迎浏览思影科技课程及数据处理业务：

第十一届脑影像机器学习班（南京，8.25-30）

思影科技脑影像机器学习数据处理业务介绍

病变特征

图像处理是通过使用内部修改的开源高级标准化工具软件包（版本2.1；https://github.com/ANTsX/ANTs）（12,13）（详见附录E1[online]）实现的。FLAIR U-Net的病变mask叠加到每个MRI序列，利用提取的组织分割及标准模板来提取每个被试的18个感兴趣的特征（图3，B和C）。提取定量图像特征（例如以立方毫米为单位的病灶体积），然后对其进行阈值处理，以获得定性特征状态（例如，大、中、小病灶）。阈值由专家知识设定，并利用86个训练数据的训练结果更新阈值。附录E1（online）中提供了所有18个被提取的信号（n = 5），体积（n = 6），空间（n = 7）定量特征，以及5个临床特征的详细描述。

贝叶斯推理在鉴别诊断中的应用

对于每个患者，18个影像学特征加上5个临床特征，通过使用朴素贝叶斯推断法（可查阅https://github.com/rauscheck/radai）计算出每个可能的诊断概率（图3，D）。贝叶斯条件概率是利用领域的专业知识来确定的，使用综合神经放射学教科书（14）和现有文献（15-19）中发表的统计学方法，另外，两位神经放射学专家（A.M.R.，神经放射学研究员，和S.M.，有12年的研究员经验）也就此达成了共识。这个过程的目标是将专家们对特征和疾病之间的概率映射的知识进行封装。将专家推导的概率与对86个训练数据进行训练所得的特定疾病频率特征状态进行加权平均，概率映射随后被调整为近似于此加权平均概率。

与放射科医生表现的对比

为了比较AI系统与放射科医生的表现，测试数据被匿名并独立呈现给4名放射科住院医师（2名两年和2名四年住院医师）、2名神经放射科研究员（各接受过9个月的研究员培训）、2名普通放射科医生（他们经常阅读脑MR图像；1名进行过神经放射科研究员培训；分别有20年和21年的培训后经验）、2名我院三级医疗中心的学术神经放射科主治医师（I.M.N.和S.M, 分别具有7年和12年的培训后经验），使用我院图像存档和通信系统中的标准挂片协议(a standard hanging protocol)。放射科医生得到了与AI系统相同的MRI序列和临床特征。他们被告知诊断结果在患者中的平均分布。在19种可能的诊断中，放射科医生提供了他们最有可能的三种诊断(“判别诊断”)。

统计分析

为了在考虑数据的成对性的同时将AI系统与放射科医生进行对比，我们使用了一个具有鲁棒的方差估计器(robust variance estimator)的通用估计方程(generalized estimating equation)，以与AI系统精度比较的比值比(OR)表示为基线，比较三个独立的结果指标：鉴别诊断概率第三的正确诊断、鉴别诊断概率第二的正确诊断、鉴别诊断概率第一的正确诊断。在此模型中指定了放射科医生的类别（主治医师、住院医师、普通放射科医生、住院医师和AI系统），独立阅片医师被分配在他们各自的类别中。采用McNemar检验对AI系统与放射科医生进行比较。通过使用在判别诊断中的位置来创建四个置信水平的顺序标尺，构建受试者工作特征曲线，作为第1名、第2名和第3名的差异化诊断性能的总结性衡量，并引导计算出受试者工作特征曲线（AUCs）下95%置信区间（CI）的面积。根据疾病发生率，𝝌²检验被用于比较正确判断的病例比例。独立阅片医师混淆矩阵之间的相关性被评估。除了广义估计方程是通过使用Stata（版本13.1;StataCorp，College Station，Tex）来实现的，所有其他的统计分析都是通过使用MATLAB（版本r2019a;Mathworks, Natick, Mass) 来执行的。P<.05被认为具有统计学意义。详见附录E1（online）。

结果

患者人口统计学

训练集和测试集分离后，训练集包括86项研究数据，测试集有92项研究数据（图1，表1），涉及19种不同疾病（图2）。训练集和测试集在年龄（P = .38；双尾t检验）和性别（P = .49；𝝌²检验）之间没有显著性差异。除Susac综合征（n = 2）外，每种疾病的测试研究数量固定为5个，训练研究的数量从0到7个不等。训练数据仅用于微调专家定义的关键特征阈值和贝叶斯条件概率，因此训练数据不需要等比例的诊断。

表2：训练样本和测试样本中的异质扫描参数（Heterogeneous Scanning Parameters）

注：-除非另有说明，否则数据为每类研究患者的数量，括号内为百分比。TE = 回波时间，TR = 重复时间。

* TE和TR值用于流体反转恢复（FLAIR）图像，这构成了深度学习算法检测病变的基础。

AI系统性能与放射科医生的比较

综合人工智能系统会输出与19种疾病中的每种疾病相关的概率。概率最高的三种疾病代表了系统的鉴别诊断。在92个测试研究中，AI系统正确地将其中的84个(91%)的正确诊断置于其前3种鉴别诊断中(图4，A）。在同一组研究中，AI系统和学术性神经放射科医生在诊断准确率方面没有差异（92个项目中76-82个项目正确[83%-89%；参与者平均正确率为86%] ；OR, 0.58; 95 CI%: 0.25, 1.32; P = .20 )。AI系统性能优于放射科住院医师(97个项目中37-59个项目的正确[40%-64%；参与者平均正确率为56%] ；OR, 0.12; 95% CI: 0.06, 0.27; P , .001)、普通放射科医师(92个项目中49-54个项目正确[53%-59%;参与者平均正确率为57%]; OR, 0.11; 95% CI: 0.05, 0.25; P , .001 ），以及有9个月工作经验的神经放射科住院医师（92个项目中63-78个项目正确[68%-85%; 参与者的平均正确率为77%]; OR, 0.31; 95% CI: 0.14, 0.68; P = .003）。我们还评估了该算法概率第二的鉴别诊断（图4，B）和概率最高的鉴别诊断的表现（图4，C），显示出与学术神经放射科医生（第二名，P = .20；第一名，P = .08）和神经放射科住院医师（第二名，P = .26；第一名，P = .78）相似的表现，并且在这两个结果指标上的表现优于普通放射科医生（P , .001）和放射科住院医师（P , .001）（表E1-E3 [online]）。AI系统与独立阅片放射科医生的比较显示出相似的结果：AI系统在所有指标上的表现都与学术性神经放射科医师相似，在第1鉴别诊断和第2鉴别诊断表现上优于两名神经放射科住院医师中的一名，并始终优于所有放射科住院医师和普通放射科医师（P值见表E4 [online]）。

图4：图表显示了复合人工智能（AI）系统与不同专业水平的放射科医生的判别准确性比较。

A，性能是通过在92位受试者图像（19种疾病）中列出前三名鉴别诊断（DDx）的正确率来衡量。每个圆圈代表一个放射科医生，横线代表各组放射科医生的平均值。水平虚线代表AI系统的性能。误差条代表95%的二项式概率的置信区间。

B, 前二位诊断中的准确度(正确率)。

C, 仅使用顶级诊断的准确度（正确率）。

D、AI系统（绿色）与放射科医生（其他颜色）的受试者工作特征（ROC）曲线比较。AI系统的曲线下面积（AUC）与学术神经放射科医生（黑色）相似。ROC曲线基于每位放射科医生提供的前一、前二、前三名最可能的诊断结果。详细信息参见“材料和方法”部分。报告的AUCs是非参数化的。

受试者工作特征分析

通过使用受试者工作特征曲线进行评估也显示出：AI系统的性能（AUC，0.92 [95% CI：0.88，0.95]）与学术神经放射科医师（AUC，0.90 [95% CI：0.89，0. 93]）相似，均优于神经放射科住院医师（AUC，0.85[95% CI：0.81，0.87]）、普通放射科医师（AUC，0.72[95% CI：0.68，0.76]）和放射科住院医师（AUC，0.73[95% CI：0.70，0.75]）（图4，C）。当使用高特异性下的部分AUC值时，结果相似（表E5[在线]）。

疾病流行率对放射科医生和AI系统的影响

为了了解自动化系统的优势，我们对其性能进行了评估，将其与放射科医生的每项诊断分别进行对比（图E1[online]），并根据实践中疾病的常见程度进行评估（图5）。与罕见疾病(27项中6至22项正确[正确率22%-82%；放射科医生正确率百分比中位数39%])(P，0.001)相比，所有专业水平的放射科医生在诊断常见病方面表现更好(45项中有25-43项正确[正确率56%-96%；放射科医生正确率中位数77%])，中等罕见疾病表现中等(20项中6-18项正确[正确率30%-90%；放射科医生正确率中位数60%])。神经放射科住院医师（20%差异；P = .007）和神经放射科主治医师（17%差异；P = .003）在三级医疗中心遇见罕见疾病的频率更高，与其对比，住院医师（43%差异；P , .001）和普通放射科医师（37%差异；P , .001）对于常见疾病和罕见疾病的诊断差异更明显。

对于AI算法，在对常见病与罕见病的诊断方面的表现没有明显差异（绝对差异为8%；45种常见病正确诊断42种，27种罕见病正确诊断23种；P = .26）

图5：图表显示了人工智能（AI）系统和放射科医生在疾病患病率方面的表现。各级放射科医生对常见病的正确诊断率高于罕见病，随着对罕见病诊断经验的增加，这种影响会变得不明显。对于AI系统，常见病与罕见病的表现没有显著差异。形状表示每个类别的放射科医生对某一疾病的前三位诊断准确率（正确率），并根据疾病的患病率进行分类。水平条表示各数据点的平均值，误差条表示相应的标准误差。所示的P值基于𝝌2检验，比较常见病和罕见病的表现。DDx = 鉴别诊断(differential diagnosis)。

放射科医生和AI错误评估

通过混淆矩阵(confusion matrices)（图6），我们对AI系统以及放射科医生的优缺点进行了进一步的评估。当将最高概率诊断预测为真实诊断时，对其进行评估，我们发现AI系统在某些诊断（如后可逆性脑病综合征和低级胶质瘤）上的表现特别好，而在其他诊断（如多发性硬化症和转移瘤）上表现不佳。不同的放射科医生和AI系统会在不同的诊断上出错（图6，B-E）。然而，放射科医生之间的混淆矩阵比AI系统的混淆矩阵更接近，这表明AI系统和人类会犯不同类型的错误。这一观点可以通过使用混淆矩阵之间的相关性来定性地理解或量化。两位学术神经放射科医生之间的相关性（r = 0.79）高于AI系统与每位学术神经放射科医生之间的均值相关性（r = 0.71；P = .02），每位学术神经放射科医生与神经放射科研究员之间的均值相关性（r = 0.72）高于AI系统与每位神经放射科研究员之间的均值相关性（r = 0.64；P = .05；Fisher r-to-z变换）。

图6：混淆矩阵显示了人工智能（AI）系统和放射科医生对每种疾病的诊断错误来源。按照惯例，真实的疾病标签沿x轴显示，预测值沿y轴显示，色条代表真正诊断的患者中，预测的疾病被列为最高可能诊断的患者比例（即，列相加为1）。完美的诊断算法会呈现从左上角到右下角的黄色方块。在放射科医生和AI系统中都能看到至少两种类型的错误，以AI系统的白色矩形为例：类似疾病之间的混淆，以及对某些疾病的过度诊断。一个小组内不同的人犯的错误不同，随着专业化程度的提高，发生错误的次数会减少。

Act=活动，ADEM=急性播散性脑脊髓炎，ALD=肾上腺肌营养不良症，CADASIL=大脑常染色体显性动脉病变伴皮层下梗死和脑白质病，CNS=中枢神经系统，HG=高位，HIV enceph=人类免疫性病毒脑病。Inact=不活动，LG=低级，MS=多发性硬化症，NMO=视神经髓炎，PML=进行性多灶性脑病，PRES=后天性可逆性脑病综合征，SVID=小血管缺血性脑病，TLE=中毒性脑病，tumef=肿瘤活性。

表3：排除从各种特征类别提取的信息后，AI系统的准确度（n = 92）

注：括号内的数据为百分比，方括号内为95%的置信度区间。无指基线表现，无基线表现，不排除任何信息。临床特征包括年龄、性别、慢性病、免疫状态和病毒前驱症状。信号特征包括T1、T2、扩散、敏感性和增强。空间特征包括脑叶分布、胼胝体受累、脑室周围、皮质旁、皮质灰质受累、颞叶前叶受累和对称性。体积特征包括病变数目、病变体积、病变范围、病变程度、强化率、质量效应、心室体积。所有影像学特征是指信号、空间和体积特征的组合。有关特征类别另见图3，D。有关特征的其他详细描述，请参见附录E1：定量特征提取方法。

重要的是，AI系统产生的概率反映了该系统对其诊断预测的可信度。对于那些AI系统预测正确诊断可能性最高的病例（n = 51 of 92），平均预测概率最高的诊断为63%，高于那些预测错误诊断的病例（n = 41 of 92）的平均预测率47%（P , .001; t检验）。

影像和临床特征对AI性能的影响

通过保留贝叶斯网络中的特征（否则由AI系统计算），可以了解到这些特征对提供诊断信息的重要性（表3）。当将所有5个临床特征从输入中剔除后，整个系统的性能从可以在92个被试识别84个（91%）的正确率下降到前三个鉴别准确率只能正确识别63个（68%）。信号特征（T1信号、梯度-回声等）携带的信息最少，92个中的79个（86%）没有这些特征。只去除空间或体积特征，性能分别降低到识别92中的77个（84%）和92个中的75个（82%）。移除所有的影像学信息（只留下临床特征来决定19种诊断）仍然可以获得91例中的50例(54%)的前三位诊断准确率。没有临床特征（P , .001）的性能降低及仅有临床特征的性能远高于随机去除影像学信息的性能（P , .001）都能表明临床信息和影像学特征相结合对脑MRI诊断的重要性。

由于采集的图像的质量会随着时间的推移而提高，我们分析了AI系统的精度与研究采集数据的关系。在为期10年的研究数据采集中，诊断准确性没有明显变化（图E2[online]）。

讨论

尽管深度学习取得了一定进展，但其在脑MRI等复杂成像上提供常见和罕见疾病的鉴别诊断的效用仍然有限。为了解决现有技术的一些局限性，我们构建了一个人工智能（AI）系统将不同方法的融合在一起，优势互补。该人工智能系统接受临床脑MRI扫描作为输入，并提供判别诊断作为输出。在一些结果指标上，AI系统接近神经放射科医生对影响大脑半球的19种疾病的诊断表现（例如，前三位的正确诊断率分别为91%和86%；P = .20），为该系统提取诊断相关信息提供了强有力的支持。

该AI系统的构建是为了分别对人类放射学图像解读的感知和认知部分进行建模（20）。首先，在异常FLAIR信号上训练的卷积神经网络检测病变（9）。然后，利用图像处理技术明确地提取出人类可理解的定量图像和病变特征。最后，这些“研究结果”与特定的临床特征相结合，通过使用基于专家知识的贝叶斯推理，得出一个鉴别诊断（即 "印象"），并根据疾病概率进行排序。

AI系统的最终诊断部分不依赖于训练，而是将有关图像特征和诊断之间关系的专家知识封装在贝叶斯网络的条件概率中。因此，它在常见病（93%的前三位诊断准确率）和罕见病（82%）上的表现相似（P = .26）。同时，放射科医生在常见病（78%）上比罕见疾病（47%）表现更好（P , .001）。复合式深度学习和贝叶斯AI系统的其他优势包括显式计算中间图像特征，如病变的位置或大小，以及以临床意义概率形式输出的系统输出框架。通过访问系统中所有特征，可以独立研究和提高每个组件的精度。

虽然人工智能系统产生了错误，但这些错误不同于人类产生的错误，或许是对人类产生的错误的补充。这种类型的AI算法所解决的错误类型包括明显的人为偏差，如搜索满意度（21）和严重倾斜的概率计算（22）。随着图像需求的稳步增长，并超过了放射科医生的能力（23），在提高效率（24,25）的同时减少错误，这样的方法学应该是一个对放射科医生技能值得欢迎的补充。

我们的研究有一定的局限性。这项概念验证研究集中在导致大脑半球内FLAIR异常的19种常见和罕见的神经学诊断上，但在实践中遇到的其他疾病、疾病亚类和影像学表现的数量较多。虽然当前的系统仅限于区分对这19种疾病很重要的预先指定的影像特征，但可以通过计算提取出其他图像特征，包括与先前成像的比较，以用于其他疾病的诊断或提高顶级诊断性能。目前，学术界神经放射科医生在单次顶级诊断方面的表现定性地超过了AI系统的性能，需要进一步的研究来了解人类在何种条件下的表现优于该系统。此外，临床背景和诊断的含义没有被建模到AI系统中，是放射学的组成部分，仍然是计算建模的一个重要组成部分。由于我们的研究中包括的许多诊断没有一个完全独立的病理参考标准，而是由放射学和临床随访的组合来定义，因此AI系统在这些诊断上的表现不太可能比专家放射科医生做的更好。此外，该系统只对有单一诊断的患者，且没有手术前的患者。未来的系统将需要纳入对同一患者的多种诊断的能力（26,27）。最后，这里描述的回顾性工作是在单一的医疗系统中进行的，可能限制了系统的通用性(28)。然而，减少对神经影像学原理的训练数据的依赖性，可能会提高普适性。

目前，学术神经放射科医生在单次顶级诊断方面的表现定性地超过了AI系统的性能，需要进一步的研究来了解人类在何种条件下的表现优于该系统。此外，临床背景和诊断的含义没有被建模到AI系统中，并且是放射学的组成部分，仍然很难通过计算进行建模。由于我们研究中的许多诊断没有一个完全独立的病理参考标准，而是由放射学和临床随访相结合来定义，AI系统在这些诊断上的表现不太可能比专业的放射科医生做的更好。此外，该系统仅适用于单一诊断且未做过手术的患者。未来的系统将需要结合在同一患者中进行多重诊断的能力（26,27）。最后，这里描述的回顾性工作是在单一的医疗系统中进行的，可能限制了系统的通用性(28)。不过减少对训练数据的依赖，转而支持神经成像原理，可能会提高普适性。

总而言之，我们构建了一个复合型人工智能（AI）系统，通过计算模拟放射科医生对大脑MRI解释的感知和认知步骤。在一组19种疾病的真实临床MR图像上，它明确地提取出与临床相关的成像特征，并将这些特征组合成诊断性能，其水平超过了普通放射科医生和影像科实习医师，并接近于学术神经放射医生的水平。该研究表明，尽管训练样本较小，但当将数据驱动和知识驱动的方法结合在一起时，可以诊断出多种的疾病。前瞻性地测试该系统，及在其他机构测试该系统是重要的。我们预计我们的AI系统将具有很好的普适性，因为它已经在20多种不同的MR扫描仪类型和广泛的采集参数上运行良好。前瞻性评估很重要，因为目前的数据样本偏向于常见病和罕见病的概率近乎相等。在临床实践中，疾病患病率可以作为“先验概率”并入贝叶斯网络，但使用这样的修改从实验环境过渡到临床环境需要进行进一步的性能评估。我们预计，结合数据驱动和知识驱动方法的复合AI系统的总体框架可以应用于放射学的许多领域，并最终形成更高效、更准确的放射学实践基础。

原文：Artificial Intelligence System Approaching Neuroradiologist-level Differential Diagnosis Accuracy at Brain MRI

如需原文及补充材料请加思影科技微信：siyingyxf 或者18983979082（杨晓飞）获取,如对思影课程感兴趣也可加此微信号咨询。觉得有帮助，给个转发，以及右下角点击一下在看，是对思影科技莫大的支持。