Lancet Oncology：利用人工神经网络对神经肿瘤学MRI成像进行自动定量肿瘤疗评估

Original 杨晓飞思影科技 2022-04-17

请点击上面“思影科技”四个字，选择关注我们，思影科技专注于脑影像数据处理，涵盖（fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS,眼动）等，希望专业的内容可以给关注者带来帮助，欢迎留言讨论，也欢迎参加思影科技的其他课程。(文末点击浏览）

神经肿瘤学的反应评估（RANO）标准的和统一方案的需求已经被引入到临床试验和临床实践中对MRI扫描的标准化评估中。然而，这些标准主要依赖于在增强扫描（CE）上对目标病变的2D绘制，限制了对肿瘤负荷和治疗反应的可靠和准确评估。研究者的目标是开发一个基于人工神经网络（ANNs）的框架，用于神经肿瘤学中MRI的全自动定量分析，以克服人工评估肿瘤负荷的固有局限性。

方法：

在这项回顾性研究中，研究者从海德堡大学医院接受治疗的脑瘤患者中收集了一组单机构的MRI数据，开发并训练了一种基于MRI的增强脑肿瘤的自动识别和体积分割以及非增强t2信号异常（NEs）的神经网络。研究者对海德堡大学医院的单机构纵向检测数据集和欧洲38家机构的多机构纵向检测数据集（随机抽取第2、3阶段的数据）进行了独立性检验和ANN的应用。在纵向数据集中，肿瘤体积在时空间的动态变化被自动量化，用以计算进展时间，并与RANO确定的进展时间在可靠性和作为预测总体存活率的替代指标方面进行比较。研究者将此方法集成到一个应用软件中，用于神经肿瘤MRI的全自动定量分析，并将其应用于海德堡大学医院脑瘤患者的模拟临床环境中（海德堡模拟数据集）。

如果您对机器学习用于脑影像感兴趣，可直接点击以下文字：

第七届脑影像机器学习班

第八届脑影像机器学习班

结果：

ANN（人工神经网络）的训练集为：从2009年7月29日至2017年3月17日在海德堡医院接受治疗的455名患有脑肿瘤的患者（每位患者对应一个MRI数据）收集MRI数据（海德堡训练数据集）。

ANN的独立性测试数据为：在海德堡大学医院与训练数据集（海德堡测试数据集）并行收集了40名患者的独立纵向数据集，其中包括来自239次MRI扫描的数据，以及来自34个机构2011年10月26日至2015年12月3日的532名患者的2034次MRI扫描。

在两个纵向测试数据集中，ANN对CE肿瘤和NE体积的准确检测和分割具有优异的性能（在海德堡测试数据集中，CE（对比增强）肿瘤的中位数DICE（戴斯相似性系数）系数为0.89[95％CI 0.86-0.90]，NE（非对比增强non-contrast enhance）为0.93[0.92-0.94]; 在EORTC-26101测试数据集中，CE肿瘤0.91[0.90-0.92]，NEs0.93[0.93-0.94]）。基于人工神经网络的肿瘤应答评估进展的时间比用于预测EORTC-26101测试数据集中的总体存活率的中心RANO评估明显更好（风险比ANN 2.59 [95％CI 1.86-3.60] vs 中心RANO 2.07 [1.46-2.92];p<0.0001），并且在比较可靠性值时也比RANO高出36%（即，在定量体积定义的进展时间[基于放射科医师的评估与人工神经网络的自动评估]的一致性为87％[306个数据中的266个]，而地方与中心RANO评定的一致性只有51％[306个数据中的155个]）。对于海德堡模拟数据集，利用ANN在模拟临床环境中自动按需处理每个MRI扫描以及对其进行定量肿瘤反应评估只需要平均10分钟计算时间。

说明：

总体而言，研究者发现ANN能够以高通量对神经肿瘤学中的肿瘤反应进行客观和自动化评估，并最终可作为ANN在放射学中应用的蓝图，以改善临床决策。未来的研究应侧重于临床试验中的前瞻性验证以及自动化高通量成像生物标志物发现和其他疾病扩展的应用。

本研究具体流程如下：

图一：脑肿瘤自动分割的训练和模型开发、测试、统计分析和基础开发程序流程图

如图一所示：对本研究来自海德堡训练数据集、海德堡测试数据集和EORTC-26101测试数据集的MRI数据进行了相同的预处理。简而言之，预处理包括：提取脑组织（即，从图像中移除颅骨和颅外组织），然后进行图像配准，计算总体积，以及每个肿瘤分割mask的制备。肿瘤分割mask的制备包括对比增强（CE）肿瘤和非增强T2信号异常的体积描绘（NE：定义为T2-FLAIR高信号异常，不包括CE肿瘤和切除腔和明显的白质疏松），每个数据集的绘制由经验丰富的两位不同的神经放射学家执行。通过从每个体素中减去平均值并除以其SD（标准差Standard Deviation）来独立地归一化所有MRI序列。脑外的体素被设置为零。

本研究开发的ANN的架构受到研究者在脑肿瘤分割（BraTS）挑战赛中的工作的启发，基于U-Net架构开发。U-Net由编码器和解码器网络组成，它们通过跳过连接（skip connection）互连。从概念上讲，编码器网络用于以降低的空间信息为代价来聚合语义信息。解码器是编码器的对应物，并且在考虑由编码器提取的语义信息的同时重建空间信息。跳过连接用于将特征图从编码器传送到解码器，以允许更精确的肿瘤定位。我们对U-Net的改编利用编码器中的残差连接，同时保持解码器相对轻量级。在ANN的训练期间，它处理大输入块（patch）（128×128×128体素）以有效地捕获尽可能多的上下文信息。为了鼓励瓶颈层的训练，我们在网络深处使用了辅助损失层。我们使用海德堡训练数据集来训练和验证ANN（五折交叉验证）。对于该训练，我们为ANN提供了每个MRI扫描的四种不同MRI序列（T1-w，cT1-w，FLAIR和T2-w序列）以及由放射科医师生成的相应肿瘤分割mask作为输入。这些分割mask被用作所谓的基本事实（ground truth），使得ANN可以在MRI上学习脑肿瘤的表型外观，并且因此能够在MRI上自动识别和在立体空间上描绘CE（对比增强）肿瘤和NE（非对比增强）。

在海德堡训练数据集中，ANN在五折交叉验证过程中预测了肿瘤分割mask。也就是说，海德堡训练数据集被随机分成五个相等大小的子样本（20％的患者）。在五个子样本中，单个子样本（20％的患者）都获得了对模型的验证，其余四个子样本（80％的患者）则被用作训练数据。然后将交叉验证过程重复五次（折叠），五个子样本中的每一个使用一次作为验证数据。（ANN具体如补充图一所示）

补充图一：用于MRI肿瘤的自动识别和分割的人工神经网络(ANN)结构。本文的网络架构利用了最初由U-Net引入的编码器-解码器范例。研究在编码器使用残差连接，同时保持解码器尽可能低权重。辅助分段输出将梯度注入网络深处，并促进所有卷积层的训练。该网络在训练期间处理大小为128x128x128体素的三维输入切片。其完全卷积性质用于在测试时一次预测整个肿瘤分割mask，减少将切片拼接在一起的需要。

补充图二：连接成分分析的示意图，能够在随访期间自动识别新的对比增强（CE）肿瘤病变。在来自前面的MRI检查的CE肿瘤体积的边界之外进行分析，以忽略肿瘤缩小成几个较小子体积的情况。

本研究还使用纵向海德堡测试数据集和纵向EORTC-26101测试数据集独立地进行人工神经网络性能的大规模测试。具体来说，为了在两个测试数据集中预测具有CE（对比增强）肿瘤和MRI的NE（非对比增强）分割mask，本研究使用来自每个MRI扫描的四种不同MRI序列（T1-w，cT1-w，FLAIR和T2-w序列）作为输入，输入到由海德堡训练数据集的交叉验证期间获得的五个ANN模型组成的ANN集合模型中。由海德堡训练数据集，海德堡测试数据集和EORTC-26101测试数据集中的ANN生成的预测肿瘤分割mask作为所有后续分析的基本输入。

对于两个纵向测试数据集，本研究还定量评估体积肿瘤响应并分别计算进展时间，一次基于放射科医师生成的基本事实肿瘤分割mask，一次基于自动生成的基于ANN的基础肿瘤分割mask。本研究将肿瘤进展定义为CE肿瘤或NE中肿瘤体积增加（与基线或最佳反应相比）超过1 cm³的最小肿瘤体积增加；或者在先前的MRI扫描中在CE肿瘤体积之外发生新的CE病变（使用具有随时间的相应分割mask作为输入的专用算法自动识别）。对于体积增加，本研究应用40％的统一阈值以符合CE肿瘤的进展标准，而对于NE，本研究对低级别胶质瘤患者应用40％的阈值，对于胶质母细胞瘤患者应用100％的阈值。这些体积阈值通过RANO标准中的等效2D阈值来佐证，不过除了胶质母细胞瘤患者的NE数量增加100％之外，RANO工作组尚未确定2D阈值。

此外，在两个纵向测试数据集中，本研究还根据RANO标准进行了肿瘤反应的常规评估。在海德堡测试数据集中，本研究回顾性地进行了RANO评估，放射科医师通过共识讨论解决了差异。对于EORTC-26101测试数据集，地方评估和独立的中心RANO审查已经作为临床试验的一部分进行，因此本研究从试验数据库中提取了这些数据。研究者认为RANO中心审查是一个无偏见的参考标准，因为两位独立的专家放射科医师进行了审查，通过共识讨论解决了差异，并且与当地RANO评估相比，他们无法获知治疗类型，神经状态，类固醇剂量，以及当地RANO调查员的评估。两个测试数据集中的RANO评估仅基于成像标准，没有其他临床标准可以与本研究的肿瘤响应定量评估方法进行精确比较。

补充图六：用于肿瘤分割和定量体积肿瘤响应评估的开发人工神经网络（ANN）是用于在XNAT开源成像信息学软件平台（www.xnat.org）内实施的MRI检查的可扩展和全自动批处理的一部分。这种方法实现了无缝的、独立于供应商的集成环境，且不依赖于任何现有的基础架构，但也能够利用现有的XNAT功能来管理和协调大型多站点临床试验中的MRI数据的分析。

在MRI扫描仪上获取图像之后（或者例如上传到XNAT服务器的临床数据）将自动触发按需处理。处理以完全自动化的方式进行，不需要任何额外的（手动）干预。经处理的结果（例如，在各个MR序列上叠加的肿瘤分割mask、描绘纵向肿瘤体积动态的图表）将被自动推回到PACS（图片存档和通信系统）。总之，该方法能够在神经肿瘤学中高通量地进行客观和自动化的肿瘤响应评估以及对成像生物标志物的探索。

如补充图六所示，本研究还使用XNAT开源成像信息学软件平台组件开发了一个支持应用程序的软件基础架构。研究者的目标是在日常临床实践和临床试验中实现ANN的自动肿瘤分割和肿瘤反应的定量评估的翻译和应用，特别关注优化加工流程。即，该处理在临床上可接受的时间范围内完成。在常规临床实践中，在MRI扫描仪上获取图像之后（例如，在上传到XNAT服务器的临床试验中），触发MRI扫描的自动按需处理。MRI扫描的处理是完全自动化的，不需要任何额外的手动干预。经处理的结果（在各个MRI序列上叠加的肿瘤分割mask和描绘纵向肿瘤体积动态的图表）被自动推回到图像存档和通信系统（PACS)。研究者在模拟临床环境（海德堡仿真数据集）中对所有MRI扫描的自动（回顾性）处理进行了广泛的测试。

ANN的预测准确度主要由DICE相似性系数进行评估。DICE相似性系数是报告分割的性能并测量两个二元分割mask之间的空间重叠程度的标准度量。DICE相似系数被定义为两个mask（基本事实[GT]和预测分割mask[PM]）的交集大小的两倍，通过它们的体积之和归一化。DICE系数可以在0（不重叠）和1（完全一致）之间。报告的中值DICE系数的95％CI是使用1000次迭代的自举计算的。公式如下：

结果：

海德堡测试数据集中的独立测试得出CE肿瘤的中位数DICE系数为0.89（95％CI，0.86-0.90），NE和EORTC-的中位数DICE系数为0.93（0.92-0.94）。CE肿瘤的26101测试数据集为0.91（0.90-0.92），NE为0.93（0.93-0.94）（图2A，表1）。应用于EORTC-26101测试数据集的广泛多中心设置后，人工神经网络的性能保持稳定，并且放射科医师基本事实的肿瘤体积与人工神经网络在两个测试数据集中自动预测的高度一致（对于CE和Ne的DICE一致性相关系数，每个≥0.98;图2B和2C，表1）。当使用3D T1和cT1序列与相应的2D序列相比时，用于CE肿瘤分割的ANN在EORTC-26101测试数据中的表现显著提高。

图二：ANN和放射科医师绘制的肿瘤分割（A）和肿瘤体积（B，C）的结果之间的一致性。

（A）数据是肿瘤分割的中位数DICE系数。方块代表数据点的IQR，水平中心线显示中值。方块的边是缩进的，表示中值的95％CI。方块上下的横线代表IQR的1.5倍。点是异常值。DICE系数为0的异常值主要反映了治疗后环境中准确肿瘤分割的不确定性（即，区分真正的对比增强肿瘤与反应性神经胶质增生）。

（B）一致性相关系数（CCC）。

（C）Bland-Altman可视化。

表1：神经网络预测的肿瘤体积与放射科医生生成的肿瘤分割mask的肿瘤体积一致

在海德堡测试数据集中90％（40名患者中的36名）和EORTC-26101测试数据集中87％（306名患者中的266名）中，定量体积定义的进展时间（基于放射科医师的基础事实与ANN自动评估）的一致性为90％ （表2）。在EORTC-26101测试数据集中，只有51％（306个中的155个）患者达成一致，参考基准（即地方和中心RANO评估之间的进展时间协议）显著低于定量体积数据中的ANN和放射科医生的基本事实之间的一致性（p <0.0001;表2）。定量体积定义的进展时间比参考基准的更高可靠性也反映在相应的显示了进展时间的Kaplan-Meier曲线图上，在数据集水平上基于基础事实与ANN的定量体积定义的进展时间没有显著差异（海德堡测试数据集p = 0.94，p = 0.77 对于EORTC-26101测试数据集）; 然而，在EORTC-26101测试数据集中观察到基于地方与独立中心RANO评估的进展时间的显著差异（p <0.0001;图3）。

表2：不同方法在患者水平上进展时间一致性

图三：海德堡测试数据集（A）和EORTC-26101测试数据集（B）中定量的体积定义的进展时间，以及EORTC-26101测试数据集中的RANO定义的进展时间（C）。

研究还比较了通过定量体积评估（使用ANN）确定的时间与进展的计算性能，以及通过RANO（使用中心评估作为无偏倚参考标准）确定的那些作为预测EORTC-26101测试数据集中总体存活的替代终点。总体生存率的Cox回归模型随着从中心RANO作为时间依赖性协变量的进展时间产生HR为2.07（95％CI 1.46-2.92），Z值为4.12且c指数为0.57（95％CI 0.54- 0.61;p <0.0001;表3）。相比之下，从ANN作为时间依赖性协变量的总体存活时间的Cox回归模型得出HR为2.59（95％CI 1.86-3.60），Z值为5.64和c指数为0.62（95％CI 0.59-0.66; p <0.0001;表3）。EORTC-26101试验中的治疗方案在两种模型中均无混淆效应（两者均p = 0.34）。将人工神经网络的进展时间作为额外的时间依赖性协变量包含在Cox比例风险回归模型中得到显著改进的模型拟合，该模型仅包括从中心RANO评价作为时间依赖性协变量和治疗组作为二元协变量（χ2= 21.95; p<0.0001）。

表3：通过评估方法在EORTC-26101测试数据集中的总体存活率与进展时间的Cox比例风险回归模型

此外本研究的保守阈值100％的基础是这样的理论：NE（非对比增强）体积的动态特异性低于CE肿瘤体积以确定胶质母细胞瘤患者的肿瘤负荷。这一假设得到了在EORTC-26101测试数据集中的研究结果的支持，即基线CE肿瘤体积和该体积的早期变化是多变量Cox模型中对于总体存活率的协变量，其显示对整体模型的最大贡献χ2与其他临床和分子参数的比较（表4）。具体而言，基线CE肿瘤体积（HR为1.02/cm3,95％CI1.01-1.0; p <0.0001）和CE肿瘤体积的早期变化（HR为1.04/100％增加，95％CI 1.02-1.06; p <0.0001），显示出最高的χ2值（18.87和19.88），并且对总体模型χ2值76.97贡献了25％和26％。次高的χ2值是O6-甲基鸟嘌呤-DNA甲基转移酶（MGMT）启动子甲基化状态，χ2值为11.42（HR 0.61,95％CI 0.46-0.81; p = 0.00073 ）和糖皮质激素摄入量，χ2值为6.64（HR 1.52,95％CI 1.11-2.09; p = 0.0099）;因此对整体模型χ2值贡献了15％和9％（表4）。此外，基线NE体积和该体积的早期变化在该多变量模型中没有显示出独立的显著性（表4），从而支持本研究选择的保守阈值，即胶质母细胞瘤患者的NE肿瘤体积增加100％。

表4：EORTC-26101测试数据集中总体存活的多变量Cox比例风险回归模型

总结：

本研究利用基于U-Net的人工神经网络，基于多中心肿瘤数据训练和交叉验证，可以有效地对包含T1-w，cT1-w，FLAIR和T2-w四个MRI序列的肿瘤患者MRI数据进行肿瘤分割，包括增强肿瘤（CE）以及非增强信号异常（NEs）的分割，在结果上与放射科医生的手绘结果保持高度一致性，且相对于手绘结果具有更高的效率和内部一致性。在患者的存活率（进展时间）评估上与中心RANO的一致性也显著优于不同的人工RANO评估。

原文：