Neuro-Oncology：深度学习算法全自动评估脑胶质瘤负荷

Original 杨晓飞思影科技 2022-04-17

点击上面“思影科技”四个字，选择关注我们，思影科技专注于脑影像数据处理，涵盖（fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS,眼动）等，希望专业的内容可以给关注者带来帮助，欢迎留言讨论，也欢迎参加思影科技的其他课程。(文末点击浏览）

基于深度学习算法，来自麻省总医院等机构的研究者可以全自动地从MRI图像中分割脑胶质瘤，其效果与专家手工分割不相上下。该研究发表在最近的Neuro-Oncology期刊上。

关键词：深度学习胶质瘤分割纵向反应评估 RANO

背景：

脑胶质瘤是主要的中枢神经系统（CNS）肿瘤，具有可变的自然病史和预后，取决于其组织学和分子特征。目前用于确定治疗反应和评估临床试验中肿瘤进展的金标准是神经肿瘤学中的反应评估（RANO）标准。对于高级别胶质瘤，包括胶质母细胞瘤（GBMs），放射学反应评估基于：

（1）测量对比增强肿瘤的最大二维直径的2D乘积；

（2）T2/FLAIR的高强度区域的定性评估。然而，由于胶质瘤的浸润性和异质性对比增强的存在，人工划定肿瘤边界可能很困难。

最近一篇关于临床试验中脑肿瘤成像的共识论文指出体积分析改进了现有方案。体积测量可以更准确地捕捉肿瘤负荷，因为胶质瘤形状往往是不规则的。然而，体积反应评估尚未被常规使用，这是因为使用现有工具进行肿瘤分割非常困难。自动分割工具可以帮助将肿瘤体积用作临床试验中的反应终点，并允许整合到临床工作流程中。快速和可复制的肿瘤分割也是肿瘤神经影像生物标记的基于体素的定量评估的重要步骤。

本文应用深度学习研究开发了一个完全自动化的脑提取和肿瘤分割流程，根据RANO标准来可靠地生成异常FLAIR高强度和对比度增强肿瘤体积以及二维直径。然后，通过将自动化测量与来自专家的手动测量进行比较，验证了该算法在多机构术前患者队列和来自单一机构术后纵向患者队列中的性能。

材料和方法：

被试与数据

术前患者队列 ：

本研究回顾性地分析了宾夕法尼亚大学附属医院（HUP）、肿瘤成像档案馆(TCIA)、麻省总医院(MGH)和布莱根妇女医院(BWH)的胶质瘤患者。所有患者均符合以下标准：（i）根据世界卫生组织（WHO）标准，患有组织病理学证实的II-IV级胶质瘤；（ii）可用的术前MRI图像，包括T2加权（FLAIR）和对比后T1加权图像。不满足上述标准，则排除患者。患者成像采集设置参见补充图1-2。

术后患者队列 ：

术后患者队列的MRI数据从MGH的两个临床试验中获得，共计54名患者。两个试验的纳入标准均为：年龄>18岁，术后残留对比增强肿瘤单维度尺寸≥1cm，胶质母细胞瘤的组织学确诊，以及合格的术后标准治疗。所有被试均采集了3.0T的FLAIR和对比前后T1加权图像。

专家脑提取、肿瘤分割和RANO测量

从术前和术后患者队列中随机抽取42例患者，由一名评分者(R.Y.H.，神经放射学家，9年经验)进行脑提取。在术前患者队列中，对FLAIR高信号区域进行人工肿瘤分割（Q.S.，神经放射学家，5年经验;RYH; AB，神经外科住院医师，5年经验）；对术后患者队列中FLAIR高信号区域和增强对比区域进行人工肿瘤分割(E.R.G，神经肿瘤学家，12年经验；M.C.P.，神经放射学家，11年经验)。每一个病人的随访都由一个专家进行分割，评估术前和术后的磁共振成像，以排除术后血液制品的影响。手工RANO双向测量以及FLAIR进展评估由两名评估人员进行(例如:K.I.L.，神经肿瘤学家，7年经验)，涉及基线访视、手工测量对比增强肿瘤体积最低的一次随访，以及术后患者队列的最后一次随访。

基于深度学习的脑提取

将专家脑提取涉及的42名患者分为训练组（n=30）和测试（n= 12）组，神经网络在训练组上训练。作为参考，将我们使用的深度学习算法与其他常用的自动脑提取方法（混合流域算法，基于鲁棒学习的脑提取，脑提取工具，3dSkullStrip和大脑表面提取器）进行脑提取的比较。所有方法都使用默认参数应用于T1对比后图像（除了基于鲁棒学习的脑提取，该方法无可调参数）。

基于深度学习的异常FLAIR高信号和对比增强肿瘤分割

HUP、TCIA和MGH术前患者队列以4：1的比例随机分为训练组和测试组。BWH患者队列用作独立测试集。我们使用训练集训练了单一的神经网络模型，用于术前患者队列中的FLAIR高信号图像的分割。当模型被训练后，就在测试组和BWH独立测试集上进行性能评估。

来自单个机构的术后患者队列的患者被随机分成训练组和测试组，比例也为为4：1。数据在患者水平上分开，使得单个患者的所有随访完全在训练或测试组中（补充图3）。对术后患者队列训练了两种神经网络模型：FLAIR高信号分割和对比增强肿瘤分割。在训练集上训练出模型后，即在单独的测试集上评估模型的性能。

补充图3.神经网络体系结构与后处理

我们使用3D U-Net架构神经网络进行脑提取和肿瘤分割（补充图4B）。与原始的2DU-Net类似，我们的架构由一个向下采样和一个向上采样的臂组成，这两个臂之间有残差连接，在不同的空间尺度上连接特征映射。

这些网络被设计成从多个通道接收输入patch：

1)FLAIR和T1造影后图像用于大脑提取；

2)FLAIR和T1造影后图像用于术前患者队列FLAIR高信号分割；

3)FLAIR、T1造影前、T1造影后图像用于术后患者组FLAIR肿瘤分割；

4)FLAIR、T1造影前、T1造影后、FLAIR高强度区用于术后患者组对比增强肿瘤分割。除了最终的S形输出之外，在所有层中使用整流线性单元激活（ReLU）。在每个卷积层之后应用批量归一化以进行正则化。我们使用Nestorov自适应矩估计来训练3DU-Nets，初始学习率为10⁻⁵，最小化Dice损失函数：

其中D是Dice，p是神经网络的输出概率，g是基准图真值，α是常数。网络在DeepNeuro中使用Keras/ Tensorflow后端实现。每个U-Net都在NVIDIA Tesla P100图形处理单元上进行了训练。在训练过程中，20％的训练集被保留作为验证集。对于脑提取，将训练集中的每个患者随机提取50个patch（64×64×8），验证集中的每个患者提取10个patch。对于肿瘤分割，将训练集中的每个患者，从正常脑和FLAIR高信号区域以1：1比率提取20个patch（64×64×8），验证集中的每个患者提取4个patch。在使用patch训练网络之前，它们通过矢状翻转来增强。

增强可增加训练集的大小，同时也可防止过拟合。网络通过所有提取的patch进行训练，直到验证损失函数值在连续10次迭代中没有改善为止。一旦神经网络被训练好，通过将MR图像从图像的最上端进行8种不同的偏移量网格化进行推理。然后，该模型预测了每个patch的概率图，通过多个重叠patch的预测得到体素的概率平均值。对于增强对比的肿瘤区域的预测，使用FLAIR高信号分割神经网络的输出概率图代替手工推导的FLAIR高信号区域作为输入。

AutoRANO算法

我们开发了一种AutoRANO算法，可以从我们的基于深度学习的对比增强肿瘤分割中自动推导RANO测量值。该算法搜索具有最大肿瘤面积的轴向切片并确定病变是否可测量。可测量的病变定义为两个垂直测量值中的最小长度大于或等于12mm。如果病变是可测量的，通过彻底搜索最长直径以及相应的最长垂直直径来自动导出最大二维直径的乘积。最长直径和垂直直径之间的角度限制在85-95º。如果在同一扫描中存在多个可测量的病变，则将最大二维直径的乘积相加（最多测量5个病变）。

统计分析

神经网络分割与专家分割结果采用Srensen-Dice系数、灵敏度和特异性进行比较，并用Dunnet检验进行统计学评价（显著性水平p<0.05）。通过Spearman秩相关系数（ρ）或组内相关系数（ICC）评估体积和RANO测量的比较（显著性水平p<0.05）。ICC计算的更多细节参见补充材料。对于术后患者队列，最低点被定义为从基线到最后一次随访之间任何时间点的最小体积最小2D线性测量值。在纵向比较体积和RANO测量值时，最后一次患者就诊是相对于最低点进行评估的（增量测量= 最后一次患者就诊的体积或RANO测量- 最低点的体积或RANO测量）。

结果

患者队列基本信息

我们的最终术前患者队列包括来自HUP的239名患者，来自TCIA的293名患者，来自MGH的154名患者和来自BWH的157名患者。我们的最终术后患者队列来自MGH的54名患者的713次就诊。由于缺失MRI序列或过度运动伪影，排除了21名患者。患者特征见补充表1。

补充表1.术前（HUP，TCIA，MGH和BWH）和术后患者队列（MGH）的年龄，性别和组织学分级。*注意 - 年龄显示为平均值（最小值 - 最大值）

基于深度学习的脑提取

我们使用基于3D U-Net架构的深度学习算法与人类专家和常用脑提取软件包的脑提取进行了比较。在测试集中该算法与手工专家脑提取的平均Dice评分为0.935（95％CI，0.918-0.948）（补充表2，补充图5A）。与其他常用的脑提取技术相比（补充表2），我们的算法对测试集具有最高的Dice评分和特异性。当U-Net应用于术前患者队列全部843名患者时，保留在提取的脑图像中的FLAIR高信号的平均分数（定义为脑提取图像中剩余的肿瘤体积除以肿瘤总体积）为0.987（95％CI，0.984-0.990，补充图5B）。当应用于术后患者队列中的713次访视时，提取的脑图像中保留的FLAIR高强度和对比增强肿瘤的平均分数为0.996（95％CI，0.994-0.997，补充图5C）和0.982（95％CI，0.977-0.987）。

补充表2.以人类专家脑提取为参照，深度学习算法（基于3D U-net体系结构）与训练和测试集中其他常用的颅骨剥离方法相比，平均的Dice评分，灵敏度和特异性。

*注意 - 性能最高的方法以粗体显示。Dunnet检验用于比较3D U-Net和其他颅骨剥离方法之间的显著性。* p<0.05，** p<0.01，*** p<0.001

基于深度学习的FLAIR超强度和对比增强肿瘤体积分割

使用我们训练的算法，大脑提取、FLAIR高信号和对比度增强肿瘤分割的平均时间为19秒。对于术前患者队列的测试集，FLAIR高信号分割的平均Dice得分为0.796（95％CI，0.753-0.803）（补充表3）。对于独立测试集，自动FLAIR高强度分割与专家人工分割相比的平均Dice评分为0.819（95％CI，0.793-0.842）。在补充图7中显示了术前患者队列独立测试集的FLAIR高强度分割的例子。对于术后患者队列的测试集，自动FLAIR高强度分割与手动分割相比的平均Dice为0.701（95％CI，0.670-0.731）。自动对比增强肿瘤分割与手动分割相比的平均Dice分数为0.696（95％CI0.660-0.728）。

补充表3. FLAIR肿瘤的自动与专家手动分割的平均Dice相似系数。计算Spearman秩系数（ρ）和组内相关系数ICC.

术后患者队列测试组的FLAIR高强度和对比增强肿瘤分割的实例显示在图1A-B中。补充图9中显示了对于测试组中两名患者的FLAIR高强度和对比增强肿瘤体积的纵向跟踪的实例。对于FLAIR高信号肿瘤体积，自动和手动分割之间的ICC在术前队列中为0.915（p<0.001），术后患者队列中为0.924（p<0.001）。术后患者队列中对比增强肿瘤体积的ICC为0.965（p<0.001，图3）。在极少数情况下算法会由于正常脑和肿瘤之间信号强度相似而失效。（补充图7D和补充图8）。

补充图7.（A）用于术前患者群组的独立测试组的（A）II级，（B）III级，（C）IV级神经胶质瘤的手动与自动FLAIR高信号分割的实例。在（D）中展示了与专家手动分割（III级）不一致的自动分割的示例。所示的分割叠加在轴向FLAIR图像上。

补充图8. 该图展示了与来自测试集的专家手动分割不一致的自动分割案例。其中，（A）为FLAIR高强度分割结果（叠加在轴向FLAIR图像上）；（B）为对比度增强图像分割结果（叠加在T1对比后图像上）。

术后患者队列中体积和RANO测量的可重复性

通过比较每位患者两次基线访视的测量值来评估手动和自动测量的可重复性。对于基线访视1和2的FLAIR高信号体积，手动测量的ICC为0.983（p<0.001），自动测量的ICC为0.986（p<0.001））。对于增强对比肿瘤体积，手动测量的ICC为0.964（p<0.001），自动测量的ICC为0.991（p<0.001）。

比较基线访问1和2的RANO测量，对于手动RANO，ICC为0.984（p<0.001），对于AutoRANO，ICC为0.977（p<0.001）。值得注意的是，有一名评估者评估了5名患者，其中一名患者在一次检查中有可测量的病变，而另一次中则没有。同样，另一位评估者评估了三名患者，其中一名患者在一次检查中有可测量的病变，而另一次基线就诊没有。相比之下，当使用AutoRANO算法时，没有患者在两次基线随访的病变测量存在矛盾。

手动RANO的评估者间一致性和手动RANO与AutoRANO之间的一致性

关于评估者间一致性，两位专家评估者之间的手动RANO测量ICC为0.704（p<0.001）。关于评估者和自动算法的一致性，AutoRANO和Rater4之间ICC为0.768（p<.001），AutoRANO和Rater6之间的ICC为0.501（p<0.001，图4）。

补充图4.（A）我们提出的方法中的图像预处理步骤。（B）U-Net架构用于颅骨剥离和肿瘤分割。输入是来自FLAIR图像，T1对比前、T1对比后图像、和FLAIR肿瘤区域的切片，具体取决于分割任务。输出是二进制标签映射。

治疗反应自动评估

对最低点和最后一次患者就诊进行了比较（delta测量=最后一次患者就诊测量- 最低点测量）。在评估delta测量的算法一致性时，对于FLAIR高信号量、对比度增强肿瘤体积和RANO测量，自动和手动delta测量之间的ICC分别为0.917（p<0.001），0.966（p<0.001）和0.850（p<0.001）（图5）。

补充图5.（A）使用3D U-Net进行颅骨剥离的实例（B）术前患者队列中所有患者脑提取后保留的FLAIR肿瘤部分的直方图（n = 843）（C）在术后患者队列中所有患者就诊后保留的FLAIR高信号部分的直方图（n = 713）

RANO测量与手动测量体积的相关性

手动RANO测量与手动增强肿瘤体积之间的Spearmanρ系数为0.787（p<0.001）。在自动RANO测量值与手动增强肿瘤体积之间的Spearman为0.940（p<0.001，图5）。Delta手动RANO测量值与delta手动增强肿瘤体积之间的Spearmanρ系数为0.744（p<0.001）。

Delta AutoRANO测量值和delta手动增强肿瘤体积之间的Spearmanρ系数是0.832（p<0.001，补充图11）。

补充图11. RANO测量与手动测量体积的相关性

讨论

基于双基线MRI，手动和自动导出的FLAIR高信号量、对比增强肿瘤体积和RANO测量值都是高度可重复的，显示出评估者内部的一致性。但是，评估者之间的一致性存在差异。来自AutoRANO算法的RANO测量值平均大于两个人类评估者的RANO测量值。这可能是由于我们的AutoRANO算法执行了对最长垂直直径的穷举搜索，而人类通过眼睛执行此估计是不太准确的。两个评估者之间的平均RANO测量结果不同，这进一步证明了这种不准确性。实际上，与之前关于二维测量变化的报告一致，我们的评估者之间RANO测量之间存在显著差异也就不足为奇了。相比之下，我们发现手动评估者与自动评估体积之间在对比增强肿瘤和FLAIR高信号方面具有高度一致性。这表明，与RANO测量相比，体积测量允许评估者之间更高的一致性。

在纵向治疗过程中，对于肿瘤负荷的变化(增强对比度和高信号)，手动和自动测量有很高的一致性。然而，与RANO相比，对比增强肿瘤体积的手动评估和自动测量之间有更好的一致性。因此，由于与手动方法的更高一致性，自动体积测量优于自动RANO测量。

有趣的是，与手动RANO测量相比，AutoRANO与手动对比增强肿瘤体积相关性更好。DeltaAutoRANO（最后一次访问和最低点扫描之间的二维测量的差异）也比delta手动RANO测量更好地与delta手动对比增强肿瘤体积相关。这表明除了完全自动化的优点之外，AutoRANO可能比手动RANO测量更准确地测量肿瘤负荷。

需要注意的一点是，手动与自动体积的ICC值高于手动与自动分割的Dice分数。这是因为Dice是实际与分割之间空间重叠的度量，而ICC比较体积时不考虑空间位置。两个指标都提供有用但互补的信息。作为度量的Dice对沿着病变边界的分割差异更敏感。因此，如果手动和自动分割沿着的边界不同，则这可能损害取决于重叠程度的Dice测量。此外，Dice系数对病变大小敏感。

本研究存在以下局限性，后续仍需改进：

首先，每位患者的专家手动体积分割来自单个评估者，这限制了我们评估体积分割的评估者间变异性的能力。未来的研究可以结合多个评估者的分割进行研究。

其次，我们的术后患者队列仅包含来自单一机构的54名患者的成像。其他研究可以利用更大的多机构队列，并评估手术后早期与手术后期以及反应性进展性疾病的表现。

再者，我们的方法使用单一的神经网络架构而没有与其他方法进行比较。未来的工作可以探索其他神经网络架构的临床效用以及神经网络模型的集合。此外，只有手术后残余一定大小增强肿瘤的患者才参加临床试验，这限制了对可能难以分割的较小肿瘤的适用性。

此外，本研究使用了具有2D或3DMR成像的患者队列，因为并非所有机构都能获得3DMR成像。仅使用3DMR成像将进一步提高二维和体积测量的可靠性。

最后，算法在其分割中的置信度可以添加到我们的流程中，以标记需要临床医生进一步验证的分割。

编者注：

AI人工智能时代已经来临，机器学习在脑影像方面有着广阔到应用前景，思影科技的脑影像机器学习课程将会涉及相关内容，欢迎您参加（请直接点击）：

第八届脑影像机器学习班

原文：