参数选择对脑卒中后失语症预测模型的影响

Original 杨晓飞思影科技 2022-04-29

收录于合集

请点击上面“思影科技”四个字，选择关注我们，思影科技专注于脑影像数据处理，涵盖（fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS,眼动）等，希望专业的内容可以给关注者带来帮助，欢迎留言讨论及转发推荐，也欢迎了解思影科技的课程及数据处理服务，可添加微信号siyingyxf或18983979082咨询(咨询电话18580429226，杨晓飞）。(文末点击浏览）

脑卒中是导致严重残疾的主要原因之一，约三分之一的慢性患者留下语言障碍。失语症不是单一的症状，而是指范围广泛的语言障碍。从脑成像数据中预测语言和认知变化是至关重要的，可以加深对语言神经生物学的理解，还可以在临床预后、管理和治疗路径上实现潜在的范式转变。一些研究开始使用大脑损伤信息来预测特定神经心理测试或失语症类型。本文的主要目的是了解三个基本参数对大脑行为预测模型的影响：(1)如何在预测模型中将大脑分区 (2)多模态神经影像信息不同组合之间是否存在差异(例如DWI是否可以改进T1/T2加权成像模型)(3)机器学习算法之间是否存在差异。本文发表在Nature Human Behaviour杂志。（可添加微信号siyingyxf或18983979082获取原文及补充材料）

本文专注于预测横断面失语症症状。将失语症做二分类是不够的，因为它不是同类的、相互排斥的类别，在组内和组间有相当大的变异性，经常导致误诊或患者被归类为混合型失语症。另一种方法是将患者作为点放置在一个连续的多维空间中，轴代表主要的神经计算过程。该方法基于语言活动(例如，命名、理解和重复)反映了主要系统之间的相互作用。针对每个患者在连续多维空间中的位置提供行为描述，通过基本组成部分进行总结。不管人们想要预测什么具体目标，都存在一个问题，那就是如何验证预测模型。最简单的方法是使用留一法交叉验证，其中使用N−1的样本来拟合模型并用其预测剩余的一个样本(通过迭代使每个样本都被剩余)。但是该方法可能会过拟合，k-fold (k=4-10)是个备选方案，因为训练集具有较少的重叠(减小测试误差的方差)。与留一法交叉验证相比，k-fold需要相对较大的样本（但是这种方法仍旧不能完全避免模型的过拟合风险，关于神经影像数据机器学习模型的过拟合风险，请看思影科技于推送的文章）（可添加微信号siyingyxf或18983979082获取原文及补充材料）：

大脑数据分类时意外过拟合的危险

神经成像提供了与样本数量(~10²)相比的高维数据(~10⁶个体素)，这可能导致在建立预测模型时出现过拟合问题。可以以不同的方式对大量的预测特征进行下采样：例如通过使用解剖学或功能图谱、选择特征子集的方法或创建相似性矩阵的核方法。最常见的是使用解剖图谱(例如，自动解剖标记图谱)或功能图谱进行下采样，这些图谱是通过基于体素的静息态功能连接分组得出的。也可以使用通过激活或病变映射研究确定功能相关的区域。例如，包含三个不同模块的语言功能模型，语音(外侧裂区)、语义(颞叶前部)和语言输出(中央前回)。由此产生的功能分区除了能预测患者的失语症亚型外，还能预测神经心理测试分数。另一种是使用神经血管解剖学知识。以往的血管造影研究表明，大脑中动脉(MCA)分支通常分布于13个皮质区域(眶额区、额前区、中央前区、中央区、顶前区、顶后区、角区、颞枕区、颞后区、中区、颞区、前区和极区)。鉴于这些开创性的解剖学研究只提供了血管区域的手绘图，在最近的一项研究中，本文团队使用主成分分析(PCA)从脑卒中后失语的非随机病变组织中提取潜在的共性，产生了17个紧密反映上述皮质血管供应模式的脑区。

对于使用损伤区域来提取特征的方法而言，最常用的方法是基于T1或T2加权图像，覆盖整个大脑或者针对目标结构或功能区域建立预测模型。经典的神经学研究提出，失语症的某些特征可能反映了白质连接中断和局部灰质损伤。最近，在神经外科患者中使用直接电刺激的研究表明，不同的失语症可以通过束状刺激瞬时产生。这表明，使用来自特定患者DWI或群体水平白质连接图的信息，预测模型可能会得到实质性改善(值得注意的是，DWI数据处理可能是临床应用的经济和操作障碍)。少数几项使用白质信息的研究产生了不一致的结论。纳入患者特异性结构连接数据的研究发现，病变或连接数据可以较好地区分失语症类型，然而信息组合并没有显著提高预测精度，在某些情况下低于单纯基于病变大小的模型。使用群体水平方法的研究也有不一致的发现。Hope等人通过将患者的病变投影到群体水平图谱来推断白质的断开情况，发现断开的信息并不能改善基于损伤特征的失语症预测模型。另一项研究使用随机森林，将病变特征、纤维束断开和静息态功能磁共振结合起来，预测失语症的严重程度和Western Aphasia Battery得分。虽然预测和评分之间的相关性很高，但当训练和测试数据完全分离时，预测精度降低，而且与使用只使用结构连接矩阵的结果差不多。

多种多变量分析的学习算法都有偏差和假设。目前不清楚哪种算法可以解决任意给定的问题，为了实现这项目标，需要考虑多个神经成像输入以及大脑的多个分区。设计用来处理多个数据的方法是多核学习(MKL)，它搜索有意义的分组并按贡献度组合。该方法为每个模态或区域创建单独的核，为每个通道或区域分配权重。然而，很难确定为什么有的特征具有高权重，因此对特定权重的解释应该谨慎对待。Pattern Recognition for Neuroimaging Toolbox (PRoNTo v.2.1)采用了改进的MKL使得其更通用，可以识别更小的特征子集。除了MKL方法，该工具箱还有另外三种回归方法：岭回归(KRR)、高斯过程回归(GPR)和相关向量回归(RVR)。因此，本文使用此工具箱，因为它易于使用并可与SPM12集成。

本研究的目的是建立脑卒中后失语症表现的预测模型。在前人研究的基础上，以四个正交语言维度和认知连续维度作为预测目标(语音、语义、言语流畅度和执行能力)，参数化地建立了方案的有效性和可靠性。对于每个预测目标，比较了使用不同大脑分区 (五种方法)、从多模态成像得到的不同度量方法(六个输入及其组合)和不同机器学习算法(四种类型)的模型的准确性。概述如图1，本文测试了所有可能的组合。这使我们能够确定不同组合方式预测模型性能的差异，以及这些差异是否会随着预测目标的不同而发生显著变化。

图1 研究概述图

方法

被试。纳入慢性脑卒中患者70例。所有被试都被诊断为失语症。在发音和/或理解语言方面有困难。被试是从当地社区诊所和当地国民健康服务机构的转介中招募的。没有限制失语症的类型或严重程度。使用年龄和教育程度匹配的健康对照组(8名女性和11名男性)数据，执行自动病变识别程序来确定异常体素。没有使用统计方法来预先确定样本大小。模型训练和测试集是分开的。

神经心理评估。评估一系列语言和认知能力。包括PALPA、PALPA1、PALPA2、PALPA9。包括64项Cambridge Semantic Battery、Camel and Cactus Test、图片命名测试、Boston Naming Test、手写的96组同义词判断、Comprehensive Aphasia Test、Boston Diagnostic Aphasia Examination。额外的认知测试包括向前和向后的数字广度Brixton Spatial Rule Anticipation Task、Raven’s Coloured Progressive Matrices。评估分为几个测试阶段完成，速度和数量由被试决定。所有分数都转换为百分比，如果测试没有最高分可用，使用数据集中的最高分数来缩放数据。

PCA。用于生成行为目标维度，有两个阶段：(1)确定最优分子数和解的稳定性，(2)使用该信息对行为数据执行方差旋转PCA。在第一阶段，使用MATLAB工具箱进行五折交叉验证。此工具箱在训练集上构建PCA模型预测剩余数据的变量。一次移除一个变量，使用线性回归PCA模型来预测。计算交叉验证中的RMSE，作为维度数量的函数进行分析。此步骤重复100次，每次调整患者的顺序，以避免抽样偏差。进一步使用不同的样本大小来测试稳定性(以10%的步长删除了10%-60%的数据)。确定了最佳维度数量后，执行方差旋转PCA。使用主成分分析模型系数确定期望维度的得分(通过将测试折叠数据投影到主成分分析模型空间)，这些分数被视为建模的目标。通过比较观察和预测得分之间的相似性，来确定最佳PCA模型的可预测性(使用系数矩阵将测试集投影到分量空间)。

神经影像数据。高分辨率结构T1加权MRI扫描在3.0-Tesla Philips Achieva扫描上获得。T1加权反转恢复序列参数如下：重复时间9.0ms；回波时间3.93ms；翻转角8°；150层连续切片；层厚1 mm；体素大小1.0×1.0×1.0mm³；矩阵大小256×256；视野256 mm；反转时间1150ms；SENSE加速因子2.5；总扫描采集时间575s。

使用脉冲梯度自旋回波平面序列采集弥散加权图像，参数如下：回波时间59ms；重复时间~11884ms(被试食指上佩戴外周脉搏监视器)；最大梯度强度(Gmax) 62mTm⁻¹；半扫描因子0.679；112x112图像被重建到128×128矩阵中；重建的体素分辨率1.875 mm×1.875 mm；层厚2.1mm.。43个非共线弥散敏化方向，b=1,200s mm⁻²(Δ=29ms，δ=13.1ms)，b=0时为1；SENSE加速因子为2.5。该序列在左右平面上以相反的相位编码方向重复两次。为了校正与敏感度相关的图像失真，在每个相位编码序列的开始处收集B0图像。

神经影像预处理。T1加权MRI。T1图像用SPM12进行预处理。使用针对局灶性病变大脑改进的分割-归一化程序将图像转换到标准MNI空间。所有患者和健康对照者的数据均进行分割归一化。包括分割、偏差校正和空间归一化。简而言之，将组织类别(以及用于异常体素的附加组织类别)，强度偏差和非线性形变组合到相同的概率模型中。用健康对照组测定每个体素的异常程度，该方法测量患者数据中的体素与对照组中相同体素的平均值之间的相似性。使用0.5阈值确定异常或正常体素。从患者样本中获得的结果与专家神经科医生指定为病变组织的结果进行比较后，创建了一个二进制病变图像。对每个患者生成的所有图像进行单独检查，并相对于原始扫描进行修改。二值图像仅用于创建图3中的病变重叠图，并不是主要分析的一部分。在主要分析中使用连续的异常/正常图像，这些值已经被归一化，代表定量指标(称为%异常)。此外，统一的分割过程输出灰质和白质的概率图，这些概率图也被用于主要分析。使用8mm FWHM对概率图进行平滑处理。

DWI。使用FSL软件对弥散加权图像进行预处理。数据是用反相编码收集的，得到成对向相反方向扭曲的图像。通过topup命令，将两个图像组合成校正的图像。下一步校正涡流引起的扭曲和头动。预处理后，在每个体素上拟合弥散张量模型(dtifit命令)以获得局部MD和FA值。使用MD图为每个被试创建mask，将非零体素范围的50%设为阈值，从而去除脑脊液和/或受损空间中的体素。获得弥散概率模型时，除了以下参数外，所有参数都设置为默认值：纤维数量3；burn in period=3,000；以及模型3(zepplin轴对称张量)。最后，使用protrackx2获得了全脑ACM。反映了体素与大脑其余部分的整体连接程度。使用flirt (具有互信息和6个自由度)将弥散空间中的B0图像与高分辨率T1图像进行配准，以获得二者的变换矩阵。然后将弥散指标变换到MNI空间。使用8mm FWHM平滑，以考虑被试之间的可变性。

多变量模式识别模型。使用PRoNTo v2.1来确定是否可以基于T1和/或DWI数据的多变量分析进行预测。为了找到最优解，使用PRoNTo中的三个算法执行回归分析：KRR，RVR和GPR。在有多个模态和/或将大脑细分为ROI的情况下，使用第四个算法MKR，因为该方法可以同时学习和组合由不同核表示的不同模型。PRoNTo依赖于核的方法克服神经成像中的高维问题(每幅图像大约2-5×10⁶个体素)。在所有的神经影像学扫描之间建立成对的相似性矩阵，总结为NxN的核矩阵。所有算法都使用默认参数。使用嵌套交叉验证来优化超参数λ，控制KRR和MKR的正则化，而GRP和RVR算法使用贝叶斯框架自动优化超参数。用十折交叉验证评估模型训练效果。按照软件的建议，从所有模型的每个数据向量中减去体素维度的平均值，并对具有多个模态和/或ROI的所有模型的样本进行归一化(向量范数1)。本文主要关注MSE（均方误），通过置换检验评估模型显著性。使用Wilcoxon测试比较MSE确定模型的性能水平。使用R开发的软件包计算了每次比较的贝叶斯因子，确定是否存在差异。由于量化模型复杂度困难，在结果中没有校正。最后，报告了每次非参数检验的效应量大小。

分区。使用了五种不同的mask定义大脑空间。包括没有分区的全脑模板，两个基于解剖学的图谱。首先，将Harvard–Oxford皮质和皮质下图谱与Johns Hopkins University的白质图谱结合在一起，根据概率值对每个体素进行二值化。其次，使用数据驱动的方法识别左半球MCA卒中同时损伤的体素病变脑区，应用PCA提取损伤的潜在结构获得病变脑区组合。还使用了两个基于功能的图谱：(1)基于功能连接相似性的全脑图谱(2)基于病变的语言模型，与行为的三个功能成分相关。

预测模型是分阶段开发的，以确定每种成像方式的实用性。有六个输入代表来自T1 (%异常、%灰质和%白质)和弥散成像(FA、MD和ACM) 的数据。单独使用，或组成15对，或T1/弥散3个为一组，或全部在一起。每种输入方式都有四个模型，分别与四个主要行为维度有关。

如果您对机器学习及脑影像数据处理感兴趣，欢迎浏览思影科技课程及服务（可添加微信号siyingyxf或18983979082咨询）：

第十四届脑影像机器学习班（重庆，3.12-17）

第三十六届脑影像基础班（南京，2021.1.6-11）

第十五届DTI数据处理班（南京，12.26-31）

第十一届磁共振脑影像结构班（南京，1.12-17)

第三十六届脑影像基础班（南京，2021.1.6-11）

第十九届磁共振脑网络班（南京，1.18-23)

第三十八届脑影像基础班（南京，2.23-28）

第八届任务态功能磁共振数据处理班（南京，3.2-7）

第一届任务态功能磁共振提高班（南京，3.9-14）

第七届任务态fMRI专题班(重庆，1.14-19）

第三十七届磁共振脑影像基础班（重庆，1.23-28）

第二十届磁共振脑网络数据处理班（重庆，2月27-3月4日）

第十六届DTI数据处理班（重庆，3.5-10）

思影科技功能磁共振(fMRI)数据处理业务

思影科技弥散加权成像（DWI/dMRI）数据处理

思影科技脑结构磁共振成像数据处理业务（T1)

思影科技啮齿类动物（大小鼠）神经影像数据处理业务

思影数据处理业务三：ASL数据处理

思影科技脑影像机器学习数据处理业务介绍

结果

神经心理特征维度和损伤重叠。一名被试在MRI采集过程中由于数据不完整而被移除。对于行为数据进行PCA，基于Kaiser–Meyer–Olkin的抽样充分性是0.834，基于Bartlett’s的球性检验是显著的。通过五折交叉检验确定最优的维度数量，发现使用四个维度时更好，在数字上优于五个维度，但没有显著差异（图2）。因此，采用69名被试的数据进行PCA，提取4个维度，可解释77.0%的方差(维度1，31.05%；维度2，16.72%；维度3，16.16%；维度4，13.07%)。PCA模型显示预测与观测数据之间有很高的相关性(r=0.8128)。简而言之，维度1为语音，维度2为语义，维度3为执行能力，维度4为言语流畅度。图3显示了69名被试左半球病变重叠转换成百分比的情况。受损最多的体素位于左上纵束/中央盖(MNI坐标：-38，−10，24)。

图2 交叉验证确定最优维度数量

图3 病变重叠情况颜色越深，代表重合比率越大

多变量模式识别分析。由于模型的数量众多，本文主体部分给出了研究结果的总结和所选模型的细节。在用于预测每个行为因素(语音、语义、执行能力、言语流畅度)的模型中，测试了6个成像指标单独或组合作为输入的情况，包括(%病变、%灰质、%白质、平均弥散率(MD)、分数各向异性(FA)和解剖连接图(ACM))。对于每个模型，确定了四种机器学习算法 (KRR、GPR、RVR和多核回归(MKR))和五个大脑分区方法(无分区、解剖图谱、基于功能连接的图谱、PCA产生的功能集群和PCA产生的病变集群)的性能。首先给出总结的小提琴曲线图，显示不同模型配置的预测和观测之间的交叉验证均方误差(MSE)。不同配置下的模型性能不是正态分布的，因此，使用双尾的非参数检验。对于所有统计比较，提供了效应量(Cohen‘s d)和贝叶斯因子(BF₁₀>3表示两对之间存在差异，BF₁₀<0.3表示无差异)。

图4显示了基于输入的所有模型的结果，输入单个特征、成对特征、来自T1或弥散的三个特征以及所有输入在一起（这里只看输入特征的影响，与大脑分区或算法无关）。结果表明，不同输入之间具有较高的一致性。具体地说，%灰质+FA的模型误差最小（第14个），接下来是%灰质+%白质，利用了T1像中的两个指标。两种模型的比较显示无统计学差异，但是贝叶斯因子没有为无差异提供足够的证据(BF₁₀=0.541)。重要的是，当添加来自任一模态的额外输入时，没有进一步的模型收益（即性能提升）。

图4 使用不同输入特征的模型性能

图5显示了相同数据的小提琴图，但是按机器学习算法或大脑分区进行呈现。算法之间的统计比较表明，每种方法的误差不同。GPR误差低于KRR、MKR和RVR。对于大脑分区的结果显示，使用功能图谱的模型误差最低，但并不比使用解剖图谱或不使用分区方法的模型低很多。这3种分区均显著低于PCA产生的病变集群和体素相关法（VBCM）得出的功能团块。后两种图谱之间无统计学差异，但贝叶斯因子为0.835不足以证明无差异。

图5 使用不同算法和大脑分区的模型性能

表1列出了对于不同输入特征、算法和大脑分区对每个行为维度得分的最佳模型配置。对于维度1(语音)，误差最小的模型由两个输入(ACM和MD)+PCA产生的病变脑区组合+KRR算法。我们将其与误差最小的仅使用T1数据的模型(在任何配置下)进行比较，发现使用%灰质作为输入+PCA产生的功能脑区组合+RVR算法与获胜的模型没有显著差异。维度2(语义)的最佳模型配置为：MKR算法+基于T1的三个参数+功能连接图谱。维度3(执行能力)的最佳模型配置为：MKR算法+%病变和%白质数据相结合+解剖图谱。维度4(言语流畅度)的最佳模型配置为：RVR算法+%灰质和FA数据相结合+不分区。将该模型与仅使用T1数据(在任何配置下)的最低误差模型进行比较，发现使用RVR算法+不分区+%灰质和%白质相结合作为输入与获胜的模型没有显著差异。

综上所述，与包括弥散指标的所有其他模型(单独或与T1组合)相比，T1特征作为输入(在不同的组合中)可以产生足够好的模型。获胜模型的配置表明：当大脑被划分为大量区域时，多核机器学习算法是首选的。这一结果可能反映了这种算法被设计为处理多个分区，使其对局部的细微影响更加敏感，并将这些细微影响合并到最终模型中。相反，KRR和RVR对于少量分区或没有分区时表现较好。

讨论

多模态神经成像和应用数学的进展为建立复杂的认知、语言和心理健康障碍的大脑-行为预测模型提供了机会。这些模型之所以重要，至少有两个原因。首先，预测模型为高级认知功能的神经基础假说提供了正式而严格的检验。不是将认知能力的变化映射回大脑，而是通过评估大脑区域、连通性或其他大脑成像指标在解释行为差异方面的重要性，从而反映变量之间的因果关系。其次，从临床角度来看，确保成功的大脑-行为预测模型可能会在临床实践和研究中带来阶段性的改变。这在脑卒中后认知和语言障碍等疾病中尤其如此，在慢性行为特征出现之前很久，大脑的受损状态已经很清楚了。因此，准确的预测模型可以用来向患者、护理者和健康专业人员提供重要的预后信息，并建立重要的临床研究新路线，包括使用预测来指导临床管理(应该针对哪些行为或神经特征进行治疗)，对治疗途径进行分层(哪些人会从哪些治疗中受益)等等。最近，一些研究小组已经开始评估大脑-行为预测模型对脑卒中后失语症中不同认知语言表现的预测能力。

传统上，失语症的类型和严重程度是参照正式的临床分类系统来描述的。当代的行为学研究和临床实践已经越来越不依赖于这些方案，因为每种失语症类型之间都有相当大的差异，并且它们之间的症状重叠。因此分类是困难的，而且通常是不可靠的，限制了失语症类型在患者分层和治疗路径中的效用，以及它们在脑-行为预测模型中作为稳定目标的使用。最近研究在沿着多个独立维度的分级差异方面，捕捉到了失语症的变化(经典的失语症标签指的是多维空间中的近似区域，像颜色标签指的是连续色调空间中的区域)。为了能够用这个失语症空间的维度作为预测目标，检验这个空间的可靠性和稳定性是很重要的。本文通过执行五折交叉验证确定了最佳维度数量。此外，还证明了当样本量从69减小到最小28时，解是稳定的。

本文评估了五个不同的大脑分区，使用解剖学或功能上一致的基于体素定义的全脑图谱，将特征集分别减少到133或268个分区。结果显示优于使用较少数量的分区(已知的3个语言功能分区或大脑中动脉卒中后的17个病变脑区)。这一结果可能至少有两个原因。首先，后两个分区仅限于左半球，而前两个分区覆盖了整个大脑。这表明病变区域之外的区域可能有助于成功的预测。第二个解释是，较多分区可以观察到更微妙的信息。目前尚不清楚这些特殊的解剖或功能特征本身是否重要，或者优势是否纯粹来自于更高的分辨率或更多的分区数量。未来的工作可以确定，如果在整个大脑中有大量随机划分的特征(不遵守功能或解剖学边界)，是否会观察到类似的结果。

本文比较了在PRoNTo中四种算法的性能，包括KRR、GPR、RVR和MKR。结果表明，当使用大量分区特征时，MKR产生了最好的模型。因为MKR在每个分区中执行支持向量回归模型，然后用稀疏约束组合信息。这种方法很可能捕捉到在高分辨率下存在的微妙效果，当使用较少分区时，这些效果会被稀释或消失。最近的工作记录了MKL方法在皮层脑电图、功能磁共振成像和结构T1中的更广泛的适用性。将分区和算法的结果放在一起，可以考虑模型复杂度是否在结果中发挥了作用(即使用大量分区和最复杂算法的模型通常具有最佳性能)。在具有层次分析步骤和稀疏约束的多变量模型中，模型复杂度的计算和控制非常重要。未来在量化模型复杂度方面的统计和计算进展将有助于更客观地比较模型性能。

多模态神经成像可以通过组合互补的指标来提高预测模型的准确性。少数几项研究在标准T1/T2数据的基础上添加了直接或间接的白质连通性指标，产生了不一致的结果。事实上，即使是有积极结果的研究也只报告了预测准确性的小幅增长。本文结果表明结合标准T1扫描的病变组织、灰质和白质指标就足够了，添加白质完整性或连通性指标(FA、MD或ACM)不会改善预测模型(使用贝叶斯因子得分观察)的均方误差。这一结论似乎与经典和当代的语言功能分离理论相悖，也与认知神经外科将电刺激定向到主要神经束导致不同的失语症的结论不符。与其说结果是矛盾的，不如说结果更有可能反映了脑卒中的本质，在脑卒中疾病中，梗死是涉及灰质和白质损害的组合。因此，损伤区域与其它区域之间存在着紧密的耦合关系，这种高度的共线性使得白质完整性指标在大脑行为预测模型中是多余的(即使这种连接在神经计算上是关键的)。简而言之，虽然断连在某些损伤上是重要的，但在脑卒中中，断连是由局部病变引起的，因此局部信息足以建立预测模型。此外，尽管二次连通性改变可能有助于患者的表现，但同样，这些改变可能是由局部病变触发的，因此它们的差异太大，无法显著改善预测模型。这一结论很可能是疾病特异性的。虽然病变在脑卒中中是原发性的，但在其他疾病中，脑体积的变化是一连串大脑变化的终点。如在神经退行性疾病中，局部异常会导致细胞丢失、轴突变薄，最终导致局部萎缩。因此，在这些疾病中，白质指标的增加改善了大脑-行为模型就不足为奇了。虽然我们不认为本文概述的预测模型可以推广到各种疾病，但潜在的问题是值得探讨的。

不可避免的是，每项研究都有其局限性，其中稳定性和重复性至关重要。本文在行为维度的稳定性分析、预测模型和数据的k折交叉验证方面迈出了重要的一步。未来可以进行样本外数据的验证(如在独立的行为和神经成像数据集上)，这正在成为相关领域的标准做法(例如，阿尔茨海默病神经成像计划)。这在目前的研究中是不可能的，因为不存在可比较的数据集(包括每个患者相同的高分辨率行为数据和多模式神经成像)。虽然包括本文团队以内的多个研究小组已经集中努力实现纳入的被试数量和数据收集范围的逐步改变，但这需要国际社会共同努力，为所有被试创建一个开放获取的数据库。另一个限制是，本研究评估的模型针对三个语言维度和一个一般的执行能力维度。目前还不清楚其他受脑卒中影响的行为(句法、详细的执行能力、行动能力、情绪、焦虑等)是否会得出同样的结果。

此外，未来值得探索更多的学习算法(例如，随机森林和神经网络模型)、大脑分区方式(在分辨率和基数上)以及不同的神经成像指标(如图论指标)。我们认为利用神经影像学方法确定组织的功能特性可能比结构指标更好。只有结构指标并不能告诉我们该组织是否正常工作；因此，表征相似性分析等新的解码方法可以揭示脑卒中后大脑处理过程是如何受到影响的，这可能更普遍地预测慢性缺陷和/或恢复。这些研究将能够确定，哪些措施能够显著地、实质性地提高对病变信息的预测准确性。有一些新颖的方法试图评估特征的重要性，或者作为建模过程的一部分(使用稀疏特征)，或者事后评估(使用虚拟损失方法或权重转换)。未来的研究应该纳入这些方法，以理解大脑-行为关系。尽管很难在不同的研究中直接比较模型性能(因为输入数据和目标不同)，但与T1和弥散数据的现有研究相比，我们目前的结果表现良好。尽管结果令人振奋，但我们承认存在大量无法解释的差异，需要在未来的研究中解决，并产生准确的临床适用的工具。

总结

利用机器学习算法对大脑-行为建模已成为当今的热点，但每项研究使用的输入特征、算法等各不相同，本文探索了三个关键参数对模型性能的影响：(1)不同大脑分区作为预测特征(2)多模态神经成像的组合(3)机器学习算法的类型。本文在预测脑卒中后失语症语言和认知变化的四个主要维度的同时，探讨了这些因素的影响。在所有四个行为维度上一致的发现，与使用从T1扫描提取的结构模型相比，从弥散加权数据得到的预测模型并不能改善预测性能。本文提供了一套指导未来工作的原则，旨在根据脑成像数据预测神经病学患者的预后。但这一结论很可能是疾病特异性的，不同疾病的大脑损伤与行为表现之间的关系不同，不能以偏概全，但是本文针对脑卒中后失语症进行了较为全面的分析，其分析框架和思路非常值得我们学习。