NBS-Predict:基于脑网络的机器学习预测
前 言
人类的大脑是一个由结构和功能连接区域组成的复杂网络。大脑的结构和功能连接在当代神经科学中引起了相当大的兴趣,为开发各种适合分析这些大脑网络的模型铺平了道路。
图论模型是研究大脑功能和结构网络最著名的模型之一。因其丰富,多尺度以及高维的空间特征,大脑图模型(即连接体)预示着寻找神经生物标志物的巨大机遇,也提出了一些新的挑战。在群体水平推断统计的背景下,假设的大规模单变量检验是识别与诊断状态、药物干预和其他实验操作或环境因素相关的边的常用方法。假设的大量单变量检验包括在图中的每个连接处拟合统计模型,并计算相应的p值。尽管研究人员广泛使用这种方法,但它面临一个重大挑战:多重比较,这会导致大量误报。尽管使用传统方法如FWE(Bonferroni)和错误发现率(FDR)控制假阳性的数量,但这些方法会导致统计效力的显著损失(即假阴性增加)。为了克服这一挑战,基于网络的统计(NBS)的方法被提出。NBS是一种著名的统计推断方法,用于识别根据连通图分量定义的子网络。具体而言,NBS的目标是找到包含与超过预定义阈值的统计效力相关的边的连通图分量(团块)。因此,与传统的校正方法相比,NBS在许多情况下提供了更大的统计效力。近年来,NBS方法的许多扩展已经开发出来,包括无阈值聚类增强和基于度的扩展。
随着大规模开源数据集、计算能力的进步以及对预测性生物标志物的兴趣日益浓厚,神经科学中对机器学习算法的需求正在增加。机器学习模型在识别预测性生物标志物方面具有广阔的前景,因为它们不受可能生成机制的偏见。尽管很有前景,但基于全脑功能连接 (FC) 的机器学习方法容易受到所谓的“维度诅咒”问题的影响。样本与特征(即预测变量)的低比率会增加过度拟合的可能性,因此经过训练的模型在新数据上表现不佳。为了避免过拟合,可以采用降维方法。预测研究通过(i)选择与元分析网络(即已有研究发现的相关网络)相对应的区域到区域 FC 值来降低特征的维数,(ii)仅考虑与特定兴趣效应的推论统计关联的FC 值,或 (iii) 使用包含固有特征选择程序的估计器,例如lasso or elastic net。最重要的是,因为这些方法考虑孤立边或边的组合,而不管它们是否形成网络(即连通分量),这种方法与广泛接受的观念相悖,即认知或情感等高阶大脑功能仅可能通过大脑区域网络实现。因此,孤立的特征或分散特征的组合(即不形成连接网络的孤立边的组合)可能不太适合提供表征大脑功能的生物学上合理的生物标志物。
为了缓解维度灾难、缺乏可解释性和泛化问题,我们开发了一种新的预测方法,称为 NBS-Predict。NBS-Predict 是 NBS 的新扩展,它将重点转移到单个个体的预测上。在 NBS-Predict 中,我们利用 NBS 方法的大部分内容(置换检验除外)作为特征选择方法来检测生物相关的子网络(即连通分量),并将它们与机器学习相结合以执行基于连接组的预测。具体来说,NBS-Predict在交叉验证结构中将图论与机器学习算法(例如,支持向量机、决策树)相结合来识别具有相关预测性能的图分量。此外,NBS-Predict 带有不需要任何编程专业知识的图形用户界面(GUI)。因此,研究人员可以从易于解释的机器学习应用流程中受益,以促进在大脑网络中探索预测性生物标志物。
NBS-Predict与NBS和其他预测方法有几个不同之处。首先,NBS-Predict 的主要目的是预测个体结果变量(例如,诊断标签或心理测试分数),并检测对结果预测性能有贡献的相关边的子网络;即,NBS-Predict 不像 NBS 那样比较两组图。其次,通过在 CV 结构中运行并提供与生成的大脑网络相关的预测分数,NBS- predict在现实应用中开发通用的生物标志物方面比NBS更有优势,特别是在预测基于个体脑网络的单个个体(例如,治疗结果的预测、诊断状态)。其次,与原始 NBS 方法相比,NBS-Predict 输出一个加权网络,其中权重表示特征对模型的贡献程度。这个加权网络提供了关于唯一边对模型的贡献的可解释信息。因此,与一般机器学习算法(例如,lasso, elastic net)相比,NBS-Predict提供了更直接的特征贡献解释,而在一般机器学习算法中,模型系数很难解释,必须进行校正才能对特征贡献做出基本解释。与基于连接组的预测建模(CPM,一种使用连接组数据预测个体行为差异的机器学习方法,仅用于回归问题)相比,NBS-Predict可以处理离散和连续的结果变量。CPM 仅基于特征和输出变量之间的线性关系来选择个体特征,而 NBS-Predict还通过使用在超阈值旧边中识别的连通分量来考虑特征空间中的空间模式。此外,NBS-Predict为数据分析提供了完整的流程,包括预处理(例如,去混叠、缩放)、特征选择、超参数优化、使用一组不同的机器学习算法进行评估和可视化。它不需要任何执行机器学习算法的经验,使其成为一种快速、可靠且易于使用的工具。
方 法
NBS-Predict工作流程示意图如图 1 所示。从每个连接矩阵中提取出唯一的边并存储在矩阵中,其中每一行代表一个不同的被试,每一列包含特定边的连通性值(例如,皮尔逊相关系数)。在外循环中,该矩阵根据交叉验证方案(K折或留一法)在被试维度上拆分,并且可选地将训练集转移到内循环进行超参数优化。超阈值边选择:NBS-Predict 在外循环的训练集中使用超阈值边选择(如果执行超参数优化,也可以内循环中执行)来识别超阈值边集中的连通分量。超阈值边选择与原始 NBS 方法相同。具体来说,超阈值边选择包括以下步骤:(i)每条边拟合一个基于给定对比度的一般线性模型(t-test 或 F-test),并计算相应的 p 值;(ii) 然后初始选择 p 值低于预定义 p-value(例如,0.01)的边;(iv) 然后使用呼吸优先搜索算法识别可能存在于超阈值边集中的连通分量;(v)选择存在于最大连通分量中的超阈值边以进一步用于训练机器学习模型。与原始 NBS 方法(使用置换检验来推导已识别图分量的重要性)相比,NBS-Predict 中没有应用置换测试,因为(最大的)连通分量仅用于特征选择,而不管其相关的家族错误。请注意,p 值选择决定了输入到机器学习模型的所选连通分量的大小,从而影响预测性能。
模型评估:在机器学习算法训练和测试期间,最大连通分量中存在的超阈值边的连接值用作的特征(即预测器)。NBS-Predict中可用的机器学习模型在附录1中给出。在外循环的每次迭代中,训练模型,并在测试集上评估训练模型的预测性能。存在于测试的连通分量中的超阈值边然后被分配有这种预测性能。将预测性能分配给这些边,考虑了预测性能可能在交叉验证折之间变化的可能性,从而能正确评估边对整个模型的贡献。因此,每条边的赋值代表了所选连通分量中存在的边以及在相应折中训练的模型的预测性能(即未选择的边设置为0)。几个性能指标可用于衡量模型的预测性能(见附录 2)。上面提到的所有步骤都重复r×K次,其中r是CV结构的重复次数,K是折数。
超参数优化:可选地,可以在内循环中优化各种机器学习算法的超参数。在内部循环的每个折中,执行超阈值边选择,并使用交叉验证评估相应超参数的几个候选值的性能。然后将最大限度地提高预测性能的一组参数用于外循环。附录1给出了 NBS-Predict 中可能的超参数。
加权矩阵:作为最后一步,所有外部折的连通分量的加权邻接矩阵(未选择的边被指定为 0)平均和缩放,产生一个平均加权网络,其中权重代表边对整体模型的贡献。例如,在外折的大多数分量中都发现了具有高权重的边,这表明该边是预测目标变量的重要生物标志物。随后,研究人员可以对生成的网络应用阈值,以将最重要的特征可视化为子网络。这为用户提供了对网络边对预测性能的贡献的直接解释。这是 NBS-Predict 优于其他预测方法的一个优势,因为(i)从机器学习算法得出的权重向量(即系数)不稳定且不易解释,以及(ii)其他机器学习算法忽略数据的拓扑结构。注意,人们还可以将边权重解释为所选边的显著性强度,因为这些是通过结合经典的一般线性模型和连通分量来选择的(即,较高的边值表示在大多数交叉验证折中,边被认为是显著的)。
模型性能:总体而言,样本外预测性能是通过对外部循环的选定连通分量的预测分数进行平均来获得的。这个性能代表了整个模型的预测性能。值得注意的是,子网络在加权阈值化后的预测性能可能与整体性能不同,因为阈值化几乎肯定会导致与原始特征集不同的特征集(即子网)(即,在每个CV折中特征选择的连通分量)。尽管如此,NBS-Predict 允许计算事后子网的预测性能。但是,应该注意的是,用户不应仅根据生成的子网络的预测性能来选择权重阈值,因为这可能会导致过拟合。
预测算法选择:由于事先不知道性能最好的预测算法,如果需要,CV结构在额外的非CV循环中运行,在那里确定性能最佳的预测算法。具体来说,NBS-Predict使用适合问题性质(分类与回归)的各种机器学习算法执行整个训练和测试过程,并返回由性能最佳的机器学习算法得出的结果。尽管如此,用户还是可以查看其他候选算法的结果。NBS-Predict中使用的所有回归(线性回归、支持向量回归和决策树回归)和分类(逻辑回归、支持向量分类、决策树分类和线性判别分析)算法均来自通过 MATLAB 开发的Statistics and Machine Learning Toolbox。
图 2 显示了 NBS-Predict 的图形用户界面(GUI)。虽然类似于 NBS GUI,但它具有额外的机器学习操作。用户必须提供相关矩阵、脑区、设计矩阵和对比向量来分析连接组数据。用户可以另外选择特定的分类或回归算法。该界面允许用户运行超参数优化,选择超参数优化的搜索方法(例如,网格搜索、随机搜索和贝叶斯优化),定义 CV结构的折数和重复次数,并定义一个特定的p-value用于特征选择。NBS-Predict提供了更广泛的性能评估指标和缩放方法。如果需要,也可以进行并行处理。在数据分析之后,用户可以将结果可视化为加权网络或超阈值子网络、热图、环形网络或由 BrainNet Viewer 生成的 3D 大脑表面。由于工具箱定期更新和扩展新功能和更直观的 GUI 元素,工具箱中共享了最新和详细的用户指南,可在 https://github.com/eminSerin/NBS-Predict
和 https://www.nitrc.org/projects/nbspredict/上找到。
人类连接组计划的 1200 名受试者版本包含 1206 个受试者(Glasser 等人,2016 年)。309 名受试者由于缺失神经影像数据或智力测量值缺失被排除在外,留下 897名样本(μ age = 28.76,σ age = 3.69,406 名男性)。样本的人口统计特征如表 1 所示。
由于这项研究的目的是调查一般智力的神经相关因素,我们使用了来自每个受试者的一般智力分数。具体来说,一般智力区分为流体智力和晶体智力的加权总和。为了计算每个人的一般智力得分,我们引入了NIH工具箱(NIHTB-CB)认知成套测验的两个综合分数:(i)结晶认知(源自口语阅读和图片词汇量表的总分)和(ii)流体认知(计算为图片序列记忆、维度购物车排序、列表排序、处理速度和侧翼量表的总分)。综合每个个体的综合得分得出一般智力得分。
本研究使用了人类连接组计划发布的1200名受试者的静息状态功能磁共振成像数据。梯度回波平面图像是在位于圣路易斯华盛顿大学的 3T Siemens connectome-Skyra 扫描仪上获取的。成像参数如下:TR/TE:720 ms / 33.1 ms,翻转角:52˚,FOV:208 × 180 mm,切片数:72,切片厚度:2 mm。受试者被指示在四次 rs-fMRI 数据采集期间注视十字准线,每次持续约 15 分钟。
用HCP最小预处理管道和netmats管道预处理rs-fMRI 数据。对MNI-152模板进行了 B0-unwarping和归一化。使用 FMRIB 的基于ICA的Xnoiseifier (FIX)去除了结果数据中的伪影。为了生成功能网络,Power等人使用图谱描绘了节点(264个区域)。使用Pearson相关系数评估每对节点之间的功能连接,为每个受试者生成一个264 × 264的相关矩阵。该预处理程序由Kruschwitz等人提出。
我们使用10次重复的5折嵌套 CV(p值=0.01)运行NBS-Predict,并使用网格搜索算法进行超参数优化。我们使用 Snoek 等人中所示的技术缩放数据,并回归年龄和性别因素,以控制任何潜在的混淆。此外,我们比较了NBS-Predict在基于受试者连接组预测一般智力分数方面的性能与其他算法(CPM、top 5% 的特征、elastic net、lasso和p-value)。我们通过重复 CV 程序 500 次来生成算法性能的置信区间。
结 果
图 3 中呈现的 ROC 曲线显示了 NBS-Predict 和其他算法在识别分类生成的与对比相关的第一组仿真数据的边的性能。NBS-Predict 和其他算法产生了良好的统计效力。这种效力的增强来源于CNR;这些算法在 CNR = 1.00 条件下得出了最高的真阳性率和较低的假阴性率。除了图 3,附录 11 显示了特征选择算法在假阳性率为0.01时的真阳性率。NBS-Predict 在 0.25 CNR 条件下测试的所有其他特征选择算法都优于其他所有特征选择算法,这表明 NBS-Predict 比其他算法在低对比度数据中具有优势。对于 0.5 CNR,除了Elastic Net之外,NBS-Predict 的表现优于其他特征选择算法。Lasso 和elastic net在 0.75 CNR 和 1.0 CNR 条件下的性能优于其他算法。
NBS-Predict 和其他算法的分类精度如图 4 所示。在 0.25 CNR 条件下,NBS-Predict 优于elastic net和 p-value,同时与lasso和top 5% 算法产生相似的分类精度。然而,在其他 CNR 条件下,elastic net的性能明显优于其他算法。
图 5 显示了 NBS-Predict 和其他几种特征选择方法在识别回归问题中的相关边方面的预测能力。如图 5 和附录 12 所示,NBS-Predict 在所有噪声条件下以 0.01 的假阳性率水平提供最高的真阳性率。值得注意的是,NBS-Predict 相对于其他算法的优势随着噪声的增加而增加,随着误报率的增加而减少。
图6显示了算法在四种噪声条件下,预测连续目标变量(结果)的性能。结果表明,除了5.0噪声条件外,elastic net在大多数噪声条件下都是最佳算法。p-value算法延续了elastic net在0.1和1.0噪声条件下的优越性能。它还在 3.0 噪声条件下使用一组正边获得了与 NBS-Predict 和 CPM 相似的预测性能,这两种算法的预测性能均优于上述算法。除了在 0.1 噪声条件下表现更好之外,NBS-Predict还在正边大多数噪声条件下都实现了与 CPM 相似的性能。然而,CPM分别在使用负边集、top 5% 和lasso的所有噪声条件下实现了最低的预测性能。
图 3 和图 5 还表明,实现足够 TPR 所需的权重阈值可能因 CNR 和噪声而异,但低权重阈值(即约 0.2-0.3)可提供具有高 TPR 和低 FPR 的子网络。此外,总的来说,NBS-Predict 在两个仿真数据集上产生的 FPR 低于其他算法。
算法的平均CPU运行时间如图7所示。除了Elastic Net之外,算法在完成分析分类和回归任务中都花费了相对相似的 CPU 时间来。然而,elastic net算法在分类任务中的运行速度明显更快,而在回归任务中是最慢的算法。
图 3. 受试者操作特征 (ROC) 曲线用于评估 NBS-Predict 和其他特征选择算法(elastic net、lasso、top 5%和 p-value)在识别具有不同对比度噪声比 (CNR) :(a) 0.25、(b) 0.50、(c) 0.75 和 (d) 1.00 的边时的特异性和敏感性。NBS-Predict(10 次重复 10 折 CV)应用于 100 × 100 合成无标度网络,其中 50 条边分配了相应的对比度噪声比。其他算法也采用了类似的 CV 结构(10 次重复 10 折 CV)和模拟流程。每个点表示使用特定权重阈值的相应算法的 TPR 和 FPR。权重阈值以相反的顺序绘制。注意,图中的最大FPR设置为 0.1。在0.75和1.00 CNR条件下,FPR是以10为底的对数比例尺给出的。
图 4. NBS-Predict 和其他算法(elastic net、lasso、top 5%和 p-value)在四种对比度噪声比 (CNR) 条件下的分类精度:(a) 0.25、(b) 0.50、(c) 0.75 和 (d) 1.00。每个图中描绘的误差条代表 95% 的置信区间 (p < 0.05)。
图 5. 受试者操作特征(ROC) 曲线用于评估 NBS-Predict 和其他算法(elastic net、lasso、top 5% 的特征、p-value特征选择算法和 CPM)在四种不同的噪声条件下(a) 0.1、(b) 1.0、(c) 3.0 和 (d) 5.0用真值识别边的特异性和敏感性。在每个噪声条件下,相应的噪声被添加到由100 × 100 无标度网络生成的50个相关边的目标(即结果,y)变量中。然后将具有各种特征选择算法和 CPM(均使用 10 次重复 10 折 CV)的 NBS-Predict 应用于这些合成的无标度网络。类似的 CV 结构(10 次重复 10 折 CV)和模拟流程用于其他算法。在 CPM 中,阴性和阳性网络被结合起来评估整体特异性和敏感性。每个点使用特定的权重阈值表示相应算法的 TPR 和 FPR。权重阈值以相反的顺序绘制。请注意,图中的最大 FPR 设置为 0.1。
图 6. 在四种噪声条件下 (a) 0.1, (b) 1.0, (c) 3.0, (d) 5.0,NBS-Predict 和其他算法(elastic net、lasso、top 5% 特征、p-value和 CPM)在预测连续目标变量方面的性能(即 Pearson 相关系数)。每个图中描绘的误差条代表 95% 的置信区间 (p < 0.05)。
NBS-Predict的分类准确度为0.900(95% CI:0.888–.913),敏感性为91.5%,特异性为87.2%。决策树分类器被发现是性能最好的算法(表 2)。加权网络及其邻接矩阵如图8所示。
应用最保守的特征权重阈值(即 1.0)来可视化包含相关边的子网络,在11个大脑区域中识别出13个连接降低子网络。左侧运动辅助区和左侧Heschl回是最大程度的不连接区(节点度数=5,表3)。然而,通过更宽松的阈值0.9,NBS-Predict 在精神分裂症患者组中发现了一个连接失调的子网络,这与原始 NBS 论文中确定的子网络高度相似(Dice = 0.96,Jaccard = 0.93),尽管略有不同(图 9,详见讨论)。与精神分裂症相关的子网络包含 28 个节点和 41 个边,这意味着在精神分裂症组中,总共 74 个大脑皮层区域中有 28 个区域的连接减少。连接失调的大脑区域的节点度如表 4 所示。连接失调不仅出现在大脑的前部,如额叶、额颞叶和运动区域,而且还出现在皮层下区域,如左侧海马体、左侧扣带回和中间回、左侧杏仁核,以及后部区域,如左侧枕上回和右侧舌回(图9)。分析显示两个半球的大脑区域之间存在连接失调。左半球的连接失调更明显,表明精神分裂症连接失调的半球相对不对称。在所识别的子网中发现左侧 Heschl 回具有最高的节点度数14,如表 4 所示。图 10 显示了 NBS-Predict 和其他算法的分类精度。采用超参数优化的 NBS-Predict 实现了最高的分类准确率。没有超参数优化的 p-value和 NBS-Predict 产生了类似的分类性能。然而,lasso和top 5%的特征并没有超过上面的组分类。
图 7. 在两组仿真网络上应用 NBS-Predict 和其他算法(CPM、elastic net、lasso、top 5% 的特征和 p-value)得出的平均 CPU 运行时间结果。每个图中描绘的误差条代表 95% 的置信区间 (p < 0.05)。请注意,图中的 y 轴比例不同。
图 8. 加权邻接矩阵和环状网络显示精神分裂症组中的连接减少(未应用阈值,即所有边的权重都非零)。两个图中的边和环状网络图中的节点根据它们的权重和标准化节点度进行着色。每个连接(即块)的缩放权重值表示所选连通分量中存在的边以及在每次交叉验证迭代中模型的预测性能。
图 9. BrainNet Viewer 生成的 3D 大脑表面上精神分裂症组中功能失调子网(权重阈值 = 0.90)的可视化(Xia 等人,2013 年)。节点和边分别根据节点的度和权重用大小和颜色表示。连接失调主要位于额颞区、视觉区和运动区以及皮层下。左半球连接失调的程度更大,表明连接失调的半球不对称。
根据预测和实际智力分数之间的 Pearson 相关系数 r = 0.200(95%置信区间 CI:0.189–0.214),NBS-Predict用静息状态功能连接矩阵预测一般智力。发现线性回归产生最高的预测性能(表 2)。加权循环网络和邻接矩阵如图 11 所示。连接失调程度最大的子网络(即权重最高为 1 的边)包含10个功能性脑网络的36个区域(65个边,表5)。
此外,NBS-Predict使用更宽松的阈值0.90,从几个功能性大脑网络(68 个区域和178个边,图12)中识别出一个包含大量大脑区域的子网络。
由大脑区域及其总度的功能网络如表6所示。
图10. NBS-Predict 和其他算法(elastic net、lasso、top 5% 的特征、p-value)对从精神分裂症患者和健康对照收集的静息状态 fMRI 数据实现的平均分类准确度。在NBS-Predict 和 p-value处理中,使用 0.01 的 p-value来选择相关边。使用网格搜索方法优化 NBS-Predict 超参数选择算法中 L2 正则化的超参数。所有算法均采用 1000 次重复的 10折CV 结构来比较算法的预测精度。每个图中描绘的误差条代表 95% 的置信区间 (p < 0.05)。
图 11. 加权邻接矩阵和环形网络显示了与一般智力相关的连接(没有应用阈值,即所有边的权重都非零)。两个图中的边和环形网络图中的节点根据它们的权重和标准化节点度进行着色。每个连接(即块)的权重值表示所选连通分量中存在的边以及在每次交叉验证迭代中模型的预测性能。
图 12. BrainNet Viewer 生成的三维大脑表面上与一般智力相关的子网络(权重阈值 = 0.90)的可视化。节点和边分别根据节点的度和权重用大小和颜色表示。发现与默认模式、扣带-鳃盖任务控制、显着性、体感、腹侧注意、听觉、额顶叶任务控制、皮层下和背侧注意网络相关的 68 个区域之间的 178 个连接与受试者的一般智力分数有关(r = 0.200)。
NBS-Predict和其他算法(CPM、elastic net、lasso、top 5% 的特征、p-value)的预测性能如图 13 所示。在没有执行任何超参数优化的算法中,elastic net产生了最好的预测性能,其次是lasso。没有超参数优化的 NBS-Predict 产生了与 p-value相似的预测性能,其次是 CPM 和top 5% 特征选择方法。此外,在 CPM 中,负边集的预测性能明显高于正边集。最重要的是,采用超参数优化的NBS-Predict 的性能与没有超参数优化的elastic net类似。
讨 论
我们介绍了NBS-Predict,这是一种结合了传统 NBS 和机器学习的强大功能的新方法。为了证明 NBS-Predict 的性能和实用性,我们在三个场景中评估了 NBS-Predict:(i)使用两组具有不同水平真值的仿真数据进行基准测试,(ii)使用从精神分裂症患者和健康对照组获得的静息状态 fMRI 数据对精神分裂症进行分类,(iii) 使用来自人类连接组计划发布的 1200 名受试者的大样本量的静息态 fMRI 数据预测一般智力分数。在每种情况下,我们比较了 NBS-Predict 的性能与其他特征选择算法(lasso、top 5%、elastic net、p-value)。在第一种和第三种情况下,还比较了NBS-Predict和CPM的性能。
NBS-Predict 是一种简单、快速和结构化的方法,它使用连通分量和机器学习算法来识别与感兴趣效应(例如,认知功能)相关的网络模式。它对每个连接的分量执行样本外评估,从而提供相关的样本外预测评分。因此,它允许评估模型的通用性,这对于开发基于神经影像的生物标志物至关重要。NBS-Predict用户友好的 GUI 不需要任何编程专业知识,使研究人员能够轻松执行复杂的分析和可视化结果。应该讨论 NBS-Predict 相对于现有方法的优势。第一种与 NBS-Predict直接比较的方法是NBS。关键是,虽然 NBS 专注于群体统计推断,但 NBS-Predict 旨在通过使用机器学习方法对已识别的超阈值分量进行样本外评估,这些分量与个人层面的预测相关。这不仅可以让我们更深入地了解模型的通用性,还可以更深入地了解模型在描述观察到的数据方面的性能。NBS-Predict 比 NBS 提供了更多关于单个边对模型贡献的信息(即,它提供一个加权网络作为输出;有关详细信息,请参阅方法部分)。方便研究人员在子网可视化过程中确定权重阈值。另一种类似的方法是基于连接组的预测建模。与 NBS-Predict 相比,CPM 需要编程经验,并且只能应用于结果变量连续的问题。与 CPM 相比,NBS-Predict 能预测连续和离散目标,因为它在超阈值边选择中使用通用一般线性模型,结合回归和分类机器学习算法,可以直接应用于两种数据类型。此外,它仅根据与结果变量(即行为数据)的线性关联来选择与预测模型相关的单个边。相比之下,我们设计了 NBS-Predict 来识别与结果变量相关的整个子网络,因为有人提出认知功能源于大脑中大规模网络的激活。此外,与一般机器学习方法不同,NBS-Predict 通过将基于过滤特征选择方法(例如,t 检验、F 检验)与连通分量的图论相结合,获得相对更快的计算速度并且需要较少的特征选择知识。最重要的是,通过 NBS-Predict 获得的网络具有直接的解释。边权重清楚地表明相应边对整个模型的贡献和鲁棒性,这可能表明生物标志物对基于神经影像的预测的重要性。使用一般机器学习算法,权重通常不直观,或者无法获得系数。
在使用 NBS-Predict 的第二个应用中,我们使用来自健康对照和精神分裂症患者的 rs-fMRI 数据研究了精神分裂症的生物标志物。NBS-Predict 在精神分裂症患者组中发现了一个连接失调的子网络,该子网络包括位于额叶、顶叶、枕叶和颞区以及皮层下的大脑区域。我们的发现几乎重复。唯一的不同之处在于,我们的研究中发现了一个由28个大脑区域之间41个连接减少的连接失调子网络组成,而Zalesky等人(2010)总共确定了 29 个大脑区域之间40个连接减少的子网络。Zalesky等人发现了右侧颞上回(,但在我们的研究中未发现。然而,他们还发现该区域的节点度为1(即,仅识别出一个减少的连接)。因此,我们可以假设该区域的连接失调程度小得无法区分。在应用最保守的权重阈值 1 后,左侧 Heschl 回和左侧辅助运动区 (SMA) 表现出最大程度的连接失调。这些发现与先前的发现相呼应,即 Heschl 回和 SMA是精神分裂症中与幻听和的运动症状相关的主要区域。在分类性能方面,NBS-Predict 的性能优于除 p-value之外的所有其他算法,后者产生了相同的准确性。
在应用三中,我们使用来自人类连接组计划 1200 名受试者发布的 rs-fMRI 数据研究了一般智力的神经相关性。由与多个功能网络相关的大脑区域组成的子网络与受试者的一般智力分数呈正相关。相关性的幅度比之前的研究(Dubois et al., 2018, 2017 )中显示的要小,这可能是因为之前的研究预测了受试者的流体智力而不是一般智力得分。另一个原因可能是在之前的研究中(Shen 等,2013)用 268 节点的全脑图谱分割大脑图像,而我们使用的是 264 节点的基于功能的图谱(Power 等,2011)。正如之前 Dadi 等人所讨论的那样。大脑分割方法的选择可能会影响分类性能。至关重要的是,我们执行了一种交叉验证的去混淆技术,这可能会更好地控制可能的混淆,从而可能导致较低的预测性能。关于与一般智力相关的大脑区域,我们的发现与Hearne 等人的文献一致,表明智力的神经基础以大脑中多个大脑区域之间的连接为特征。在预测性能方面,虽然超参数优化的 NBS-Predict 表现与elastic net相似,但elastic net在没有超参数优化的算法中表现最好。这意味着,在这个特定的数据集上,elastic net中使用的两种正则化方法(L1 和 L2)的混合比 CPM、NBS-Predict、前 5 名% 的特征、p-value以及lasso中使用的 L1 正则化中使用的基于过滤器的特征选择方法更好。然而,如附录 13-14 所示,尽管我们对激活模式进行了缩放(即,我们校正了从elastic net中得出的边权重)以具有跨算法的共同尺度,但原始激活模式很浅,这可能是次优的。已经讨论过激活模式的可靠性取决于机器学习模型的性能。也就是说,当机器学习模型的性能较低时(如在应用 3 中),必须谨慎解释激活模式,因为次优权重导致次优激活模式(参见 Haufe 等人,2014 年供进一步讨论)。因此,尽管elastic net在这个特定数据集上的表现优于 NBS-Predict,但对相应加权网络的解释可能并不完全直接。
另一个局限是 NBS-Predict 与 NBS 一样,可以识别最大连通分量中存在的边。然而,这可能会忽略较小连通分量中的边或不任意形成任何连通分量的边的可能影响,从而导致较低的预测性能。然而,包含更小的连通分量会导致更复杂的模型,从而导致过度拟合。NBS-Predict方法的另一个限制是,边权重的分布直接受交叉验证结构中使用的折次数和重复次数的影响(详见“加权矩阵”部分)。CV 折次数越多,边权重分布越细,而结果越少,分布越粗。例如,如果使用 10 次重复的 5 折 CV 结构,则50个不同的权重值分布边权重。边权重分布与折次数的这种依赖性在分析高维数据时更为重要。例如,少CV 折或重复(例如,5 次重复 5 折CV)使用少量不同权重生成权重分布。因此,大量的边可以用相同的权重值表示,这可能会阻碍研究人员清楚地解释边对整体预测性能的贡献。NBS-Predict 方法的这一缺陷的一种可能解决方案是使用大量重复。
结 论
我们介绍了NBS预测,这是基于网络统计的预测扩展。它将机器学习算法与交叉验证结构中的连通分量相结合,以实现一种快速方法来识别具有高泛化性的基于神经影像的生物标志物。NBS-Predict 还带有一个用户友好的GUI,不需要任何编程经验。它对两组仿真数据的预测性能显示出良好的统计效力。在大多数情况下,与其他算法相比,NBS-Predict以适当的误报率提供了相似或更大的效力。在预测性能方面,NBS-Predict 的性能与其他算法相当或更好。我们展示了NBS-Predict在两组连接组数据上的实际效用:(i)从 15 名健康对照者和12名精神分裂症患者获取的静息态fMRI数据,以识别精神分裂症患者大脑连接减少的情况;(ii) 来自人类连接组计划发布的1200名受试者的rs-fMRI数据,用于识别与一般智力评分相关的大脑网络。NBS-Predict在精神分裂症患者组中确定了一个子网络,该子网络由28个大脑区域组成,这些区域在大范围的皮质区域以及皮质下层中的连接减少,这些皮质区域也得到了精神分裂症白质连接体研究结果的证实。对智力神经相关性的分析表明,一般智力评分与由与多个功能网络(主要是听觉、扣带-鳃盖任务控制、默认模式、显着性和躯体运动感觉)相关联的大脑区域组成的子网络之间存在正相关。NBS-Predict 可以在 https://github.com/eminSerin/NBS-Predict
和 https://www.nitrc.org/projects/nbspredict/ 找到。工具箱中还提供了详细的用户手册和演练,说明了在第一个和第三个应用流程中执行的分析。
原文:NBS-Predict: A prediction-based extension of the network-based statistic.
https://doi.org/10.1016/j.neuroimage.2021.118625
更多精彩课程推荐
第四届脑电数据分析启航班(线上:2021.12.19~2022.1.9)
第二届茗创科技脑电数据分析入门班(线上:2021.12.4~12.16)
非常欢迎大家留言、转载、收藏或分享~ 本文来自微信公众号“茗创科技”。如需转载,请在“茗创科技”后台回复“转载”,并附上所需转载的文章标题以及您的ID。
需要原文资料的小伙伴,可以添加茗创科技周翊工程师的微信号MCKJ-zhouyi或致电17373158786。另外,茗创科技创建了文献互助群,为大家提供免费帮忙下载文献服务、技术咨询、前沿研究和电子书等海量学术资源分享。请联系周翊工程师,邀请您入群。