PLOS Biology：重度抑郁症多成像中心的泛化脑网络标志物

Original 杨晓飞思影科技 2022-04-29

收录于合集

请点击上面“思影科技”四个字，选择关注我们，思影科技专注于脑影像数据处理，涵盖（fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS,眼动）等，希望专业的内容可以给关注者带来帮助，欢迎留言讨论及转发推荐，也欢迎了解思影科技的课程及数据处理服务，可添加微信号siyingyxf或18983979082咨询(电话18580429226，杨晓飞）。(文末点击浏览）

许多研究强调，通过机器学习技术将基础神经科学知识应用到临床存在很大困难。由于不同中心的功能磁共振成像具有很大差异，很难将机器学习得到的脑标记物推广到从独立成像中心获取的数据。本文为突破这一问题带来了重要的解决方案，本研究找到了一种基于静息态功能连接模式将重度抑郁症(major depressive disorder, MDD)患者与健康对照区分开来的通用标记物。数据集包括713名受试者（来自4个成像中心），使用最近开发的调和方法去除了不同成像中心的差异，并开发了机器学习MDD分类器。对于包含521名受试者（来自5个不同成像中心）的独立验证数据集，该分类器实现了大约70%的泛化准确率。这种在完全独立的数据集（且从多个成像中心获得）的成功泛化是新颖的，并且确保了科学再现性和临床适用性。本文发表在PLOS Biology杂志。（可添加微信号siyingyxf或18983979082获取原文）。

思影曾做过多期关于脑影像机器学习相关的文章解读，欢迎浏览以下链接，增进了解：

Nature Medicine：持续的实验性和临床性疼痛的神经影像生物

深度学习在婴儿大脑的磁共振图像分析中的作用（上）

参数选择对脑卒中后失语症预测模型的影响

大脑数据分类时意外过拟合的危险

IEEE Signal Processing Magazine：从手工放射组学特征到深

机器学习在静息态功能磁共振成像中的应用

有监督机器学习在系统神经科学中的作用

使用多模态脑部扫描数据的自动脑肿瘤分割

Radiology：脑部MRI影像组学:转移瘤类型预测的应用

神经放射学诊断中的MRI数据分析

AJNR:深度学习在神经放射学的应用

Neuro-Oncology：对脑胶质瘤IDH突变状态进行分类的一种新型的

Neuro-Oncology：深度学习算法全自动评估脑胶质瘤负荷

Lancet Oncology：利用人工神经网络对神经肿瘤学MRI成像进行

AJP：精神分裂症患者大脑加速老化的纵向识别研究

Nature Protocols：为解释神经成像中的机器学习模型

Biological Psychiatry: 基于多模态脑影像的个体指标预测-方法

BRAIN：基于全球14468名被试MRI数据特征预测脑龄和疾病

Biological Psychiatry：自闭症的神经亚型研究进展

PNAS:灰质年龄预测作为痴呆风险的生物标志物

BRAIN：用于阿尔茨海默病分类的可解释深度学习框架的开发

异质性问题：识别精神疾病亚型的方法

Radiology：人工智能系统脑MRI鉴别诊断精度接近神经放射科

NPP:结构MRI数据的生理性别分类显示跨性别者女性的错误分

利用功能连接对脑疾病进行分类和预测

基于脑影像的精神疾病预测

基于影像学和定量感觉测试预测慢性疼痛的治疗结果

深度学习在医学图像分析中的应用

BRAIN：利用机器学习揭示了两种精神分裂症的神经解剖学亚型

识别最优的数据驱动特征选择方法以提高分类任务的可重复性

Neuron脑影像机器学习：表征、模式信息与大脑特征

Molecular Psychiatry：静息态fMRI预测青少年认知能力

JAMA Psychiatry：脑影像机器学习预测精神疾病患者社会功能

AJP:基于脑网络的可卡因戒断预测

基于机器学习的情绪障碍诊断：功能网络预测药物反应

脑影像特征预测散发性阿尔茨海默病症状发作时间

1.引言

重度抑郁症(Major depressive disorder, MDD)是一种高度异质性的精神疾病，自2000年初以来，将MDD作为单一实体进行治疗的方法一直受到批评。精神疾病的这种异质性激发了研究领域标准(Research Domain Criteria, RDoC)倡议，该倡议旨在根据生物系统重新定义和识别精神疾病的亚型，而不仅依赖症状和体征进行诊断。这一倡议有望帮助我们理解精神疾病异质、重叠的临床表现。特别地，静息态功能磁共振成像(resting-state functional magnetic resonance imaging, rs-fMRI)是一种有用的方法，因为它使我们能够无创地研究不同患者群体的全脑功能连接(functional connectivity, FC)。rs-fMRI可以量化相关的、自发血氧水平依赖(blood-oxygen-level–dependent, BOLD)信号波动的FC。机器学习算法已经成为分析大量FCs(通常一个人的FCs数量在10000到100000之间)的强大工具。根据RDoC倡议的最初想法，精神疾病的分型和重新定义应该仅基于生物学和认知测量(当前环境下的FCs)，而不依赖于传统的基于症状的分类。无监督学习技术是这种数据驱动方法的首选。然而，解释变量FCs的数量是巨大的(10000到100000)，而样本大小，即受试者的数量，通常在100到1000之间。因此，通过机器学习算法对数据中的噪声进行过度拟合以及由此导致的预测性能的膨胀很容易发生。这种情况使得难以对FC数据直接应用无监督学习算法。

为了解决这个问题，并成功地对精神疾病划分亚型，本文提出了以下分层监督/无监督方法，该方法在几项研究中取得了成功。首先，我们使用监督学习算法识别了相对少量的FCs，它们可以可靠地区分健康对照(healthy controls, HCs)和精神疾病患者。我们在这个阶段的目的是找到与精神疾病潜在相关的生物学维度。因此，将“MDD”这样的类别集合作为单个实体可以通过监督学习提供有用的信息，并搜索相关的生物维度。我们不仅可以将识别出的FCs作为精神疾病的脑网络生物标记物，还可以用于探索该疾病相关的生物学维度。其次，我们将无监督学习应用于这些低生物学维度，以重新定义和发现精神疾病的亚型。例如，我们通过在这些维度中定位MDD患者来实现MDD的分型。此外，在这些维度中定位不同的精神疾病(例如，MDD、精神分裂症[schizophrenia, SCZ]和自闭症谱系障碍[autism spectrum disorder, ASD])，可能会揭示这些疾病之间的关系(多维疾病谱系)。因此，尽管我们的方法是从基于分类(如诊断)的监督学习开始，但这类分类仅用作确定精神疾病相关FCs的信息。我们的最终目标是在生物维度上理解精神疾病，同时避免对发现数据集中的噪声进行过拟合，并确保独立模型在完全不同的多个成像中心的泛化性能。

对于上述分层监督/无监督方法来说，第一阶段构建的脑网络标记物是否可以推广到多个完全不同的成像中心获得的数据是一个关键问题。然而，越来越多的研究强调，即使使用监督学习方法，也难以将大脑网络标记物泛化到多个完全独立的成像中心获得的数据。例如，在Drysdale最近的一篇论文中成功提取了MDD的脑网络标记物，在完全独立的成像中心上，16例患者的MDD分类准确率为68.8%，仅占验证队列的3%。

在这里，我们以MDD为研究对象（就其社会影响而言，这是世界上最严重的精神疾病）。为了实现最终目标(重新定义和分型)，一个绝对必要的先决条件是首先将MDD作为一个单独的实体，使用诊断作为监督数据，并创建大脑网络标记，且该标记可以泛化到从多中心采集的完全独立的数据。我们考虑并满足了3个问题和条件，以确保将我们的MDD网络标记推广到独立验证数据集，该验证数据集不包括发现数据集的成像中心。首先，我们使用了团队最近开发的调和方法，这可以减少不同中心FC的差异。根据我们最近的研究，不同成像中心静息态FCs的差异包括：因fMRI参数和MR扫描仪的差异而产生的测量偏差，以及因招募不同受试者而产生的采样偏差。

测量偏差的大小大于包括MDD在内的疾病的影响，采样偏差的大小与疾病的影响相当。因此，减少不同中心的FC差异对于在验证数据集中推广网络模型至关重要。第二，我们使用从多个完全不同的成像中心收集的、完全独立的大型队列来验证我们的网络标记。具体来说，为了构建脑网络标记，我们使用了来自4个成像中心(广岛大学创新中心(COI)、京都大学(KUT)、昭和大学(SWA)和东京大学(UTO))的713名受试者(149名MDD患者)的rs-fMRI发现数据集。自2014年以来，这一发现数据集由日本全国性数据库项目“脑科学战略研究计划”(SRPBS, https://bicr.atr.jp/decnefpro/)收集。在构建了大脑网络标记后，我们对来自4个不同成像站点(广岛Kajikawa医院[HKH]、广岛康复中心[HRC]、广岛大学医院[HUH]和山口大学[UYA])的449名受试者(185名MDD患者)的独立验证数据集的网络标记进行了综合分析。该验证数据集是在构建网络标记后形成的，自2008年以来由独立于SRPBS的其他项目获得。我们使用来自OpenNeuro的rs-fMRI公开数据集 (https://openneuro.org/datasets/ds002748/versions/1.0.0)，有72名受试者(51名MDD患者)，以进一步评估日本以外的国家收集的数据的泛化性能。此外，我们使用另一个数据集，包括75名HCs、154名SCZ患者和121名ASD患者，来研究多种疾病的谱系。在这项研究中，我们总共使用了1584名受试者的数据。此外，与以往限制MDD亚型的研究不同，我们针对的是所有MDD患者，并没有根据抑郁症亚型进行限制，以便在生物学维度上实现亚型分类，这超出了本文的目的。第三，我们小心地避免了发现数据集中对噪声的过拟合。如上所述，在rs-fMRI研究中，解释变量的数量通常大于样本量；因此，除非采取特殊的预防措施，否则通过机器学习算法对发现数据集中噪声的过度拟合以及由此导致的预测性能的膨胀很容易发生。我们使用 LASSO方法的稀疏机器学习算法来避免噪声的过度拟合，并且只选择必要的FCs。因此，据我们所知，我们首次开发了一种适用于MDD的可泛化的脑网络标记物，而不局限于某些亚型，如难治性或抑郁症MDD。

以前的研究表明，基于精神障碍诊断和统计手册(Diagnostic and Statistical Manual of Mental Disorders, DSM)的MDD诊断具有较低的评分者间一致性(kappa = 0.28)。在这项研究中，我们开发了一种脑网络标记，它可以客观地预测结构化访谈的诊断，这些访谈具有较高的评分者间一致性，如DSM结构化临床访谈(SCID) (kappa = 0.64~0.74)或简易国际神经精神访谈(与SCID高度一致：kappa = 0.85)。为了客观地比较和验证基于DSM和大脑FC的诊断稳定性，我们进行了仿真。我们的仿真表明，即使考虑多次扫描、不同fMRI扫描仪和不同成像中心之间的差异，我们的MDD脑网络标记也可能比基于DSM的诊断更客观和稳定地诊断MDD。值得注意的是，虽然以前的研究表明，区分MDD和双相情感障碍的诊断是特别困难的，但对于一个有经验的临床医生来说，在临床实践中区分MDD和健康状况是相对简单的。因此，基于rs-fMRI的脑网络标记的应用是为了了解疾病的潜在病理生理学机制，并指导特定疾病的治疗选择和开发新型干预措施。

2.材料和方法

2.1 伦理声明

所有数据集中的所有受试者都提供了书面的知情同意书。所有招募程序和实验方案均由主要研究者所属各自机构的机构审查委员会批准，根据《赫尔辛基宣言》进行。

2.2 受试者

我们使用了2个rs-fMRI数据集进行分析：

(1)“发现数据集”包含来自713名受试者的数据(来自4个中心的564名HCs，来自3个中心的149名MDD患者；表1)。每个受试者都接受了一次持续10分钟的单次rs-fMRI检查。在rs-fMRI扫描期间，受试者被指示“放松。保持清醒。专注于中心十字标记，不要专注于特定的事情。”该数据集是从2014年开始在SRPBS DecNef项目中获得的。

(2)“独立验证数据集”包含来自449名受试者的数据(264名HC和185名来自4个独立中心的MDD患者；表1)。成像中心不同于发现数据集。每位受试者接受一次持续5或8分钟的单一rs-fMRI检查。该数据集是从2008年的项目中获得的，而不是SRPBS DecNef项目中获得的。从山口大学(Yamaguchi University, UYA)收集的数据集是从2012年开始获得的。我们在最终的独立验证数据集中进一步纳入了从日本以外的国家收集的数据集(OpenNeuro：21名HCs和51名MDD患者；表1)。在这两个数据集中，抑郁症状都是使用BDI-II评分来评估的。

2.3 静息态FC矩阵的预处理和计算

我们使用fmriprep 1.0.8版本对rs-fMRI数据进行预处理。前10秒的数据被丢弃。预处理步骤包括层面时间校正、重新对准、共配准、使用场图的失真校正、T1加权结构图像的分割、归一化到蒙特利尔神经病学研究所(Montreal Neurological Institute, MNI)空间，以及使用6 mm全宽半最大值的各向同性高斯核进行空间平滑。由于缺少场图数据，对独立验证数据集执行了“无场图”失真校正。对于独立验证数据集中6名受试者的数据，共配准不成功，因此不进行进一步分析。

2.4 脑区分割

为了使用人类连接组计划(Human Connectome Project, HCP)基于表面的方法来分析数据，我们使用了ciftify工具箱2.0.2版。这使我们能够使用类似HCP的流程来分析数据，这些数据缺乏HCP流程所需的T2加权图像。接下来，我们使用基于表面的Glasser的379个脑区的分割(皮层360个分割+皮层下19个分割)作为ROIs，这被认为是可靠的大脑分割。从这379个ROIs提取BOLD信号时间序列。为了便于将我们的结果与以前的研究进行比较，我们还使用解剖自动标记法(anatomical automatic labeling, AAL)和Neurosynth确定了重要ROIs的解剖名称和包括ROIs在内的固有脑网络的名称。

2.5 生理噪声回归

使用CompCor提取生理噪声回归量。移除了白质和脑脊液的成分。为了移除几个虚假方差的来源，我们使用了一个具有12个回归参数的线性回归，包括6个运动参数、整个大脑的平均信号和5个解剖CompCor分量。

2.6 时间滤波

使用一阶Butterworth滤波器将时间带通滤波器（0.01 Hz-0.08 Hz）应用于时间序列，从而将分析限制在低频波动，低频是rs-fMRI BOLD活动的特征。

2.7 头动

使用Niype计算每次扫描的头动FD。在随后的信号清洗过程中使用了FD。为了减少头动引起的FC虚假变化，我们移除了FD> 0.5mm的时间点。FD将两个连续时间点之间的头部运动表示为标量(即平移和旋转的绝对位移之和)。使用上述阈值，在所有数据集的每次rs-fMRI扫描中，去除了6.3%±13.5个时间点(平均±标准差)。如果清洗后排除时间点的比率超过平均值+ 3 SD，则受试者被排除在分析之外。结果，从所有数据集中删除了32名受试者。因此，我们在发现数据集中纳入了683名受试者(545名HCs，138名MDD患者)，在独立验证数据集中纳入了440名受试者(259名HC，181名MDD患者)，以供进一步分析。

2.8 FC矩阵的计算

FC计算为每个受试者379个ROIs的rs-fMRI BOLD信号的时间相关性。有许多不同的方法来度量FC，如皮尔逊相关法和偏相关法；本文我们使用了皮尔逊相关系数，因为它们是以前研究中最常用的值。计算每对ROIs预处理后BOLD信号时间序列之间的Pearson相关系数的Fisher’s z变换值，构建379×379的对称连接矩阵，其中每个元素代表2个ROIs之间的连接强度。我们使用连接矩阵下三角矩阵的71631个FC值[(379×378)/2]进行进一步分析。

2.9 不同成像中心差异的控制

接下来，我们使用traveling subject harmonization方法来控制发现数据集中FC的中心差异。这种方法使我们能够减去纯中心差异(测量偏差)，这是从那些在不同中心都测量过的受试者的数据集估计的（这里的意思就是说有多个受试者到多个中心都扫描了相同的序列，以评估测量偏差，这些被试被称为旅行者受试者）。受试者因子(p)、测量偏差(m)、抽样偏差(s_hc、s_mdd)和精神障碍因子(d)通过将回归模型拟合到FC值（来自发现数据集和旅行受试者数据集的所有受试者）来估计的。对于每个连接，回归模型可以写成如下形式：

其中m代表测量偏差(4个中心×1)，s_hc代表HCs的采样偏差(4个中心×1)，s_mdd代表MDD患者的采样偏差(3个中心×1)，d代表疾病障碍因子(2×1)，p代表受试者因子(9个旅行受试者×1)，const代表来自所有中心的所有受试者的平均FC值，e代表噪声。通过减去估计的测量偏差来消除测量偏差。因此，调和后的FC值设置如下：

其中

代表估计的测量偏差。

我们使用ComBat调和方法来控制独立验证数据集中FC的不同中心差异，因为我们没有这些中心的旅行受试者数据集。我们使用MDD诊断、BDI评分、年龄、性别和优势手的信息作为ComBat中的辅助变量，进行调和以校正不同成像中心的差异。值得注意的是，与传统的回归方法相比，ComBat方法是一种更先进的控制中心效应的方法。

2.10 使用发现数据集构建MDD分类器

我们利用基于71631个FC值的发现数据集构建了MDD的脑网络标记，用于区分HCs和MDD患者。为了构建网络标记，我们应用了机器学习技术。虽然SVM经常被用作分类器，但SVM很难计算每个解释变量的贡献，因此不适合研究解释变量的贡献。基于我们以前的研究，我们假设精神障碍因子与全脑连接无关，而是与特定的连接子集有关。因此，我们使用LASSO方法进行逻辑回归分析，以选择FCs的最佳子集。逻辑函数用于定义受试者属于MDD的概率，如下所示：

其中y_sub代表类标签(MDD，y = 1；HC，y = 0)，c_sub表示给定受试者的FC向量，w表示权重向量。权重向量w通过最小化以下值来定义：

其中，

它和λ表示控制应用于估计的收缩量的超参数。为了估计逻辑回归和超参数λ的权重，我们进行了嵌套交叉验证程序(图2)。在这个过程中，我们首先将整个发现数据集划分为用于训练模型的训练集(10折中的9折)和用于测试模型的测试集(10折中的1折)。为了最大限度地减少因MDD和HCs数量不同而产生的偏差，我们采用了下采样方法。从训练集中随机抽取近125名MDD病患者和125名HCs，使用测试集测试分类器的性能。当我们执行下采样和二次采样程序时，我们匹配了每个子样本中MDD组和HC组的平均年龄。由于在下采样后仅使用训练数据的子集，我们重复随机采样过程10次(即二次采样)。然后，我们为每个子样本拟合一个模型，同时在嵌套交叉验证的内部循环中调整正则化参数，得到10个分类器。对于内部循环，我们使用了MATLAB中的“lassoglm”函数，将“NumLambda”设置为25，“CV”设置为10。在这个内部循环中，我们首先计算一个λ值，它足够大，使得唯一的最优解是全零向量。从0到λ_max等间隔地准备总共25个λ值，并且根据一个标准误差规则来确定λ，我们在最小预测误差的标准偏差内选择最大的λ(在所有λ中)。分类器的平均输出值(诊断概率)作为输出。大于0.5的诊断概率值被认为是MDD患者。我们用MATLAB中的“perfcurve”函数计算了AUC。此外，我们还计算了准确性、敏感性、特异性、PPV和NPV。此外，我们使用MCC(Matthews相关系数)评估了不平衡数据集的分类器性能，MCC考虑了混淆矩阵大小的比率。

2.11 分类器的泛化性能

我们使用独立的验证数据集测试了网络标记的泛化能力。我们创建了100个MDD分类器(10折CV×10个子样本)；因此，我们将所有经过训练的分类器应用于独立的验证数据集。接下来，我们对每个受试者的100个输出(诊断概率)进行平均，如果平均诊断概率值大于0.5，则认为该受试者是MDD患者。

为了测试MDD分类器性能的统计显著性，我们进行了置换检验。我们对发现数据集的诊断标签进行了置换，并进行了10折CV和10次二次抽样程序。接下来，我们取100个输出的平均值(诊断概率)；大于0.5的平均诊断概率值被认为是MDD。我们重复这个置换过程100次，并计算AUC和MCC作为每次置换的性能指标。

2.12 识别与诊断相关的重要FCs

我们研究了用于MDD诊断的重要静息态FC。简而言之，我们计算了在10折CV期间，一个FC被LASSO选择的次数。根据置换测试，我们认为如果这个数字明显高于随机几率，那么这个FC是重要的。我们对发现数据集的诊断标签进行了置换，进行了10折CV和10次二次抽样程序，并将该置换程序重复了100次。然后，我们使用稀疏算法，统计在10折CVs×10次子抽样(最多100次)期间选择的每个连接的计数，作为每个置换数据集中的统计量。为了控制多重比较问题，我们将零分布设置为所有功能连接计数的最大分布，并将我们的统计显著性设置为某个阈值(P < 0.05，单侧)。在总共100次中，FC被选择次数≥17次的被认为在诊断上很重要。

如果您对脑影像机器学习等感兴趣，欢迎浏览思影科技课程及服务（可添加微信号siyingyxf或18983979082咨询）：

第十四届脑影像机器学习班（重庆，3.12-17）

第四十一届磁共振脑影像基础班（重庆，5.9-14）

第十二届磁共振脑影像结构班（上海，3.31-4.5）

第十七届DTI数据处理班（上海，4.25-30）

第三十九届脑影像基础班（上海，3.25-30）

第二十届磁共振脑网络数据处理班（上海，5.12-17）

第八届小动物脑影像数据处理班（上海，5.6-11）

第十五届脑影像机器学习班（南京，4.18-23）

第四十届磁共振脑影像基础班（南京，4.24-29）

思影科技功能磁共振(fMRI)数据处理业务

思影科技弥散加权成像（DWI/dMRI）数据处理

思影科技脑结构磁共振成像数据处理业务（T1)

思影科技啮齿类动物（大小鼠）神经影像数据处理业务

思影数据处理业务三：ASL数据处理

思影科技脑影像机器学习数据处理业务介绍

招聘：脑影像数据处理工程师（上海）

BIOSEMI脑电系统介绍

目镜式功能磁共振刺激系统介绍

3. 结果

3.1 数据集

我们使用2个rs-fMRI数据集进行分析。“发现数据集”包含来自713名受试者的数据(来自4个中心的564名HCs，来自3个中心的149名MDD患者；见表1)，“独立验证数据集”包含来自521名受试者的数据(来自5个独立中心的285名HCs和236名MDD患者；见表1)。本研究中使用的大部分数据可以从DecNef项目大脑数据库和OpenNeuro中公开下载。抑郁症状的评估使用BDI-II评分。

表1 两个数据集受试者的人口统计学特征

3.2 不同中心FC差异的控制

采用经典的预处理方法，并用覆盖整个大脑的379个节点(区域)的脑功能图谱定义FC。计算每对节点预处理后的BOLD信号时间序列之间Fisher’s z变换后的皮尔逊相关系数，并用于构建379×379的对称连接矩阵，其中每个元素代表两个节点之间的连接强度或边。我们使用连接矩阵的下三角矩阵的71631个连接值(379×378/2)。为了控制不同中心FC的差异，我们将traveling subject harmonization方法应用于发现数据集。在这种方法中，测量偏差(MRI扫描仪属性差异，如成像参数、场强、MRI制造商和扫描仪模型)是通过将回归模型拟合到FC值（来自发现数据集和旅行受试者数据集的所有受试者）来估计的，其中多个受试者会被分配到多个中心来评估测量偏差。这种方法使我们能够仅减去测量偏差，同时由于成像中心之间受试者差异而留下重要信息。我们应用ComBat调和方法来控制独立验证数据集FC中的中心差异，因为我们没有在发现数据集中使用这些中心的被试数据集。

3.3 与MDD诊断相关的可重复性FCs

使用简单的集中单变量分析，我们首先基于发现和验证数据集的个体FC进行诊断来研究效应大小的再现性。为了确定每个FC的诊断效应，我们计算了HCs和MDD之间FC值的差异(t值)。图1为发现数据集和验证数据集每个FC的诊断效应大小。为了从统计学上评估FCs效应的再现性，我们计算了发现数据集和验证数据集之间的效应量(t值)的Pearson相关。我们将该皮尔逊相关值与随机数据（其中诊断标签在受试者之间进行了置换）中的皮尔逊相关值分布进行了比较(置换检验)。我们发现两个数据集之间存在显著相关性。这一结果表明，即使这两个数据集是从完全不同的中心获得的，这两个数据集的静息态FCs也包含了MDD诊断的一致信息。

图1 单变量分析的结果

3.4 将MDD诊断的脑网络标记推广到完全不同的多中心MDD数据

我们使用基于71631个FC值的发现数据集构建了MDD的脑网络标记，用于区分HCs和MDD患者。基于我们以前的研究，我们假设精神障碍与全脑连接无关，而是与特定的连接子集有关。因此，我们使用逻辑回归和稀疏机器学习算法LASSO来选择FCs的最优子集。通过使用类似的稀疏估计方法自动选择最重要的连接，我们已经成功构建了ASD、抑郁症MDD、SCZ和强迫症的泛化脑网络标记。我们也尝试用支持向量机(support vector machine, SVM)代替LASSO进行分类。然而，与LASSO相比，性能并没有提高。

为了估计逻辑回归的权重和超参数（该参数决定使用多少FCs），我们进行了嵌套交叉验证程序(图2)。我们首先将整个发现数据集分为用于训练模型的训练集(10折中的9折)和用于测试模型的测试集(10折中的1折)。为避免因MDD患者和HCs数量不同而产生偏差，我们使用下采样方法来均衡MDD组和HC组之间的数量。由于在下采样后仅使用训练数据的子集，所以我们重复随机采样过程10次(即子采样)。当我们执行下采样和子采样程序时，我们在每个子采样中匹配MDD组和HC组的平均年龄。然后我们为每个子样本拟合一个模型，同时在嵌套交叉验证的内部循环中调整正则化参数，得到10个分类器。平均分类器输出值(诊断概率)被认为是分类器输出的指示值。诊断概率值大于0.5被认为是MDD。我们计算了曲线下面积（area under the curve, AUC）、准确性、敏感性、特异性、阳性预测值（positive predictive value, PPV）和阴性预测值（negative predictive value, NPV）。此外，我们使用Matthews相关系数(MCC)评估了不平衡数据集的分类器性能，该系数考虑了混淆矩阵大小的比例。

【编者注：Matthews相关系数：是观察到的和预测的二元分类之间的相关系数; 它返回介于-1和+1之间的值。系数+1表示完美预测，0表示不比随机预测好，-1表示预测和观察之间的完全不一致。】

图2 训练MDD分类器和评估预测能力的流程示意图

该分类器在发现数据集中以66%的准确率区分了MDD和HC群体。相应的AUC为0.74。图3A显示了MDD和HC人群的2个诊断概率分布以0.5阈值清楚地分开(右侧，MDD；左侧，HC)。敏感性、特异性、PPV和NPV分别为72%、65%、0.34和0.90。这个分类器使MCC(Matthews相关系数)可接受为0.30。我们发现，对于整个数据集以及来自3个成像中心的单个数据集，达到了可接受的分类精度(图3B)。在SWA数据集中，仅识别出HC个体；然而，值得注意的是，它的概率分布与其他中心的HC人群相当。

图3 两个数据集的MDD分类器性能

我们使用独立的验证数据集测试了分类器的泛化能力。我们创建了100个MDD分类器(10折×10个子样本)；因此，我们将所有经过训练的分类器应用于独立的验证数据集。接下来，我们对每个受试者的100个输出(诊断概率)进行平均，如果平均诊断概率值大于0.5，则认为该受试者是MDD患者。该分类器在独立验证数据集中以66%的准确率区分了MDD和HC。如果验证数据集的准确率比发现数据集的准确率小得多，则极有可能过拟合，并且结果的可重复性令人怀疑。在我们的案例中，验证数据集66%的准确率实际上与发现数据集66%的准确率是相同的，因此可以基本表明没有过拟合的发生。相应的AUC为0.74(置换检验，P < 0.01，单侧)，表明具有可接受的鉴别能力。图3C表明，MDD和HC人群的2个诊断概率分布被0.5阈值清楚地分开(右，MDD；左，HC)。敏感性、特异性、PPV和NPV分别为72%、61%、0.60和0.73。这种方法的MCC(Matthews相关系数)可接受，为0.33(置换检验，P < 0.01，单侧)。此外，5个成像中心的单个数据集也达到了可接受的分类精度(图3D)。

为了研究我们的分类器是否可以推广到较轻的抑郁症，我们将我们的分类器应用于独立验证数据集中BDI评分较低的MDD患者(得分≤20，n = 30)。结果，30名患者中有21名被正确分类为MDD (准确率为70%)，这与将该分类器应用于所有MDD患者时的表现水平相似。此外，我们评估了轻度组和重度组使用抗抑郁药、抗焦虑药、抗精神病药和情绪稳定剂的比例是否有统计学差异。我们发现轻度组使用的抗抑郁药明显少于重度组。由于我们证实了两组之间的分类表现没有显著差异，这些结果表明我们的脑网络标记物不是来自不同剂量抗抑郁药对脑回路的影响。此外，KUT成像中心的所有MDD患者（包括在发现数据集中）都具有难治性(难治性抑郁症：在4至6周内充分使用2种或2种以上抗抑郁药物，均无效，或者存在对2种或2种以上抗抑郁药物的不耐受性)。我们仅计算了KUT数据集的分类准确率，并获得了相同的分类水平(准确率= 71%)。这些结果表明，目前的MDD分类器可以推广到轻度抑郁症，以及难治性MDD患者。

此外，我们研究了分类器输出(抑郁概率)和抑郁症状(BDI评分)之间的相关性。我们发现发现数据集和验证数据集之间存在显著相关性(发现数据集：r = 0.29，P < 1.0×10^-10，验证数据集：r = 0.32，P < 1.0×10^-11)。然而，我们未能在两个数据集中的每个组(HC组和MDD组)中找到一致的显著相关性。

为了排除分类器的性能受年龄驱动的可能性，我们使用平均年龄在MDD组和HC组之间匹配的数据集构建了我们的脑网络标记。我们进一步评估了是否能够根据年龄、性别和运动量(逐帧位移[frame-wise displacement, FD])或头部运动参数(分别为x、y、z、偏航、俯仰和翻滚角)的组合来预测分类器得分(抑郁症的概率)。结果证实不能根据年龄、性别和运动量（FD）或头部运动参数的组合来预测分类器得分。这些结果表明分类器的性能不太可能是由混杂因素驱动的。

就网络标记的有效性而言，虽然在独立验证数据集中可辨别性是可接受的(AUC = 0.74)，但在发现数据集中PPV的性能较低(0.34)。这是因为在发现数据集中，MDD患者的数量远远少于HCs (大约是MDD患者的4倍)。相比之下，在独立验证数据集中，HCs的数量约为MDDs数量的1.5倍，PPV为0.60，是可以接受的。当在临床实践中应用本文的网络标记时，我们假设该标记应用于那些实际就医的人。因此，实际的PPV在临床实践中是可以接受的，因为就医人群中MDD的患病率可能比一般人群中MDD的患病率相对更高。此外，在独立验证数据集中，当我们根据发现数据集中确定的临界值(MDD概率为0.52)将数据集分为低风险组和高风险组时，高风险组的胜率(敏感性/1-敏感性)为1.92。此外，当低风险组的胜率设置为1时，胜率比为4.95。也就是说，分类器的输出(MDD概率)将是精神病医生的有用信息，可以作为一种物理测量来补充患者症状和体征，以便做出诊断。我们检查了网络标记的稳定性，以评估当受试者在不同成像中心进行多次扫描时，同一受试者是否被一致地分类到同一类别。我们标记应用于旅行受试者数据集，其中9名健康受试者(均为男性受试者；年龄范围，24至32岁；平均年龄27±2.6岁)在12个不同的成像中心扫描了大约50次，总共产生了411次扫描。我们在这个数据集中获得了很高的准确率(受试者的平均准确率= 84.5，1SD = 12.8)。这一结果表明，我们开发的网络标记即使对同一受试者在不同成像中心进行多次扫描，也具有较高的稳定性。

为了客观地比较和验证基于脑网络标记的诊断和基于DSM的临床医生诊断的稳定性，我们进行了新的模拟。在这个模拟中，我们准备了一个由1000名受试者组成的替代集，他们有患抑郁症的“真实”概率(0 < p(MDD) < 1)。在现实中，我们使用分类器对数据集中真实患者的输出作为真实概率。我们假设评分者的噪声与抑郁概率相加，抑郁概率= 0.5或更高的受试者被诊断为抑郁。通过假设2名评分者，我们可以计算出这2名评分者之间的诊断一致性(kappa)。基于这一模拟，我们估计了当kappa为0.28时评分者的方差= 0.0149。

接下来，我们评估了不同成像中心分类器输出的方差。我们将分类器应用于旅行受试者数据集。假设每个MRI扫描仪都是评分者，我们评估了分类器输出的评分者间方差。我们估计了每个受试者的全方差(约50次扫描的方差)、成像中心间方差(我们计算了每个成像中心2或3次扫描的平均值，然后取平均值的方差)和成像中心内方差(1个成像中心15次扫描的方差)。结果，所有受试者的全方差为0.0061，中心间方差为0.0037，中心内方差为0.0055。这些值约为上述模拟中临床医生间方差的25%~40%。这些结果表明，即使考虑到fMRI扫描仪和成像中心之间的差异，我们的脑网络标记的诊断也可能比临床医生的诊断更客观和稳定。

为了评估调和的效果，我们比较了发现数据集和独立验证数据集在调和和不调和情况下构建的脑网络标记的预测性能和选择的FCs数量。结果，我们发现，通过调和独立验证数据集，而不是调和发现数据集，预测性能得到了显著改善。对发现数据集的调和没有提高分类性能的一个可能解释是，由于发现数据集是使用统一的成像协议获取的，因此多成像中心的效应在发现数据集中可能足够小。但是，验证数据集中的情况并非如此。详细分析有/没有调和的分类性能如何取决于成像中心、疾病差异的大小和模式，这将成为未来有趣的研究课题。另一方面，旅行受试者调和所选择的FCs的数量最多(25个FCs)，而没有调和和ComBat分别为23个和21个。这表明，通过对旅行受试者的调和，我们可以从数据中提取更多与MDD有关的脑回路信息。

我们调查了独立验证数据集中不同成像中心的辨别性能是否不同。我们使用bootstrap法计算了每个成像中心辨别性能（AUC、准确率、灵敏性、特异性）的95%置信区间(confidence intervals, CIs)。我们重复bootstrap过程1000次，计算每个中心的95% CI。然后我们检查是否有中心的CI与其他成像中心的CIs不重叠。我们无法找到这样的成像中心，表明没有明显的系统差异。我们进一步评估使用不同于Glasser的感兴趣区域（region of interest, ROI）分割方案时的预测性能。我们发现，预测性能与ROI数量或分割方案没有很大差异。

【bootstrap：是一类非参数Monte Carlo方法，其实质是对观测信息进行再抽样，进而对总体的分布特性进行统计推断。该方法充分利用了给定的观测信息，不需要模型其他的假设和增加新的观测，具有稳健性和效率高的特点。】

3.5 MDD诊断的重要FCs

我们检查了MDD诊断的重要静息态FCs。简而言之，我们计算了在10折交叉验证(cross-validation, CV)期间，一个FC被LASSO选择的次数。根据置换检验，如果这个数字明显高于随机性阈值，我们认为这个FC很重要。我们对发现数据集的诊断标签进行了置换，并进行了10折CV和10次抽样，我们将这一置换程序重复了100次。然后，我们使用稀疏算法在10次抽样×10折CV(最多100次)期间每个连接被选择的次数作为每个置换数据集中的统计量。为了控制多重比较问题，我们将零分布设置为所有FCs上计数的最大分布，并将我们的统计显著性设置为某个阈值(置换检验，P < 0.05，单侧)。

图4 诊断MDD的重要FCs

图4A显示了25个FCs的空间分布，这些FCs是通过机器学习算法从MDD和HC可靠分类的数据中自动和无偏差地识别的。我们在下文中总结了这些FCs的特点：

(1)在MDD患者和HCs之间，左右岛叶之间的FC差异最大(图4B中的FC#12)。

(2)在25个FCs中，共有19个显示“连接不足”，只有6个显示“连接过度”。请注意，在MDD人群中，表现出比HC人群更小(即更负)和更大(更正)的平均相关值的FC状态分别被称为连接不足和连接过度。

(3)两个FCs (图4B中的FC#11和FC#23)与前扣带皮层（anterior cingulate cortex, sgACC）有关。

(4) FC#2位于感觉运动皮层(后中央皮层)和左侧背外侧前额叶皮层(left dorsolateral prefrontal cortex, 左侧DLPFC)之间。此外，发现数据集(图5A)中HCs和MDD患者的平均FC与独立验证数据集(图5B)中的相似，表明FC具有可重复性。

图5 诊断MDD的重要FCs的可重复性

3.6 将MDD分类器推广到其他疾病

我们试图研究并确认以往研究揭示的疾病的谱结构。如果MDD分类器预测患者患有不同于MDD的疾病，那么该疾病患者的诊断概率应该超过0.5。在这种情况下，我们可以说患者具有一定程度的MDD，并且根据影像学生物学维度，该疾病与MDD有关。为了评估这种可能性，我们将MDD分类器应用于DecNef项目大脑数据库中的SCZ和ASD患者(https://bicr-resource.atr.jp/ srpbsopen/)。

我们发现SCZ患者具有高MDD性(准确率= 76%，P = 2.0×10^-12，双向二项测试)，而ASD患者不具有高MDD性 (准确率=55%，P = 0.20，双向二项测试)。这一结果表明，MDD分类器适用于SCZ，但不适用于ASD。我们注意到，我们用于构建MDD分类器的发现数据集不包括任何与SCZ共病的MDD患者，仅包括1例与ASD共病的MDD患者。因此，我们的分类器不受SCZ或ASD诊断的影响。因此，MDD分类器的上述推广可能指向疾病之间的某种神经生物学相关性。

4.讨论

在这项研究中，我们成功地将网络标记推广到大型独立验证数据集。这种推广确保了rs-fMRI的科学再现性和临床适用性。如果没有这些基本证据，我们就无法进行基于rs-fMRI的分型、药物效应评估或探索生物学层面的多谱疾病。自RDoC倡议以来，精神病学、神经科学和计算理论领域长期以来寻找可泛化的精神病学生物标志物，但一直没有进展。本文的研究发现了泛化的精神病学生物标志物是具有鼓舞性的。

本文开发了可泛化的脑网络标记物，且不局限于难治性或忧郁性MDD。大多数以前的研究报告了通过CV技术，使用来自相同成像中心的数据构建预测模型的性能。然而，由于rs-fMRI数据不同成像中心差异很大，CV方法通常会导致性能膨胀。为了确保再现性，使用从完全不同的成像中心采集的独立验证数据集来证明模型的普遍性至关重要。为了克服上述中心差异，我们使用新的调和方法减少了多中心、大规模rs-fMRI数据集中的中心差异。接下来，我们构建了一个MDD分类器，可推广到独立验证数据集。对于5个单独的成像中心数据集，也实现了可接受的广义预测性能(图3D)。即使独立验证数据集中的成像协议与发现数据集不同，也能实现这种泛化。只有两项研究证明了基于模糊聚类的MDD分类器对独立验证数据的泛化能力。据我们所知，我们的工作首次构建了MDD的广义分类器，而不局限于特定的MDD亚型：Drysdale集中于治疗耐药的MDD患者，Ichikawa仅包括MDD的忧郁亚型患者。构建广义MDD标记对于后续的MDD亚型分析是很重要的。这是第一次通过从多个成像中心收集大量MDD患者的数据，并客观地将其与旅行受试者数据集进行调和来实现。此外，我们的模拟结果表明，我们的MDD脑网络标记能够比临床医生基于DSM的诊断更客观和稳定地诊断MDD，即使考虑到fMRI扫描仪和成像中心的差异。

虽然开发生物标志物的目的是诊断患者，但重点已经转移到可以识别治疗靶点的生物标志物上，如治疗性生物标志物，这将允许更个性化的治疗方法。本研究发现的25个FCs很有希望作为MDD的治疗性生物标志物，因为它们与MDD的诊断相关。未来的工作应该使用可以调节FC的干预方法，如功能连接神经反馈训练，来研究调节FC是否可以有效治疗MDD。

总结：

多中心静息态功能磁共振成像研究的一个难点是：难以将大脑网络标记物泛化到多个完全独立的成像中心获得的数据。本文基于脑网络和机器学习算法分析多中心影像数据，得到了与重度抑郁症诊断相关的功能连接，并构建重度抑郁症和健康对照组的分类器，实现了大约70%的泛化准确率。该研究使用逻辑回归和稀疏机器学习算法LASSO来选择功能连接的最优子集，使用新的调和方法减少了多中心、大规模数据集中的成像差异，得到的25个功能连接在完全独立的数据集中具备可重复性。对于未来相关的工作具有重要意义。