查看原文
其他

Nature Communications:通过深度学习预测大脑年龄揭示了相关的基因变异

赛博尔 功能磁共振 2022-04-17

Brain age prediction using deep learning uncovers associated sequence variants.Nat Commun.2019;  10(1):5409.

 
【摘要

基于结构磁共振影像(sMRI)可以通过训练机器学习算法来预测个体年龄。且个体的预测年龄实际年龄的差值,预测年龄差(PAD)是一种与衰老和脑疾病相关的表现型。该研究中,作者提出了一种新的深度学习方法来预测大脑年龄。该方法在一个健康冰岛人的数据集上进行训练,并在IXI和UK Biobank两个数据集上进行测试,同时使用迁移学习的方法提高预测准确率。通过对UK Biobank数据中的PAD进行全基因组关联分析(GWAS),发现了两个与PAD相关的基因,rs1452628-T与rs2435204-G。其中前者位于KCNK2附近,与减少的沟回宽度相关,而后者与白质表面积减少相关。


【简介】

衰老对大脑结构具有重要影响,这与精神和身体健康状况下降以及神经退行性疾病风险的增加有关。近年来的研究表明,磁共振成像可以用来预测实际生理年龄,并具有较好的准确性。这些预测提供了独立样本中生物脑龄的估计。大量研究发现,PAD与身心健康、认知损伤、疾病呈正相关,与教育程度、身体锻炼、冥想负相关。最近,深度学习(DL)方法引起了人们的极大兴趣。这些方法是在没有先验偏见或假设的情况下学习重要的特征。卷积神经网络(CNNs)是一种深度学习技术,在图像处理和计算机视觉方面尤其强大。在此之前,它们已经被应用于大脑年龄预测。值得注意的是,Cole等人基于结构磁共振训练了一个三维卷积神经网络以预测年龄,并取得了不错的结果。在本研究中基于深度学习,作者提出了一个新的脑龄预测方法,并与之前的方法进行比较。同时也证明了迁移学习可以有效的提高预测准确率。然后探究了PAD与神经心理学测试的相关性。最后在UK Biobank上进行全关联基因组分析,从而确定了五个相关的基因变异,并提供了详细的表型特征。

 

【方法】

数据集:本研究使用的结构磁共振数据来自三个中心:

  • 分别是冰岛人群数据集,包含1264名健康被试,年龄范围为18~75岁,(因为部分被试有多个影像数据,所以总共有1815例磁共振影像数据);

  • 英国生物银行(UK BioBank)数据库,该数据库主要收集英国46~79岁中老年人的数据,该数据库的数据被分为两部分,一部分由12378名英国白人的被试组成,这一部分作为主要的研究数据,另一部分由6888名被试(其中4456人为英国白人血统)组成,这一部分数据作为重复性验证数据集;

  • IXI数据集由454名健康被试组成,年龄范围为20~86岁;

影像处理:本研究使用CAT12工具包对影像数据进行处理。整个预处理流程包含以下几个步骤:

(1)不均匀性校正;

(2)去除颅骨与脑外成分;

(3)使用DARTEL方法将图像配准到标准空间;

(4)组织分割。

(5)最后每个被试得到四种在MNI空间上的图像分别是标准化的结构磁共振图像、雅克比地图集、灰质密度图像、白质密度图像,(所有图像的体素大小都是1.5mm3,分辨率是121×145×121)。


卷积神经网络结构:

    本研究提出的卷积神经网络由5个残差块以及紧随其后的最大池化层和一个全连接块组成(图一),池化层的步长为2×2×2,池化核大小为3×3×3。


图一:卷积神经网络的结构


    最终,该网络的卷积部分将121×145×121的图像下采样为128个4×5×4的特征图谱,然后网络中的卷积块基于这128×4×5×4=10240个特征进行预测年龄。整个神经网络使用基于TensorFlow的Keras框架实现。(图二)所示,残差块由两个重复的组合层构成,组合层由一个步长为1×1×1,核大小为3×3×3的三维卷积层,批重正则化层和一个指数线性单元(ELU)激活函数构成。与第一个组合层不同,通过一个跳跃连接,残差块的输入信号与残差块内最后一层的信号相加再一同输出。

 

图二:全连接块的结构)


(图二)所示,残差块由两个重复的组合层构成,组合层由一个步长为1×1×1,核大小为3×3×3的三维卷积层,批重正则化层和一个指数线性单元(ELU)激活函数构成。与第一个组合层不同,通过一个跳跃连接,残差块的输入信号与残差块内最后一层的信号相加再一同输出。

 

(图三:残差块的结构)


图三所示,全连接块是一个包含一层隐含层的多层感知机。输入层包含10240个神经元,隐含层(FC1)包含256个神经单元,其后是一个ELU激活函数,然后是一个保留比例为0.8的dropout层,最后是一个输出层(FC2)输出最终的年龄预测值。


统计方法:

本研究使用平均绝对误差和决定系数评价模型表现:

  • 使用组内相关评价PAD的可靠性,且基于2000次随机采样计算95%置信区间。

  • 使用皮尔逊相关探究PAD与神经心理学测试的关系。使用全基因组关联分析(GWAS)寻找与PAD相关的基因序列。

  • 此外,还探究了PAD与那些和大脑结构表征相关的基因序列的关系。

  • 所有的分析使用Bonferroni进行多重比较校正,(且将年龄、年龄的平方、性别、年龄×性别、年龄的平方×性别、颅内体积、头动、基因分型数组、成像中心、神经心理学测量、遗传血统分析的前四十个主成分中心)作为协变量。


【结果】

融合多个神经网络提高预测准确率:

冰岛人群数据集被随机分成三部分,64%的影像数据作为训练集,16%的影像数据作为验证集,20%的影像数据作为测试集。基于得到的四种不同的影像数据,训练四个独立的卷积神经网络,然后使用两种方法融合四个神经网络的预测结果,分别是:

1)多数表决方案(MV),即去四个神经网络预测值的平均值作为最终的年龄预测;

2)线性回归混合(LRB),即将四个神经网络的预测结果作为输入再训练一个线性回归模型。比较了四个独立卷积神经网络和两种融合方法的结果,同时也比较了使用Freesurfer计算得到的皮层形态学信息和体素形态学信息作为特征的传统机器学习方法(相关向量回归(RVR),高斯过程回归(GPR))。如表一所示卷积神经网络的预测准确率高于传统的机器学习方法,且使用LRB进行模型融合的效果是优于独立模型的。

(表一:不同方法的年龄预测准确率)


在独立数据集上测试模型:

为了探究模型的泛化能力,评价了基于MV方法融合的模型在IXI和UKBiobank数据集上的效果,之所以使用MV模型而不是LRB模型,是因为二者预测准确率相似,而MV不用再训练一个额外的线性模型。如表二所示,若将在冰岛人群数据集上训练得到的模型直接应用到这两个数据集上,预测效果很差。这可能是由于扫描仪器的型号与参数不同所导致的。因此这里采用了迁移学习的方法,首先将IXI数据分成两部分,440人作为再训练数据集,104人作为验证集。然后固定模型中卷积层的参数,使用这440人数据微调模型中全连接层的参数。将所得到的模型应用到同样的测试数据集上,可以发现预测准确率得到显著提高。出乎意料的是,虽然训练过程中没有使用到UK Biobank的数据,但是在该数据集上的测试效果也得到了了显著的提升。这里得到的迁移学习模型将被应用到后续分析中。

(表二:迁移学习对年龄预测的影响) 


卷积网络的参数初始化对PAD的影像:

我们都知道由于卷积神经网络的损失函数具有高度的非凸性质,因此很有可能不同的参数初始化会收敛到不同的局部最优点。尽管理论上每次都能够准确的预测年龄,但每次得到的PAD是否稳定则无法确定。为了测试这个问题,作者额外做了四次随机初始化参数然后重新训练模型。这四次训练除了参数初始化不同,流程与之前完全一致。这四次得到的PAD与最初的模型得到的PAD的组内相关(ICC)为0.86。这表明在UKBiobank数据上计算得到的PAD较为稳定且对参数初始化相对稳定。


PAD与神经心理学测试的关系:

UKBiobank行为测试主要涉及一下八个维度:(流体智力、数值记忆、视觉记忆、前瞻性记忆、简单加工速度、复杂加工速度、视觉注意和语言流畅性。)如表三所示PAD与更差的数字转换测试(DSST)、轨迹连线测试(TMT)和反应时测试表现相关。而流体智力、数值记忆、配对匹配测试和前瞻性记忆测试与PAD不相关。

(表三:PAD与神经心理学测试的关系)


全基因组关联研究:

如表四所示,在UK Biobank主数据集上,使用GWAS分析发现了两个与PAD相关的基因序列rs2435204和rs1452628。若只考虑与脑结构相关的基因,发现了三个额外的基因序列rs2790099,rs6437421和rs2184968。且在另外的4456的数据集上也发现了这五个基因与PAD相关。同时与这五个基因相关的大脑结构表征易被大脑老化影响。

(表四:与PAD相关的基因序列)


【结论】

本篇文章基于大样本结构磁共振影像,使用深度学习方法预测大脑年龄,通过将预测脑龄与实际年龄相减得到PAD指标。这种方法克服了磁共振研究中一直存在的高维数据和多重测试的问题。通过在UK Biobank数据集上应用该方法,发现了基因与大脑老化的新联系。本研究为对这些位点以及其他GWAS研究阐明衰老大脑的生物学基础提供了一个立足点。

 


 
编辑,审阅:黄伟杰,王瑜
原文链接:
https://doi.org/10.1038/s41467-019-13163-9


培训信息
第五届R语言数据分析与可视化培训班(从入门到提高)
第八届弥散磁共振数据处理专题培训班(更新)
第三十二届脑功能磁共振数据培训班
第五届多模态脑网络计算专题培训班
第二十届脑电信号数据处理培训班

科研服务
  1. 结构磁共振(sMRI)数据处理
  2. 弥散磁共振(dMRI)数据处理
  3. 静息态功能磁共振(rs-fMRI)数据处理
  4. 任务态功能磁共振(task-fMRI)数据处理
  5. 小动物磁共振数据处理
  6. 脑电、脑磁图(EEG/MEG)数据处理
  7. 近红外成像(fNIRS)数据处理
  8. 动脉自旋标记(ASL)数据处理
  9. 正电子断层成像(PET)数据处理


详情联系:13381109780(杨老师)




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存