文章导读 | 生成对抗网络(GAN)应用于AD辅助诊断及精神影像数据处理
亮点:
本文系统回顾了一种深度学习方法--生成对抗网络(Generative adversarial network, GAN)在阿尔兹海默病(Alzheimer’s disease, AD)辅助诊断及精神影像数据处理(图像降噪、图像分割、数据扩增与模态转换)中的应用;
本文发现与其他方法相比,GAN在AD辅助诊断任务中具有较高的分类精度,在AD相关数据处理任务中也有较好的性能,并从计算机科学的角度分析了GAN在相关任务中优于其他方法的原因;
本文讨论了GAN应用于AD相关任务的临床价值,提出了目前研究的局限并对未来相关研究提出了建议和展望。
引言:
阿尔兹海默病(Alzheimer's disease, AD)是一种主要影响老年人的,以记忆力、认知功能与行为功能下降为特点的神经退行性疾病,会严重影响患者日常生活。轻度认知障碍(Mild cognitive impairment, MCI)介于正常衰老和AD之间。每年约有10%-15%的MCI患者进展为AD,但有一部分MCI患者保持稳定,甚至恢复到健康状态。由于目前尚无有效治疗AD的手段,临床治疗的重点已经转为辨别和干预处于AD早期/前期阶段的患者,帮助此类患者稳定病情、减慢病情发展速度。所以对AD疾病状态进行准确分类,即判断患者处于正常还是AD,属于稳定型MCI(stable MCI, sMCI)还是进展型MCI(progressive MCI, pMCI)将有助于发现高风险的个体,采取针对性的治疗措施,延缓疾病进展,减少AD的发生。
近年来,精神影像学研究为识别精神障碍患者的诊断和治疗的影像生物标记物提供了临床证据,同时人工智能技术已广泛应用于AD的诊断与图像处理。许多研究致力于通过深度学习的方法对正常人、MCI和AD患者的影像学数据进行特征提取和分类,并取得了一定的成果。但以卷积神经网络(Convolutional neural network, CNN)为代表的现有深度学习方法需要大量高质量的图像数据输入才能满足脑影像研究对AD图像模态转换、降噪和分割方面的需求,但由于技术和成本的限制目前可用的AD相关脑影像学数据仍相对缺乏,故该领域亟需一种能基于少量数据进行高质量图像处理的深度学习方法。
生成对抗网络(Generative adversarial network, GAN)由Goodfellow等于2014年提出,是一种主要用于处理图像的深度学习模型。一个标准的GAN模型由一个生成器和一个判别器组成,其中生成器根据输入的数据、图像或随机噪声产生图像,而判别器负责判断一张图片是不是“真实的”,即该图片是真实的图像还是生成器生成的图像(图1)。GAN通过生成器与判别器进行极大极小博弈训练神经网络,在此过程中,生成器生成的图像愈发接近真实图像以“骗过”判别器,同时判别器判别图像的能力也不断提高以更好地判别图像真伪。GAN目前在脑影像领域的应用主要包括以下方面:1)对低剂量正电子发射计算机断层图像(PET)进行降噪处理,得到高质量的图像;2)对脑部图像进行精确分割,利于对图像的进一步处理;3)对图像数据进行扩增和模态转换。此外,GAN也可以为分类框架中的特征提取步骤提供高质量的图像数据,提高分类算法的效果,利于临床中AD的分类。
图1 GAN网络基本结构及其在精神影像学中的应用
目前,一些综述已经报道了GAN在医学领域中的作用,但GAN在AD这一特殊疾病中的应用尚缺乏关注。本文旨在系统地回顾GAN应用于AD辅助诊断与精神影像处理的研究。并从临床从业者的角度评估目前研究使用的方法(包括数据来源及模态、GAN模型、比较方法与定量指标),分析目前研究的局限性并对未来的研究提出展望。
研究方法:
本系统评价按照PRISMA指南进行,作者使用Alzheimer, AD, dementia, mild cognitive, F-18-FDG, FDGPET, amyloid, Tau-PET, generative model, and generative adversarial network等关键词检索了PubMed, Cochrane Library, EMBASE, Web of Science和IEEE Xplore数据库,以查找2020年8月前GAN在AD中应用的英文文献,研究最终纳入15篇文献。
研究发现:
1. GAN应用于AD相关脑影像数据处理
● 图像降噪:纳入研究中有3篇的研究目的是寻找有效的机器学习方法将低剂量PET图像转化为高剂量PET图像,以获取较高的峰值信噪比(Peak signal to noise ratio, PSNR),提高临床诊断正确率。对比不同方法的结果显示GAN的降噪效果显著优于其他降噪方法(图2)。纳入研究还表明,去噪后的图像可辅助后续的深度学习分类器获得更准确的疾病分类结果。此外,近年来越来越多的健康对照者和年轻MCI患者被纳入AD相关的临床试验中,频繁接受高剂量PET扫描会增加其所受辐射剂量,从而增加潜在的辐射暴露风险。因此通过降噪方法,研究人员不仅可以获得高质量的图像和精确的诊断信息,还可以减少研究中对患者和正常对照的潜在健康损害。
图2 与其它方法相比,GAN在对AD脑影像降噪中具有较优的峰值信噪比(PSNR)
注:PSNR与图像降噪质量成正比; m-CCA, multilevel CCA; AcCNN, autocontext CNN; CCA, canonical correlation analysis; MVPL, models without perceptual loss; MWV, models with perceptual loss computed from VGG16
● 图像分割:在数据分割方面,脑图像的精确分割有利于AD状态特征的定位。Shi等(2019)与Oh等(2020)分别对比了不同方法对海马亚区与大脑灰白质的分割精度,研究发现以Dice相似性系数(Dice similarity coefficient, DSC)为结局指标,GAN具有较高的分割精度(图3)。
图3 各种方法应用于AD相关图像分割取得的DSC比较,可以看到GAN图像分割效果优于其他方法
注:DSC与图像分割质量成正比; UGN, UG-net; P2P, Pix2pix unet; HD, h-dense unet method; UN, U-net.
● 图像扩增:使用深度学习的主要挑战是缺乏足够的数据来训练分类框架。由于PET的价格相对较高且获取难度较大,而PET影像数据对AD分类尤为重要,因此数据缺乏的问题在AD研究中尤为突出。纳入研究中,Kang等(2020)基于条件GAN(Conditional GAN,cGAN)使用随机噪声合成了与真实数据相似性较高的18F florbetaben PET图像,有利于解决AD相关的深度学习框架开发中数据不足的问题。
● 模态转换:目前,越来越多的深度学习模型使用多模态数据完成AD的辅助诊断。在AD常用的脑影像学数据中,MRI包含更多的结构信息,而PET则包含更多的代谢和定量分析的价值。MRI和PET的联合应用可以为临床医生提供更全面的诊断信息。在临床上为了补充某些模态数据的不足,通常会在模态之间进行转换。Kang等(2018)应用GAN生成个体自适应的PET模板,在不使用相应3D-MR图像的情况下,对淀粉样PET图像进行准确的空间归一化,以便对淀粉样PET图像进行客观评估和统计分析。与基于平均模板的方法相比,基于GAN和基于卷积自编码器(Convolutional auto-encoder,CAE)的方法互信息更高,均方误差更小。Choi等(2018)应用GAN进行不同模态医学图像的转换,即由florbetapir PET图像中生成逼真的结构MR图像,并应用于皮质淀粉样蛋白负荷的量化,取得了较好的效果。
2. GAN应用于AD辅助诊断
● 目前,对于已进展到AD的患者没有任何药物能够有效治疗其症状,或预防AD的进一步发展,AD药物的临床试验失败率高达99.6%。因此目前临床研究的重点已转移到对AD的早期诊断和干预。在本系统评价中,我们发现GAN可以很好地将AD患者与正常认知下降对照区别开来,并且基于GAN的分类框架在MCI(sMCI和pMCI)患者中识别高危个体(pMCI),其准确率高于其他算法(图4)。这为延缓疾病进展和减少AD患者的发生提供了机会。
图4 GAN在AD辅助诊断中的准确率(ACC)优于其他方法
注:LM3IL-C, GAN that uses only complete MRI and PET data; RBM, real image-based method; ICP, indirect conversion prediction; DCP, direct conversion prediction (a CNN classifier); TA, traditional augmentation.
同时我们也发现在大多数关于AD分类的研究中,通常会建立一个两阶段的深度学习框架(图5)。第一阶段是合成医学图像或提取相关特征,第二步是建立分类器进行分类。研究人员使用GAN合成图像并进行特征提取,同时使用其他算法(如CNN)构建分类器。这种结构充分利用了GAN在图像处理中的优势。为了获得更高的精度,准确的特征提取通常比分类算法更重要。GAN对AD脑影像数据的处理可以更好地提取相关特征以完成第二阶段的分类。
图5 GAN应用于AD辅助诊断研究的一般框架
3. GAN在AD脑影像学相关任务中优于其他方法的原因探讨
在此系统评价中,我们发现GAN在进行特征提取、模态转换、图像降噪与分割等AD脑影像数据处理任务时展现出了优于其他方法的性能,这可能与它更适应MRI、PET等脑影像数据的处理有关。
首先,脑影像数据多为复杂高维数据,而GAN的对抗结构在数据处理方面较其它深度学习方法具有优势。传统的CNN对高维数据模型进行拟合往往需要非常庞大的计算量,导致生成的图像质量相对较差,且常受到混叠伪影等因素的影响。而GAN不要求对数据预设分布,理论上只要是可微分函数都可以用于构建生成器和判别器,且可以和现有的深度学习网络(如CNN)结合使用,这使得GAN不需要定制复杂的损失函数,可以直接对样本进行采样训练,并以任意精度逼近高维数据的真实概率分布,生成高质量的图像。
其次,由于需要由有经验的影像医师分析,使用专业设备采集和对患者长时间随访,AD相关脑影像用于训练的数据量较少,且更容易存在组间数据量不平衡的问题。GAN可以从有限的可用图像中学习潜在的数据分布并生成质量较高的图像,这使得其训练所需要的数据量较少,且在处理不平衡的数据时具有优势,而传统深度学习和机器学习方法则需要大量先验知识(如需要大量数据),在处理少量数据时更常遇到过拟合问题。
上述技术优势使GAN更符合AD相关脑影像数据处理的需求,并可以解释本系统评价的发现。
4. 纳入研究使用的研究方法
● 数据来源:数据质量一直是深度学习研究关注的话题。尽管GAN可以处理高质量的图像数据,但不同来源的数据也会影响AD分类和其他临床应用的效果。
我们回顾了纳入研究中使用的训练和验证数据集与数据量,发现对于大多数纳入的研究,训练数据均来自目前较为完备的公共数据库阿尔茨海默氏病神经影像计划(ADNI)(图6D)。同时,一些研究者与医疗机构合作,利用临床收集的数据进行深度学习模型的训练。但仅用本机构收集的临床病例通常样本量较少,易导致生成效果差和过度拟合等问题,因此我们建议使用数据量大、数据质量高的公共数据库(如ADNI)来扩大样本量,从而提高GAN模型的生成效果和泛化能力。
对于验证数据,我们注意到大部分研究仅使用内部验证方法来评估GAN模型的性能,即用于训练和验证算法的大部分数据来自同一数据集,而仅用内部验证可能导致深度学习模型在现实世界、高容量临床环境中的泛化性能不足。因此,使用不同数据集作为验证数据非常重要,研究人员可以考虑使用大型数据库的数据来训练深层学习框架,并使用本机构收集的临床数据来进行验证。
● 数据模态:我们检查了纳入研究所用数据的输入/输出数据模态(图6 A&B)。大多数研究仅使用单模态数据(PET或MRI)进行AD分类或图像处理,而很少使用多模态数据。有两个纳入研究使用了两阶段深度学习架构。在第一阶段中,利用GAN根据MRI图像生成缺失的PET图像,然后将生成的PET图像和原始MRI图像输入CNN分类器进行分类。此方法的训练效果优于单独使用MRI数据,证明了多模态分类方法的良好效率。
目前大多数PET-MRI模式转换研究中使用的MRI数据是单一模态的结构MRI图像(如T1加权MRI),这可能无法准确合成PET图像。Wang等(2019)创新性地将T1加权MRI与扩散张量图像(DTI)两种结构MRI图像结合起来,合成PET图像。这种基于多模态MRI的模态转换方法取得了良好的效果,为后续研究提供了启示。然而,此研究的数据样本较少,且缺乏扩大样本后的后续研究。
此外,我们还分析了本系统评价中使用不同模态数据纳入研究的训练样本量(图6C)。在纳入的研究中,使用PET图像的研究样本量通常较小,这可能是由于获取PET的成本高昂,以及ADNI等公共数据集中MRI-PET配对数据相对不足。
并且,近一半的纳入研究在MRI或PET图像中使用部分2D切片,而不是整个3D图像进行训练,这可能导致空间信息丢失和不连续估计。然而,研究发现,使用整个3D图像可能会增加GAN模型的比例,进而影响生成效率。因此,如何利用三维图像数据更有效地训练GAN仍然有待研究。
图6 各纳入研究中使用的(A)数据维度、(B)数据模态、(C)数据量与(D)数据来源
● GAN网络结构:本研究回顾了纳入研究用于不同图像处理任务的GAN的结构特征发现,图像-图像任务(图像去噪、图像分割和模态转换)中的大多数研究都使用cGAN模型。这是Mirza等(2014)提出的监督模型,其使用条件变量C约束生成器和鉴别器,以便生成指定的目标图像。在医学图像的图像到图像任务中,输入图像作为条件变量C,以便cGAN可以根据图像执行相应的处理,并获得所需的输出图像。这种GAN模型已被证明在医学图像去噪、分割和模态转换方面取得了良好的性能,这也与本系统回顾结果相一致。
在图像特征提取中,多数研究使用Arjovsky等(2017)提出的WGAN模型,该模型可以最小化真实分布和生成分布之间的距离,从而更好地提取图像中有意义的特征,完成特征提取任务。
在噪声-图像的任务中,大多数研究选择DCGAN,该模型由Radford等(2015)提出,并将CNN与GAN结合,可提高训练的稳定性和生成图像的质量,广泛应用于医学图像数据扩增。
此外,Pan等(2018)和Kim等(2020)使用的GAN模型也为未来的研究提出了新的方向。Pan等(2018)使用的cycle GAN由Zhu等(2017)提出,该模型创造性地使用两组生成器和鉴别器来学习两个修改数据之间的映射关系,然后在没有成对数据的情况下完成模态转换,具有很大的临床应用潜力和研究价值。
Kim等(2020)使用的BEGAN是由Berthelot等(2017)提出的,它通过估计分布的分布误差而不是生成的数据与实际数据之间的差异来生成数据,从而提高了生成稳定性。但其在高分辨率图像中的应用效果较差,在医学图像中的应用较少,有待进一步研究。
● 定量评估:为了确保所开发的算法能够应用于临床实践,定量评估和比较方法值得关注。定量评估可以检测降低泛化性能的因素,并评估训练数据集的适用性。大多数研究采用常用的分类与图像质量的评估指标,如准确性(ACC)、ROC曲线下面积(AUC)、PSNR、DSC等,仅有两个研究有临床影像学医师参与图像质量评价。但从目前纳入研究的结果来看,具有相同应用目的的研究的定量评价指标并不统一。这也是本文仅进行系统综述而未进行荟萃分析的原因之一。未来的研究可以针对不同的目的提出参考评估指标,这有助于研究之间的横向比较。
● 比较方法:在方法比较方面,纳入研究中所进行的方法比较可以分为以下几类:①与真实数据进行比较(对于合成图像的研究);②与自身算法去掉某个特定部分后进行比较;③与无对抗训练的生成器进行比较;④与非GAN的成熟算法进行比较;⑤与专家手工分类进行比较(仅有一项研究)。部分应用于AD分类的研究中并未直接对GAN算法进行比较,而是关注第二步骤中的分类器算法。我们建议以后的研究可以根据自身需求从以上方法中选择至少三种以提升研究的信度。同时从纳入研究的结果来看,算法的评估过程缺乏临床医生的参与,限制了研究从实验过渡到临床应用,因此我们强烈建议招募临床医生在未来的研究中评估该算法。具体来说,从定量评估的角度来看,临床医生在对图像进行去噪、分割等处理后,制定规则对图像进行评分,然后比较不同算法的得分。
5. 目前研究的局限性与未来展望
GAN算法本身存在一些常见问题,如训练难度大等。在训练过程中,生成器和鉴别器经常不能很好地平衡,这可能会导致模式崩溃和梯度消失等问题,并导致生成器在仅学习部分数据分布模式且未收敛到全局纳什均衡后停止训练。同时GAN在训练过程中需要良好的初始化,否则学习到的分布可能仍然远离真实分布,导致循环、振荡或转向行为。此外,GAN生成器只能学习端到端的映射函数,该函数没有显式表达式,因此GAN的可解释性较差,其潜在空间与生成图像之间的对应关系不清楚,这对于研究人员来说就像一个“黑箱”。一些研究人员提出了优化的GAN模型来解决上述问题(如cGAN、WGAN和cycleGAN等),但GAN仍需要进一步优化,以充分实现其生成性能。
GAN在脑疾病方面的应用仍然存在一些局限性。目前,GAN主要用于AD相关医学图像的处理,但其在其他精神疾病(如精神分裂症、孤独症、注意缺陷多动障碍等)中的应用仍然缺乏。目前深度学习方法(如CNN)已逐渐应用于这些精神疾病的成像数据处理,并取得了一些有希望的结果,但其处理功能性MRI和其他高维精神影像学数据的能力有待提高。因此,在处理高维数据方面优于其他传统深度学习方法的GAN非常有希望应用于这些疾病。同时,GAN在AD疾病分类领域的应用可以扩展到生物信息学领域,例如使用GAN分析AD分子数据。GAN在图像处理中放大数据的能力可以转移到生物信息学研究中。此外,在本系统综述中,我们发现研究人员在进行AD相关研究时很少注意图像中包含的临床信息(如淀粉样蛋白状态)。未来,在利用GAN进行AD相关任务时,算法研究人员应与放射科医生密切合作,以确保处理前后图像提供的临床信息的一致性。
结论:
本系统评价展示了GAN在AD辅助诊断和相关精神影像学数据处理中的应用价值。与其他方法相比,GAN分类更准确,去噪后的图像质量更高,图像分割更准确。在未来,研究人员需要考虑使用更好的数据和GAN架构,比较算法与临床实践的异质性,并招募临床医生评估算法的效果。
本文通讯作者陈桃林, 北京师范大学认知神经科学(心理学)专业博士,四川大学临床医学专业博士后,现为四川大学华西医院华西磁共振研究中心副研究员。中国认知科学学会神经与精神影像专业委员会委员,中国心理学会脑电相关技术专业委员会委员,中国康复医学会脑功能检测与调控康复专业委员会电生理与康复学组常务委员。长期从事健康人群和精神疾病患者情绪与认知相互关系及其神经机制研究。
• 引用本文
Changxing Qu, Yinxi Zou, Qingyi Dai, Yingqiao Ma, Jinbo He, Qihong Liu, Weihong Kuang, Zhiyun Jia, Taolin Chen, Qiyong Gong, Advancing diagnostic performance and clinical applicability of deep learning-driven generative adversarial networks for Alzheimer's disease, Psychoradiology, Volume 1, Issue 4, December 2021, Pages 225–248, https://doi.org/10.1093/psyrad/kkab017
• 本期文章首页
扫码获取
小贴士
办刊宗旨:
1. 出版国际精神影像学领域最新重要研究成果和进展;
2. 为精神疾病的诊断、治疗和预防提供新的理论基础、方法及经验分享;
3. 为国内外临床医生、研究人员等提供学术交流平台,服务医学事业发展;
4. 填补学科领域期刊空白,保持我国在该领域的引领地位。
目前我们已经组建了国际化的编委团队,聘任国内外知名专家共 41 名。主编为四川大学华西医院龚启勇教授,电子科技大学 Keith Maurice Kendrick 教授,中国科学院院士、北京大学陆林教授。编委成员具有多学科背景,其中包括中国科学院陈霖院士、苏国辉院士,英国皇家学会会士、英国医学科学院院士、中国工程院外籍院士 Sir Colin Blakemore 教授,英国医学科学院院士 Trevor Robbins 教授,以及美国医学与生物工程院会士 Bharat Biswal、 Gary Glover 教授等知名学者。
psyrad@psychoradiology.org
投稿链接https://mc.manuscriptcentral.com/psyrad
期刊主页