Nature: 基于UK Biobank数据库的脑影像指标全基因组关联分析
请点击上面“思影科技”四个字,选择关注我们,思影科技专业于脑影像处理,涵盖(fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS)等,希望专业的内容可以给关注者带来帮助,欢迎留言讨论,也欢迎参加思影科技的课程。(文末点击浏览)
对于大脑结构和功能的遗传基础我们仍然知之甚少。英国牛津大学的Stephen M. Smith教授带领的研究组,利用UK Biobank数据库提供的共8428个样本的全基因组测序以及多模态脑影像数据,对共3144个功能和结构脑影像指标进行了全基因组关联分析。主要发现包括:
很多脑影像指标是可以遗传的。
发现148个可重复的由单核苷酸变异(SNP)和其相关脑影像指标组成的簇。
发现与铁转运和储存相关的基因与皮质下脑组织磁化率有关;细胞外基质和表皮生长因子基因与白质微结构和病变有关;调节中线轴突发育的相关基因与脑桥交叉纤维束有关;另外还有17个相关基因同大脑的发育、信号通路以及可塑性有关。
关键词:GWAS 多模态
数据:
UK Biobank是一个最新的可用来进行基因-影像分析的数据库。在英国全国40至69岁人群中共收集了50万份志愿者的多尺度数据,该计划的一个目的是在疾病发生前搜集尽可能多的数据来帮助确定一些重大疾病的早期诊断标志物。
在脑影像方面,其计划到2020年将搜集10万人的多模态脑影像数据,多模态包括:三种模态的结构MRI数据,静息态以及任务态fMRI数据以及diffusion MRI数据。提供了对影像进行全自动处理的流程使得脑影像在不同模态与样本间是可比较的。基于处理后的多模态影像数据生成了上千个影像指标(IDP)来描述大脑的结构与功能,比如不同大脑区域的体积,一对特定脑区间的结构与功能连接强度等。总的来说,biobank数据库脑影像数据的一个独特特点就是大的样本量以及其多模态数据是利用统一的硬件和软件进行获取的。
Biobank数据库提供的另一个重要资源是其基因型数据,利用自主设计的基因分型芯片对50万被试进行全基因组SNP数据搜集。自主开发了一套针对Biobank数据实验设计,规模以及多样性等特点对其基因数据进行质量控制,基因定向(Phasing),基因型推断(Imputation)的工作流程。其基因数据在2017年6月公开,共包含50万人的9600万个位点的基因变异信息。
分析方法:
对UK Biobank提供的基因和多模态脑影像数据进行共同分析为我们探究大脑结构和功能的遗传基础提供了前所未有的机会,本研究对3144个影像指标进行了全基因组关联分析(GWAS),这些影像指标包括全脑的多模态信息,如灰质体积、面积、厚度,白质连接以及功能连接等。本研究共利用8428个被试对17734353个SNP和3144个影像指标进行了关联分析。进一步,该研究还利用了Biobank提供的另外两个独立数据集对其确定的基因-影像显著关联关系的重复性进行了评判。此外,该研究还进行多表型全基因组关联分析、基于SNP的遗传力分析、影像指标同大脑相关表型的遗传相关分析以及相关基因的功能富集分析等。
结果:
脑影像指标的遗传力以及遗传相关性
图.1 脑影像指标的遗传力估计。所有脑影像指标的遗传力估计(y轴表示)。影像指标被分为三大类:a,结构MRI。 b, diffusionMRI 。c,功能fMRI。点的颜色代表不同的影像指标类型。圆圈和三角用来分别表示影像指标在5%显著水平是不是具有显著不为0的遗传力。
图1展示了所有脑影像指标的由SNP估算的遗传力(h2)以及h2是否显著地不等于0。3144个影像指标中有1578具有显著的遗传力。对于结构MRI影像指标,体积指标是遗传力最高的而皮层厚度的遗传力是最低的。对于diffusionMRI影像指标,基于纤维追踪技术的指标的遗传力显著低于基于tract-skeleton技术的影像指标。在所有类别的影响指标中,静息态功能影像指标具有最低的遗传力,1771个静息功能影像指标中只有235个具有显著的遗传力。但是利用ICA分析得到的6个影像指标中有4个具有高的遗传力。此外,静息态节点的活动强度具有高的遗传力但是任务态的则没有。
2.脑影像指标与SNP显著相关
在–log10(P value) >7.5的阈值下,该研究共发现1262个SNP与影像指标之间的显著关系,这些相关关系包含除了任务态功能影像指标外的各类影像指标。这1262个显著相关关系中有844个和455个在另两个较小的独立数据库中得到了重复(显著性水平5%)。结果中有些SNP位点与多个影响指标显著相关,经过推算共发现427个不同的基因区域(簇)与影像指标显著相关。有148个簇在另一个较小数据集上可以在5%的显著性水平下重复,其中91个FDR小于5%。在 –log10(P value)>11的阈值下,共有368个显著相关关系被发现,相关的78个SNP可以被分为38个不同的基因簇,并且可在另一个数据上重复该结果(FDR小于5%)。在确定一个SNP和一个给定的影响指标相关后,可以通过全表型组关联分析(PheWAS)探究这一SNP与其他所有影响指标的关联关系。上文确定的78个SNP中有4个同三大类影像指标都相关,并且都属于第31个基因簇。这个基因区域被确定与楔前叶和楔叶的体积,forceps major的dMRI指标以及2条功能连接显著相关。
总的来说上述结果清楚地重复了之前ENIGMA在两个脑影像指标GWAS分析中发现的大部分位点:利用13171个样本进行的七个皮层下脑区体积的GWAS分析和利用33536个样本进行的海马体积的GWAS分析。此外,上述结果也重复了之前发现的TRIM47基因上的SNP(rs3744107)与白质体积损伤的关系。
此外,上述的38个位点有一部分是在基因内,比如7个错义突变SNP以及2个在非编码区,另一些则是同一些感兴趣基因内的SNP具有高的连锁不平衡,此外还有很多是GTEx库中确定的显著表达数量性状位点(eQTL)。最终共发现17个遗传位点与大脑发育,模式以及可塑性相关的基因相关。
在体素级别进行基因-影像关联分析可进一步提供更加详细相关关系的位置信息,并且帮助确定未被影像指标很好描述的其他相关区域。比如,通过分析在rs4428180位点没有参考等位基因和有一个参考等位基因样本在T2*影像上的差异,发现这个SNP不仅仅作用于putamen和pallidum,而且也作用于一些没有被之前影像指标反映的皮层下其他区域。我们将与putamen T2*影像指标相关的四个SNP的体素级别相关信息总结在图2中。
图2. Putamen T2*图像与4个SNP相关的曼哈顿图以及脑区分布图。a.双侧Putamen T2*影像指标GWAS分析的曼哈顿图。底部灰色线代表–log10(P value)为7.5,上部的线则代表–log10(P value)为11。b.脑分布图用来表示同putamen T2*指标最相关的四个SNP与全脑体素的不同相关模式(每一行为一个SNP)。
图3. dMRI 影像中ICVF指标GWAS分析的曼哈顿图以及相关SNP(rs67827860)的相关关系脑区分布图和全表型组关联分析结果。a. ICVF的GWAS分析的曼哈顿图,ICVF与rs67827860显著相关。关于rs67827860的相关信息可在右上角的方框内获取。底部灰色线代表–log10(P value)为7.5,上部的线则代表–log10(P value)为11。b.rs67827860与体素级别白质ICVF关联的脑区分布图(ICVF在4957个没有参考等位基因的样本中进行平均,并减去2304个有一个参考等位基因样本的平均值,)这里展示的差异脑区是以0.005为阈值。这个SNP主要与白质纤维束相关影像指标显著相关(与cluster11中的199个影像指标中的45个显著相关)。c. rs678278607与3144个影像指标的全表型组分析结果图,y轴表示相关的−log10(P)值。点的颜色用来表示不同的影像指标类型。该snp除了同白质高信号相关,还同其他多种dMRI影像指标显著相关。
图4. dMRI 影像中弥散模式相关指标GWAS分析的曼哈顿图以及相关SNP(rs4935898)的相关关系脑区分布图。a. crossing pontine tract弥散模式GWAS分析的曼哈顿图,其与rs4935898显著相关。b-d,弥散模式在6807个没有参考等位基因的样本中进行平均,并减去703个有一个参考等位基因样本的平均值,这里展示的是0.05阈值下显著差异脑区。 b. 结果在MNI152空间下的T1影像上进行展示C. 纤维束的方向。另一个SNP rs2286184 (SEMA3D)与弥散模式的相关基本上与rs4935898一致,这两个SNP作用都具有一定的空间特异性,并未发现其与大脑中其他位置相关。
另一种可用来对大规模影像指标进行关联分析的方法是利用多表型关联分析:对一组影像指标拟合相关联合模型,该方法可利用基因相关行来提高分析的power。此外,在一个GWAS分析中同时分析多个表型可以避免由于进行多次GWAS分析带来的多重矫正问题。利用多表型关联分析方法对23组影像指标进行分析,在–log10(P) > 7.5的阈值下共发现160个遗传位点上的278个SNP与影像指标显著相关,其中有170个SNP在对23次分析的进行矫正后仍是显著的。这170个SNP中有138个可以在另一个由3456人组成的独立数据集上满足p<0.05。
3.与临床相关变量的遗传相关性
该研究还计算了一部分可遗传的影像指标与10个神经变性、精神疾病以及个性相关的表型间的遗传相关性,发现:肌萎缩侧索硬化症(ALS),精神分裂症以及中风主要和白质纤维束的dMRI影像指标相关。
4.遗传力的功能注释
该研究还利用统计方法,通过将常见突变根据其在基因组中的不同功能分为24种功能类别,来对3144个影像指标的加性遗传力进行分解。其发现基因组中被标注为超级增强子以及几个组蛋白修饰相关的区域在多个功能和结构影像指标组中都是富集的。T1皮层下体积以及多个dMRI影像指标组在多种功能种类都是富集的。然而静息态功能连接相关的影像指标未发现显著富集,这一结果与其具有较低的遗传力结果一致。
结论:
能将具有脑成像和基因关联分析背景的研究人员聚集在一起是这项工作的关键。该研究确定了大量可重复的基因-影像关联关系,这些相关关系涉及到除了任务态功能影像外的所有影像指标类型。其还发现影像指标主要同与大脑发育,可塑性以及铁、营养和矿物质运输相关的基因具有显著关联关系。与大脑发育和可塑性相关的基因倾向于与精神疾病有关,包括重症抑郁症,精神分裂症等,而那些编码与铁相关蛋白质的基因倾向于与神经退行性疾病有关,例如肌萎缩侧索硬化症,帕金森病和阿尔茨海默病等。
未来几年,UK Biobank多模态影像数据的样本量将达到10万人,这将使得我们能够更加全面地分析人脑结构、功能以及连接的遗传基础。一个未来可能的研究方向是尝试探究从遗传突变到影像指标最后到一系列神经、精神和发育疾病的因果通路。
资源:
本文的所有研究结果可以从Oxford Brain Imaging Genetics(BIG)网站获取:http://big.stats.ox.ac.uk/,用户可选择从SNP、基因以及表型不同水平来浏览分析结果。除了脑影像指标的GWAS分析结果,该网站还提供了2500个其他表型和疾病的GWAS分析结果。
参考文献:Elliott L T, Sharp K, Alfaro-AlmagroF, et al. Genome-wide association studies of brain imaging phenotypes in UKBiobank[J]. Nature, 2018, 562(7726): 210.
微信扫码或长按识别二维码轻松关注
思影科技给您带来脑影像资讯
获取原文及补充材料:关注“思影科技”公众号,回复“原文”或“培训”,获取原文pdf及补充材料下载链接,同时欢迎浏览我们的培训通知以及数据处理业务介绍。(直接点击下方文字即可浏览):