QB 期刊 | 全转录组关联分析的基本框架和方法
近年来,全基因组关联分析(Genome-wide association studies, GWAS)揭示了大量疾病易感位点,增加了人们对复杂性状的遗传结构的认识。然而,大多数易感位点的生物学机制尚不明确。全转录组关联分析(Transcriptome-wide association studies, TWAS)的提出为理解遗传变异与性状间的关系提供了契机。TWAS是以基因为单位,将受遗传变异调控的基因表达量(genetically regulated expression, GReX)与复杂性状进行关联分析的一类方法,相比GWAS具有更好的可解释性。
近日,清华大学侯琳教授课题组在Quantitative Biology期刊上发表了“Transcriptome wide association studies: general framework and methods”的综述文章(点击文末“阅读原文”下载PDF全文)。本文首先介绍了TWAS的基本框架,回顾了早期TWAS研究中的PrediXcan和FUSION方法,接下来重点分类梳理、总结近年来提高TWAS统计功效的改进方法以及相应的软件工具。此外,文章还讨论了TWAS与“孟德尔随机化”、“疾病易感位点与表达数量性状位点(expression quantitative trait loci, eQTL)共定位”(以下简称共定位)等方法的联系与区别。最后,文章讨论了TWAS目前的局限性并展望未来可能的研究方向。
全文概要
本文首先介绍了TWAS的基本框架,目前TWAS研究一般分解为三个步骤(如图1):(1)基于参考数据集训练得到由个体基因型预测基因表达量的模型;(2) 基于预测模型,预测GWAS队列的基因表达量;(3)将基因表达预测值与性状进行关联分析,识别易感基因。
图1. TWAS框架图
TWAS框架中训练基因表达值预测模型的公共常用参考数据集见表1。
表1. TWAS训练基因表达值预测模型的参考数据集
随后,作者回顾了TWAS分析中用到的方法和工具(如表2),其中PrediXcan和FUSION是TWAS研究的两种经典方法,它们分别利用弹性网络(Elastic-Net)和贝叶斯稀疏线性混合模型(BSLMM)训练基因表达量预测模型,将基因表达预测值与性状进行关联分析。
表2:GWAS与eQTL整合分析方法及软件
在TWAS基本框架下,基于PrediXcan和FUSION方法,TWAS统计功效的改进主要集中在两个方向:(1)如何准确构建基因表达量预测模型。其中,UTMOST与fQTL基于组织间基因表达的相似性,将单组织基因表达预测模型拓展到多组织联合预测模型;TIGAR将原有的线性模型拓展到非参数模型;EpiXcan与TF-TWAS采用贝叶斯模型,分别将表观基因组信息(包括DNA甲基化、组蛋白修饰和染色质可及性)、转录因子编码基因的多态性等注释信息作为先验分布整合到基因表达预测模型中。(2)如何进行基因表达预测值与性状的关联分析。其中,UTMOST与MultiXcan将多组织基因表达量同时与性状关联以提高统计功效。CoMM提出了基于似然函数的推断方法,将TWAS框架中三步归为一步,以处理第一步中基因表达量估计的不确定性,提高了检验功效。
值得注意的是,在实际应用中个体基因型数据通常难以获取,研究者只能得到GWAS概括统计量(summary statistics)。基于数学公式推导,TWAS基础框架中的二、三步可以合并,仅利用第一步得到的基因表达预测模型与GWAS概括统计量,就可以检验基因表达与性状间的关联关系。本文梳理了FUSION, S-PrediXcan, S-MultiXcan, CoMM-S2 等基于GWAS概括统计量的TWAS方法。
除TWAS外,孟德尔随机化方法(点击“这里”查看本期另一篇相关文章“从孟德尔随机化的角度回顾全转录组关联研究分析方法”)与共定位方法也能对GWAS队列信息和参考人群中的eQTL研究数据进行整合分析。与TWAS不同的是,孟德尔随机化方法检验观测基因表达量与复杂性状的关系。该方法不涉及基因表达的预测,且依赖于比TWAS更严格的假设。共定位方法识别在GWAS和eQTL研究中同时显著的遗传变异位点,不涉及基因表达量的预测,也不涉及基因表达量和复杂性状的关联检验。值得注意的是,共定位方法可辅助TWAS分析,过滤掉TWAS中因连锁不平衡(linkage disequilibrium,LD)带来的假阳性结果。
最后,文章讨论了TWAS方法面临的一些挑战。第一,受限于参考数据集中有限的样本量,基因表达量预测模型的精度普遍较低。第二,目前公开的参考数据集中样本大多数为欧洲人,由此训练得到的基因表达预测模型在其他人种中的预测精度低于其在欧洲人种中的预测精度。第三,现有基因表达预测模型只利用基因附近的顺式eQTL(cis-eQTL),如何将基因远端的反式eQTL(trans-eQTL)的信息纳入预测模型中有待进一步研究。
综上,作者希望此综述能够为对该领域感兴趣的研究者提供一个概览、为进阶和高阶研究者提供一些参考。
Quantitative Biology期刊介绍
Quantitative Biology (QB)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。
为了促进本领域的学术交流,欢迎大家扫描下面二维码进入《定量生物学》期刊交流群。