全转录组关联分析TWAS的原理与方法

Original 生信阿拉丁生信阿拉丁 2022-05-16

收录于合集

#机器学习 7 个

#医学系列 28 个

全转录组关联分析

TWAS的原理与方法

1.什么是TWAS

什么是TWAS

对GWAS（genome-wide association study, 全基因组关联分析）大家应该比较熟悉，是分析遗传变异（genotype, 如SNP）与表型（phenotype）之间的关联。

如果某个SNP总是和某种疾病同时出现，那么可以推测这个SNP极有可能与此疾病有关，也就是这个SNP和这个phenotype协同变化，有相关性。但基于GWAS的结果，仅能给出候选的染色体区域，无法确切定位致病的候选基因。

为了进一步缩小候选基因的范围，研究者提出了很多方法，全转录组关联分析TWAS （transcriptome-wide association)是其中一种。

TWAS是把转录调控（expression）作为遗传变异（genotype）和表型（phenotype）之间的中介，将单个遗传变异与表型的关联转换成基因/转录本与表型的关联。

TWAS的研究思路

第一步，基于reference panel来建模，构建SNP和基因表达量之间的关系。reference panel中的样本同时拥有基因分型和表达量的结果，根据距离确定基因对应的SNP位点，比如选择基因上下游500kb或者1Mb范围内的SNP位点，拟合这些SNP位点和基因表达量之间的关系。

第二步，用第一步建模的结果来预测另外一个队列的基因表达量，这个队列中的样本量只有GWAS结果，称之为gwas cohort，这一步可以看做是对gwas cohort中的基因表达量进行填充。

第三步，用填充之后的基因表达量来分析基因和性状之间的关联。

从上述研究思路中可以看到，TWAS的性能主要受到两方面影响：（1）从SNP预测基因表达的准确性；（2）基因表达和表型的关联分析。

TWAS的分析方法PrediXcan

2015年，Eric R Gamazon等人为了建立起受遗传调控的基因表达与性状之间的关系，提出了一种方法PrediXcan。

整个工作流程分为两步：（1）估算SNP调控的基因表达水平；（2）建立基因表达水平与性状之间的关联。

第一步中，作者利用GTEx Project、GEUVADIS 和 DGN数据库中基因型数据和基因表达数据做训练集，用弹性神经网络进行机器学习训练，并将训练好的权重参数储存在PredictDB数据库中。

然后利用该模型估算GWAS数据中的基因型数据SNP对应的表达量。得到表达数据之后，再用logistic regression建立起基因表达与性状之间的关系。

升级版的分析方法MR-JTI

2020年10月，Eric R Gamazon课题组提出MR-JTI(Mendelian randomization & joint-tissue imputation) 方法，对TWAS分析做了两个优化：

第一，JTI方法可以提高表达量预测模型的精度，从而增加关联分析的检验效能；

第二，MR方法可以解决基因多效性 (horizontal pleiotropy) 及潜在混杂因素带来的假阳性问题。

方法的流程图如下：

首先来看第一步优化，JTI方法。

之前的TWAS分析方法，在预测表达量模型的训练中，未充分利用GTEx数据组织间广泛存在的生物学相似性。这里，研究者通过整合多个相似的组织 (Joint-tissue imputation, JTI) 来提升模型的预测精度。研究者同样使用弹性神经网络方法进行训练，不同的是在损失函数中引用了相似性权重值：

相似性权重值的计算是以转录水平相似度和转录起始位置附近的DNaseI-hypersensitive sites （DHS, 来自ENCODE及Roadmap）峰的相似度为依据，利用真实数据通过交叉验证的方法获得合适的超参数对相似度进行修正，提高预测精度。

结果显示，JTI方法相较PrediXcan大幅提高了预测精度。下图中，iGenes表示预测出的基因，定义为预测值与真实值的相关性满足：r>1, p<0.05，可以看到在所有不同的组织中，JTI都比PrediXcan预测出更多的基因，后者预测出的基因中平均92.9%在JTI中也预测到了，组织所含的样本数越小，JTI预测提升的幅度越大。

第二步优化是为了提升关联分析的证据等级。

作者还将TWAS接入了孟德尔随机化 （Mendelian randomization, MR）过程，提出了MR-JTI。考虑到模型中可能广泛存在不合适的工具变量（invalid instrument variable，即存在多效性或/且受潜在混杂影响），MR-JTI通过bootstrap LASSO对工具变量进行特征选择，矫正了多效性及潜在混杂的影响。

此方法弥补了TWAS的一大缺陷，且对于工具变量异质性的假设较MR-Egger等经典方法更为灵活。将MR-JTI方法应用于LDL-C疾病相关的GWAS数据，与仅用JTI方法的结果进行比较，发现加入了孟德尔随机化过程后，可以过滤掉大多数基因，保留下的基因中有7个已得到实验验证。

小结

本文主要对TWAS分析的原理和方法进行了简介。TWAS的优势在于可以找到显著性的基因而不是SNP，因此更具有生物学意义。

目前，TWAS已经成功应用于精神分裂症、乳腺癌、前列腺癌等疾病中，相关的数据分析软件除了上文介绍的PrediXcan和MR-JTI外，还有S-prediXcan,、Fusion、 UTMOST等。从文献的分析比较来看，MR-JTI的分析效果最佳。

下次将具体介绍软件使用，并且对比不同软件的分析效果，不容错过哦~

参考文献

[1] GTEx Consortium, Gamazon, E.R., Wheeler, H.E., Shah, K.P., Mozaffari, S.V., Aquino-Michaels, K., Carroll, R.J., Eyler, A.E., Denny, J.C., Nicolae, D.L., et al. (2015). A gene-based association method for mapping traits using reference transcriptome data. Nat Genet 47, 1091–1098.

[2] Wainberg, M., Sinnott-Armstrong, N., Mancuso, N., Barbeira, A.N., Knowles, D.A., Golan, D., Ermel, R., Ruusalepp, A., Quertermous, T., Hao, K., et al. (2019). Opportunities and challenges for transcriptome-wide association studies. Nature Genetics 51, 592–599.

[3] Zhou, D., Jiang, Y., Zhong, X., Cox, N.J., Liu, C., and Gamazon, E.R. (2020). A unified framework for joint-tissue transcriptome-wide association and Mendelian randomization analysis. Nat Genet 52, 1239–1246.

作者：Resther

审稿：童蒙

编辑：angelica

往期精彩回顾

介绍一款单细胞细胞类型注释软件-scibet