查看原文
其他

文献&工具 | 整合GWAS和QTL预测复杂性状的靶基因 | SMR

2017-07-20 夏梦馨 ActionFree
前言

GWAS十年鉴定了数千疾病和复杂性状相关的遗传变异,然而哪些基因是致病基因在很大程度上是未知的。本文介绍的是一种基于孟德尔随机化实验的思想而设计的工具——SMR(Summary data-based Mendelian randomization analysis)


迷之尴尬

GWAS研究投入了大量的人力物力和财力,得到了数量众多的疾病/复杂性状相关的位点,而具体是哪些基因或DNA元件在疾病的发生发展中起作用仍未知。

原因:

  • 在SNP和致病突变之间复杂的连锁不平衡

  • 统计上的抽样误差

探索历程

有些人就提出了在信号最显著的位点附近的基因更可能是致病基因~

不幸的是,因为缺乏对GWAS研究结果的全面的功能研究,这个假设并没有被证实。

而最近的研究却发现,致病基因可能并不是最近的那个基因,如肥胖基因FTO对IRX和IR5的远程调控。

QTL研究的出现,为如上的迷之尴尬提供了一个出口O(∩_∩)O~

如果一个基因的表达量收到一个遗传变异(SNP)的影响,那么这个SNP就叫做eQTL位点,也就意味着,若不同的人在这个SNP上基因型不同(如AA,Aa, aa),那么他们的基因的表达也会有差异。然后,如果这个基因的表达量对一个性状有影响的话,那么我们就会观察到不同的人具有不同的表型。那么我们就观察到了不同的基因型,具有不用的表型了。

GWAS的结果,告诉我们基因型和表型之间有相关,然后QTL的分析告诉我们基因型和表达之间有关系,那么如果我们能确定这个基因的表达和表型之间有关系,我们就把这个过程走通了,就找到了目标基因啦。

这就跟孟德尔随机化实验的思路非常相似。孟德尔随机化实验的思想是利用遗传变异(如一个SNP)作为一个工具变量,来研究暴露因素(如基因表达)和结果(如表型)之间的因果关系的方法,如下图(通过证明 1 和 2 来推导除3)


小编看到了另外一篇非常优秀的微信文章里面做了很好的解释,感兴趣的请移步【统计咨询:如何设计好的研究?孟德尔随机化!

但是,问题又来了,孟德尔随机化实验的统计效力与三个方面有关:

  • the variance in outcome explained by the exposure【结果所能被暴露因素解释的变异的多少】;

  • the variance in exposure explained by the instrument结果所能被遗传变异解释的变异的多少;

  • sample size 样本量

那么根据我们对人类复杂性状的了解,一个性状被一个SNP解释的变异数很小,一个SNP对基因表达的比例也很小,那么必须需要提供非常大的样本量了。而在实践过程中,研究某一表型的研究中既有基因型又有表达的数据,且样本量非常大的寥寥无几,怎么办怎么办?

虽然我们没有样本量大的同一个样本的数据,但是我们有样本量非常大的 summary-level 的数据啊,已经有很多可以从公共数据库下载的大样本的GWAS数据了【详见:GWAS Catlog】,QTL的数据也有【看来需要把已经有的QTL的数据整理整理发个文章了】哦,那么我们是不是可以利用起来呢。

啰嗦了那么多,终于要说重点啦,本文的方法,SMR便是这么设计的~且该文章的方法可以用来区分如下三种去情况: Causality, Pleiotropy, 和 Linkage

作者为了验证该模型的可靠性,便将这一方法用于对五个复杂性状的研究中,包括身高,BMI,BMI矫正后的腰臀比,类风湿性关节炎和精神分裂症,利用GWAS的结果和来自外周血的五千多人的样本得到的eQTL数据,来预测与这些性状的致病基因。

通过使用SMR得了了289个基因,然后使用HEIDI方法区分 pleiotropy和linkage,剩下了104个基因,在这104个基因中有22个是之前没有被报道的基因如表格所示。同时作者还进行了组织特异性的评估,相关功能的评估。

该文章于2016年三月发在Nature genetics上。

SMR方法使用可以参考网址上的教程:

http://cnsgenomics.com/software/smr/

作者:夏梦馨

封面图片:吴晓欣,摄于澳大利亚~拜伦湾

文章图片:截图于文献中



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存