文献&工具 | 整合GWAS和QTL预测复杂性状的靶基因 | SMR | 自由微信

文献&工具 | 整合GWAS和QTL预测复杂性状的靶基因 | SMR

原创 2017-07-20 夏梦馨 ActionFree

前言

GWAS十年鉴定了数千疾病和复杂性状相关的遗传变异，然而哪些基因是致病基因在很大程度上是未知的。本文介绍的是一种基于孟德尔随机化实验的思想而设计的工具——SMR（Summary data-based Mendelian randomization analysis）

迷之尴尬

GWAS研究投入了大量的人力物力和财力，得到了数量众多的疾病/复杂性状相关的位点，而具体是哪些基因或DNA元件在疾病的发生发展中起作用仍未知。

原因：

在SNP和致病突变之间复杂的连锁不平衡
统计上的抽样误差

探索历程

有些人就提出了在信号最显著的位点附近的基因更可能是致病基因~

不幸的是，因为缺乏对GWAS研究结果的全面的功能研究，这个假设并没有被证实。

而最近的研究却发现，致病基因可能并不是最近的那个基因，如肥胖基因FTO对IRX和IR5的远程调控。

QTL研究的出现，为如上的迷之尴尬提供了一个出口O(∩_∩)O~

如果一个基因的表达量收到一个遗传变异（SNP）的影响，那么这个SNP就叫做eQTL位点，也就意味着，若不同的人在这个SNP上基因型不同（如AA，Aa, aa），那么他们的基因的表达也会有差异。然后，如果这个基因的表达量对一个性状有影响的话，那么我们就会观察到不同的人具有不同的表型。那么我们就观察到了不同的基因型，具有不用的表型了。

GWAS的结果，告诉我们基因型和表型之间有相关，然后ＱＴＬ的分析告诉我们基因型和表达之间有关系，那么如果我们能确定这个基因的表达和表型之间有关系，我们就把这个过程走通了，就找到了目标基因啦。

这就跟孟德尔随机化实验的思路非常相似。孟德尔随机化实验的思想是利用遗传变异（如一个ＳＮＰ）作为一个工具变量，来研究暴露因素（如基因表达）和结果（如表型）之间的因果关系的方法，如下图（通过证明 1 和 2 来推导除3）

小编看到了另外一篇非常优秀的微信文章里面做了很好的解释，感兴趣的请移步【统计咨询：如何设计好的研究？孟德尔随机化！】

但是，问题又来了，孟德尔随机化实验的统计效力与三个方面有关：

the variance in outcome explained by the exposure【结果所能被暴露因素解释的变异的多少】；
the variance in exposure explained by the instrument结果所能被遗传变异解释的变异的多少；
sample size 样本量

那么根据我们对人类复杂性状的了解，一个性状被一个SNP解释的变异数很小，一个SNP对基因表达的比例也很小，那么必须需要提供非常大的样本量了。而在实践过程中，研究某一表型的研究中既有基因型又有表达的数据，且样本量非常大的寥寥无几，怎么办怎么办？

虽然我们没有样本量大的同一个样本的数据，但是我们有样本量非常大的 summary-level 的数据啊，已经有很多可以从公共数据库下载的大样本的GWAS数据了【详见：GWAS Catlog】，QTL的数据也有【看来需要把已经有的QTL的数据整理整理发个文章了】哦，那么我们是不是可以利用起来呢。

啰嗦了那么多，终于要说重点啦，本文的方法，SMR便是这么设计的~且该文章的方法可以用来区分如下三种去情况： Causality, Pleiotropy, 和 Linkage

作者为了验证该模型的可靠性，便将这一方法用于对五个复杂性状的研究中，包括身高，BMI，BMI矫正后的腰臀比，类风湿性关节炎和精神分裂症，利用GWAS的结果和来自外周血的五千多人的样本得到的eQTL数据，来预测与这些性状的致病基因。

通过使用SMR得了了289个基因，然后使用HEIDI方法区分 pleiotropy和linkage，剩下了104个基因，在这104个基因中有22个是之前没有被报道的基因如表格所示。同时作者还进行了组织特异性的评估，相关功能的评估。

该文章于2016年三月发在Nature genetics上。

SMR方法使用可以参考网址上的教程：

http://cnsgenomics.com/software/smr/

作者：夏梦馨

封面图片：吴晓欣，摄于澳大利亚~拜伦湾

文章图片：截图于文献中

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间