查看原文
其他

小丫 2018-06-02

non-coding区域的SNP有什么生物学意义?


问题1:全基因组测序或GWAS获得的很多变异位点位于non-coding区域,它跟表型的关系是怎样的?


或者,我想从转录调控机制入手,我关心的是SNP对基因转录调控的影响,该怎样分析呢?



问题2:GWAS发现的变异位点本身可能并不能导致疾病,它附近可能存在一个high LD位点,那才是致病原因。


或者:我查的SNP没影响转录调控,这样就结束了吗?还可以继续努力,有可能它旁边的SNP才是Mr. Right,怎样找到这个Mr. Right呢?



上期回答了第1个问题:

变异会影响转录?SNP影响转录因子结合?RegulomeDB


本期介绍HaploReg,既能回答问题1,又能回答问题2。






上期送出的2016年ENCODE会议视频对RegulomeDB和HaploReg的介绍太简略,翻出2015年的ENCODE会议视频,小美女非常详细的讲了用RegulomeDB和HaploReg注释变异的操作步骤,最后还留了三道练习题。


由University of Massachusetts Medical School翁志萍Lab的Jill E. Moore讲解

扩展阅读:ENCODE介绍视频 | 由ENCODE成员翁志萍教授亲自讲解


https://v.qq.com/txp/iframe/player.html?vid=r05270i17sp&width=500&height=375&auto=0

前8分钟演示RegulomeDB,8分14秒开始演示HaploReg的用法



HaploReg地址:

http://www.broadinstitute.org/mammals/haploreg/haploreg.php 


HaploReg既能回答问题1,也能回答问题2。


先来回答问题1,跟RegulomeDB对比着看。


例如rs2637839,在RegulomeDB里score为5,很少证据支持它影响转录因子结合。



只找到IK-2的motif和开放染色质信号,ChromHMM认为这里是转录静止状态。





再去HaploReg里查这个SNP rs2637839,对比两个工具的结果。




dbSNP ID标红色的是它自己,有promoter和enhancer的组蛋白修饰、开放染色质信号、Ik-2的motif、有eQTL,位于FXYD3的intron。



跟RegulomeDB比起来,有更多的证据支持rs2637839影响转录。尤其是HaploReg有eQTL证据,而RegulomeDB没找到eQTL证据。


对比两个工具的数据来源,发现HaploReg的eQTL除了收录GTEx analysis V6以外,还有EBI的GEUVADIS analysis和其他10个研究的结果。PWM来源也比RegulomeDB多。多了conserved regions,少了差异甲基化区域。


具体的注释异同看这两个页面:http://archive.broadinstitute.org/mammals/haploreg/documentation_v4.1.html

http://www.regulomedb.org/help



扩展阅读:






点击rs2637839查看详情。把dbSNP中的重要信息整理成了表格,RegulomeDB里的图和列表,在HaploReg里都整理成了汇总表。




上面回答了问题1。





下面回答问题2.


回到这个图,搜索rs2637839的同时找到好多high LD的SNP,认为它们跟rs2637839是连锁的。


为什么要找high LD的SNP位点呢?


GWAS里看到跟表型高度相关的SNP位点不一定就是那个因,有可能high LD位点才是因。落实到这个例子,在Protein bound列,发现high LD位点rs4835,rs1672975,rs3833291有多个蛋白结合证据,推测可能是这些SNP影响AP2ALPHA、AP2GAMMA、INI1、ELF1、ZNF263等转录因子的结合,进而影响下游基因的转录。





默认r2>0.8,在Option里可以设置,注意第二行人种的选择:



扩展阅读:

连锁不平衡的计算——上海元莘生物

连锁不平衡文章常用图——源宜基因






最后还有三道练习题:





回复HaploReg,查看ppt和三道练习题的答案。




点击“阅读原文”直达技术贴目录。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存