查看原文
其他

小丫 2018-06-02


前面三期铺垫了DNA测序的三种方法的优缺点、高性价比的设计实验、质量问题的原因,以及各种找变异位点的工具的优缺点,讲的都是经验和comment。如果想跟着案例一步一步模仿,请移步生信技能树





终于可以切入我最想解决的问题了:


“变异会影响基因转录调控吗?”




问题的提出



问题1:GWAS获得的很多变异位点位于non-coding区域,它跟表型的关系是怎样的?


或者,我想从转录调控机制入手,我关心的是SNP对基因转录调控的影响,该怎样分析呢?



问题2:GWAS发现的变异位点本身可能并不能导致疾病,它附近可能存在一个high linkage disequilibrium(LD)位点,那才是致病原因。


或者:我查的SNP没影响转录调控,这样就结束了吗?还可以继续努力,有可能它旁边的SNP才是Mr. Right,怎样找到这个Mr. Right呢?


本期回答问题1,下期回答问题2。




方  法


Stanford University的Synder Lab的Collin Melton在2016年ENCODE会议上介绍了这个问题的研究策略:用ENCODE数据给变异做注释。


Variant Annotation using ENCODE Data: An Introduction to RegulomeDB and HaploReg 

https://v.qq.com/txp/iframe/player.html?vid=o05053xp8w6&width=500&height=375&auto=0

回复regulomeDB获得ppt。



推荐了两个变异注释工具:


RegulomeDB, created by the Synder and Cherry Labs in 2012

http://www.regulomedb.org/

https://github.com/aboyle/RegulomeDB-Tools 



HaploReg,出自Kellis lab。还记得Kellis吗?MIT理工男Manolis Kellis讲基因、疾病与治疗 |  TEDx视频

http://www.broadinstitute.org/mammals/haploreg/haploreg.php 


本期视频只介绍了RegulomeDB的用法,下期回答问题2时详细介绍HaploReg的用法。



告诉它你感兴趣的位点,它就告诉你这个位点的变异有没有影响转录因子结合,有没有影响基因表达。







原  理


从因果两个层面找证据,分析您的变异位点是否会影响基因转录。


转录调控是原因:如果基因上游调控区发生变异就可能影响基因的转录激活。例如motif的变异导致TF无法结合,那么原本由该TF激活转录的靶基因无法正常转录,可能会导致肿瘤或遗传疾病发生。


基因表达水平是结果:从eQTL数据能看到SNP造成的结果,即基因的变异导致附近基因转录水平的变化。






为了最全面的从因果两方面注释您的变异位点,RegulomeDB收集了各个层面的调控数据,编译自http://www.regulomedb.org/help:


  1. 转录因子的ChIP-seq,以ENCODE项目产生的为主、还包括一些非ENCODE项目产生的、以及ChIP-exo(最精准的ChIP-seq)数据;

  2. 组蛋白修饰的ChIP-seq,只用了Roadmap的数据,Roadmap Epigenomics Mapping Consortium(REMC);

  3. 开放染色质,用了ENCODE的DNase-seq;

  4. 用motif预测转录因子结合位点,包括TRANSFAC、Jaspar、UniPROBE和Jolma 2013年Cell paper里的PWMs;

  5. 差异甲基化区域,用Synder 2014年Nat Biotechnology paper里的;

    1-5是因,6是果

  6. eQTLs、dsQTL,包括如下组织:Cerebellum、Cortex、Fibroblasts、Frontal-Cortex、Liver、Lymphoblastoid、Monocytes、Pons、T-cells、Temporal-Cortex







怎样评价


根据上述证据设置score。TF结合是因,表达量变化是果。只有观察到SNP位点影响了基因转录水平的表达量变化,才给它更好的score,1开头。如果没有eQTL证据支持,就是以2开头。





举个例子


界面简单得不能再简单



识别多种输入格式:dbSNP ID、bed、VCF、GFF3或chr#:min_coord..max_coord。


例如,E2F1上下游区域,chr20:33,627,434-33,734,653,点击Submit。找到495个SNP,按照Score排序,rs1033799的score最高,点击1d




位点、结论和证据都反映在这张图上





后面是详细信息:



  • K562细胞系的CEBPB、RCOR1、TAL1 ChIP-seq在这个位置有peak,说明CEBPB、RCOR1、TAL1结合在这个SNP附近;

  • 出现了Zbtb12的motif,推测Zbtb12有可能结合;

  • 有一个eQTL,在单核细胞Monocytes里影响了ITGB4BP的表达量;

  • 在K562里看到DNase信号,说明这个位置是开放的,可能有调控蛋白结合;

  • 组蛋白修饰说明在Blood & T cell、B cell等细胞里是转录活跃的,而在ESC和iPSC里活跃程度低。


总结,SNP位点rs1033799很可能影响转录因子的结合,并影响靶基因的表达水平。




点击“阅读原文”直达技术贴目录。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存