查看原文
其他

小哈 2018-06-02

把RBP跟表型、疾病联系起来 | 研究转录后调控,用清华鲁志的POSTAR一文推荐的POSTAR,能查询到跟某个RNA结合的RBP上的SNP,意犹未尽。我还想看某个基因有哪些SNP,基因型、基因表达跟疾病有什么联系。


先搞清楚Gene、SNP、eQTL的关系。

https://www.researchgate.net/post/How_are_SNPs_eQTLs_and_genes_related


eQTL不只是SNP,还有insertion、deletion。



本文内容预告:


  • 去哪查基因的eQTL?GTEx项目介绍

  • 怎样用GTEx数据?用GTExPortal在线查询、R包recount2的用法视频

  • enhancing GTEx:挖掘genotype、gene expression、disease的关系





哪里有基因的eQTL信息呢?


分析基因表达跟基因型的关系,要用到上个月朋友圈刷屏的GTEx项目:4篇Nature齐发,旨在全面破解基因调控密码    ——BioArt


GTEx收集了来自960个人,超过2万samples(今年4月GTEx会议Conclusion里的数据),53种tissue;做RNA-seq;鉴定了673个trans-eQTLs at 10% genome-wide FDR(出自Lior Pachter的blog)。POSTAR也整合了GTEx数据





访问dbGaP,签订协议后,就可以下载GTEx数据

https://www.ncbi.nlm.nih.gov/gap



GTEx的RNA-seq是用怎样的流程处理的


GTEx的pipeline已上传到Github:

https://github.com/broadinstitute/gtex-pipeline/tree/master/rnaseq






怎样用GTEx研究我的基因?


有工具:

  • 在线查询

  • R包recount2


在线工具:GTExPortal


https://www.gtexportal.org/home/


界面人性化,要搜什么,一目了然,用法不要太简单



例如,搜TP53有哪些eQTL,在哪个组织中检测出来


TP53有哪些eGene (Genes with a significant eQTL)


在IGV里查看附近eQTL分布情况




R包recount2


来自useR! International R User 2017 Conference的recount2介绍视频,由这篇Nature Biotechnology的第三作者讲述。



https://v.qq.com/txp/iframe/player.html?vid=o0565irfw70&width=500&height=375&auto=0


下面转载生信技能树对GTEx和recount2的介绍:不测基因组也能推测你的身高体重等表型    ——韩悠阳 

通过表型预测提高公共RNA-seq表达数据的价值

TCGA是于2005年启动的通过基因组测序和生物信息学涵盖与癌症响应的基因突变的计划。TCGA引用了高通量基因组测序技术来提高对癌症的基因基础的理解来提升诊断、处理和预防癌症的能力。

GTEx是基因型-组织表达研究联盟,主要是通过血液淋巴母细胞系的研究以及容易获取的组织(例如脂肪或皮肤)的离体研究,来了解人类基因表达的遗传学机制。

SRA是一个生物信息学数据库,能够提供公开的DNA测序数据,尤其是高通量测序得到的1000个碱基对以内长度的短序列。


Rail-RNA是作者团队之前建立的基于云计算的能够一次性切割的比对器。

亮点:

  1. 作者使用三个数据库中的数据进行机器学习训练,分析准确率后,证实了训练得到的预测器进行标记后的表型数据能够进一步被研究过程所利用。

  2. (预测的表型是用R包phenopredict生成的,可以用recount中的add_predictions()函数进行调用。)

  3. 预测器已经标记过在recount2包中的样本数据,可以随时调用,有助于recount2包中的数据在进一步研究中发现新的研究方向。


方法:

  1. 作者选择了全部的表达区域,正则化后组成涵盖矩阵

  2. 而后选择GTEx作为基础训练集,如有缺失用SRA补足

  3. 用以上两个数据集的其他标记好的数据做测试集、用TCGA数据做测试集、用剩余的两个数据集的数据做测试集

  4. 计算预测器的准确度

被标注后的数据已经被作者包括在recount2包中,可以随时调用


摘要

背景:可公开获取的基因组数据是研究正常人类变异和疾病的宝贵资源,但是这些数据并没有被很好的标记或者注释。这些可公开获取数据的表型信息的缺失严重影响了在处理生物学问题研究上的利用。

结果:我们开发了一种在计算机上(in silico,在计算机上)进行表型鉴定的方式来预测关键注释的缺失,直接使用全基因组测量、良好注释的基因组和表行数据,这些都来自于数据联盟比如TCGA和GTEx作为训练集。我们应用70000个RNA-seq样本的在机的表型观察数据,这些数据是我们最近实施的recount2计划中一部分的普通Pipeline方法得到的。

我们通过基因表达数据来建立和评价对于生物表型(性别、组织、样本源)和实验条件(测序策略)的预测器。我们证明这些预测能够被用来研究跨样本性质的公共基因组数据,选择有特殊性质的基因组计划,并通过预测表型展开下游分析。

进行表型预测的方法可以通过R语言中的phenopredict包(https://github.com/leekgroup/phenopredict)和用recount2包(https://bioconductor.org/packages/release/bioc/ html/recount.html)可以在网址获得。

结论:对大量公共数据集施加影响而生成的超过70000个人类样本的表型标记完好的表达数据后,表达数据能够用以一个此前无法使用的规模上。

只需要转录组数据就可以预测表型,不一定需要基因组数据,可以大大提高公共数据的利用率!

关注生信技能树公众号查看更多相关文章:菜鸟团OR技能树




接下来,启动了eGTEx项目,把GTEx跟ENCODE数据结合起来挖掘。




eGTEx要搞什么事情?


eGTEx,即enhancing GTEx,相当于GTEx项目的延伸,要建立基因型、基因表达和疾病的联系。整合分析以下各层面的数据:



涉及多个层面的调控:


  • 染色质开放区:DNase-seq

  • 组蛋白修饰:ChIP-seq

  • DNA甲基化:WGBS

  • 等位基因特异表达:mmPCR-seq

  • 转录后RNA修饰:m6A-seq

  • 蛋白质组:MS、targeted array

  • 体细胞变异:Exome-seq、RNA-seq、SNP array

  • 端粒长度:液相蛋白芯片。



GTEx为研究genetics、DNA expression、illness关系的机制带来曙光


  • 有助于糖尿病、心血管疾病、癌症、自闭症的研究和个体化用药

  • 有助于DNA结构和功能的研究



Manolis Kellis近几年也在做这个事,MIT理工男Manolis Kellis讲基因、疾病与治疗 |  TEDx视频




本文是不是也开启了你的思路?


如果您产生了idea,自己没空实现,就找嘉因生物帮您解决吧




GTEx发表了那么多篇paper,引用GTEx数据时,该引哪篇


Lior Pachter写了blog专门论述了这件事,点击左下角”阅读原文“直达。






感谢GTEx项目中tissue的捐献者及其家人。




想用ChIP-seqATAC-seq研究感兴趣的基因?想整合ChIP-seq、ATAC-seq、eCLIP-seq、RNA-seq数据寻找线索?找嘉因生物吧!从实验、测序,到多种数据整合分析,为您一站式解决。(点击文中蓝字了解详情)




关注“嘉因生物”公众号,点击菜单栏的“技术贴”,浏览转录调控干货。


嘉因生物公众号定位:客户共性问题解答,生信学习资源导航,高通量实验导购 | 为您提供高通量实验-测序-分析-验证一站式解决方案


电话:021-61539657

Email:marketing@rainbow-genome.com
地址:上海市杨浦区赤峰路65号同济科技园1号楼611室

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存