查看原文
其他

lakeseafly 2018-06-04

什么是GEO??

NCBI的基因表达数据库(Gene Expression Omnibus,GEO)是公共功能基因组数据存储库,是当今最大、最全面的公共基因表达数据资源。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个资料库中找到。关键是这个数据是免费的哦。而且数据量持续上升。根据GEO的主页,2017年9月的统计对比2016年8月2日的统计,所包含的数据量继续有着恐怖地持续增长。 

建立GEO数据库的主要目的

  1. 提供一个功能强大,功能多样的主要数据存档数据库,可以有效地存储各种高通量功能基因组数据集。

  2. 提供简单的提交程序和格式,支持来自研究界的完整和标注良好的数据存储。

  3. 提供用户友好的机制,允许用户查找,审查和下载研究和感兴趣的基因表达谱。

如何登陆GEO网页

直接通过主页登陆,简单粗暴。 http://www.ncbi.nlm.nih.gov/geo

资料库检索页面介绍

GEO资料库介面主要包括检索框、检索结果列表、检索结果限定选项、检索记录信息,等

  1. 导入数据库(Entry type)主要类型为:datasets、series、samples和platforms,可根据自己实验目来具体选择。

  2. 研究数据类型 (Study type)包括DNA、mRNA、SNP、甲基化等等,在检索时就要结合自己的实验设计,选择相应的检测类型。

  3. 限定层次类型 (Attribute name):我们也可以查找某一层面基因表达的数据,包括组织,细胞等等。

GEO搜索页面的基本信息和下载GEO数据

重头戏来了,现在我会手把手教你如何在GEO数据中下载你想要的数据。 我会以生信菜鸟团最近开展的CHIP-seq中的数据为例,教你如何下载原始数据。

文章是:RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells
https://www.ncbi.nlm.nih.gov/pubmed/23273917

  1. 首先阅读文章,找到这篇文章中所用数据对应的GEO中的编码:GSE42466

  2. 输入编码,跳转到所对应的页面。https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42466

  3. 下面是这个页面的一些基本信息。

数据基本信息: 

样本信息:

原始数据及结果数据下载及查询

如果是芯片数据,那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息,才能利用好别人的数据。

如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据,自己做处理!

具体下载步骤

在这里我引用在生信菜鸟图论坛上一位朋友些的python script 来下载对应的初始数据。

用法:python3 SRR_downloader.py GSE81916(对应的GEO accession number)

import re from urllib.request import urlopen import os def main(geo): # find the FTP address from https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GEO    response = urlopen("https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc={}".format(geo))    pattern = re.compile("<a href=\"ftp://ftp-trace(.*?)\">\(ftp\)</a>")    # use wget from shell to download SRA data    ftp_address = re.search(pattern, response.read().decode('utf-8')).group(1)    os.system(' wget -nd -r 1 -A *.sra ' + 'ftp://ftp-trace' + ftp_address) if __name__ == '__main__':    from sys import argv    main(argv[1])

当然这也只是其中一种下载方法,我们也可以通过观察初始数据储存的特点,自己编写简单的程序下载所有的数据:

for ((i=204;i<=209;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra;done

文章引用

  1. http://www.bio-info-trainee.com/1835.html#more-1835

  2. http://www.bio-info-trainee.com/2257.html

  3. https://www.ncbi.nlm.nih.gov/books/NBK159736/


还有更多文章,请移步公众号阅读

如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。






    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存