什么是GEO??
NCBI的基因表达数据库(Gene Expression Omnibus,GEO)是公共功能基因组数据存储库,是当今最大、最全面的公共基因表达数据资源。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个资料库中找到。关键是这个数据是免费的哦。而且数据量持续上升。根据GEO的主页,2017年9月的统计对比2016年8月2日的统计,所包含的数据量继续有着恐怖地持续增长。
建立GEO数据库的主要目的
提供一个功能强大,功能多样的主要数据存档数据库,可以有效地存储各种高通量功能基因组数据集。
提供简单的提交程序和格式,支持来自研究界的完整和标注良好的数据存储。
提供用户友好的机制,允许用户查找,审查和下载研究和感兴趣的基因表达谱。
如何登陆GEO网页
直接通过主页登陆,简单粗暴。 http://www.ncbi.nlm.nih.gov/geo
资料库检索页面介绍
GEO资料库介面主要包括检索框、检索结果列表、检索结果限定选项、检索记录信息,等
导入数据库(Entry type)主要类型为:datasets、series、samples和platforms,可根据自己实验目来具体选择。
研究数据类型 (Study type)包括DNA、mRNA、SNP、甲基化等等,在检索时就要结合自己的实验设计,选择相应的检测类型。
限定层次类型 (Attribute name):我们也可以查找某一层面基因表达的数据,包括组织,细胞等等。
GEO搜索页面的基本信息和下载GEO数据
重头戏来了,现在我会手把手教你如何在GEO数据中下载你想要的数据。 我会以生信菜鸟团最近开展的CHIP-seq中的数据为例,教你如何下载原始数据。
文章是:RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells
https://www.ncbi.nlm.nih.gov/pubmed/23273917
首先阅读文章,找到这篇文章中所用数据对应的GEO中的编码:GSE42466
输入编码,跳转到所对应的页面。https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42466
下面是这个页面的一些基本信息。
数据基本信息:
样本信息:
原始数据及结果数据下载及查询
如果是芯片数据,那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息,才能利用好别人的数据。
如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据,自己做处理!
具体下载步骤
在这里我引用在生信菜鸟图论坛上一位朋友些的python script 来下载对应的初始数据。
用法:python3 SRR_downloader.py GSE81916(对应的GEO accession number)
import re
from urllib.request import urlopen
import os
def main(geo):
# find the FTP address from https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GEO
response = urlopen("https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc={}".format(geo))
pattern = re.compile("<a href=\"ftp://ftp-trace(.*?)\">\(ftp\)</a>")
# use wget from shell to download SRA data
ftp_address = re.search(pattern, response.read().decode('utf-8')).group(1)
os.system(' wget -nd -r 1 -A *.sra ' + 'ftp://ftp-trace' + ftp_address)
if __name__ == '__main__':
from sys import argv
main(argv[1])
当然这也只是其中一种下载方法,我们也可以通过观察初始数据储存的特点,自己编写简单的程序下载所有的数据:
for ((i=204;i<=209;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra;done
文章引用
http://www.bio-info-trainee.com/1835.html#more-1835
http://www.bio-info-trainee.com/2257.html
https://www.ncbi.nlm.nih.gov/books/NBK159736/
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。