查看原文
其他

GEO数据库介绍与数据检索

莫北 SCIPainter 2023-12-20

点击蓝字 关注我们


GEO(Gene Expression Omnibus)是NCBI的一个子数据库,主要存放基因芯片和二代测序产生的基因表达谱数据。大家可以将自己的数据上传到GEO数据库也可以直接查看或下载GEO上别人已公开的数据。

如何找到GEO数据库呢?我们只需在NCBI首页左侧导航栏点击Genes&Expression即可找到基因表达相关的子数据库。


NCBI网址:
https://ncbi.nlm.nih.gov/

但是在查询结果中,我们可以发现与GEO相关的条目共有3条,对应的关键词分别是“Database”“Dataset” “Profiles”。那么,查找数据时究竟要看哪个呢?这三者之间有什么区别呢?


其实,第一条结果对应的是GEO数据库的首页,如下图,GEO数据库的首页主要可分为4个版块。


版块对应的是GEO数据库相关的使用教程,例如我们可以点击相应的链接查看Dataset、Profiles、GEO2R的说明文档;版块对应GEO数据库相关的各种小工具;版块对应GEO数据库目前现有的数据量,如当前包含数据集(Series)173,572个(其中经过GEO工作人员精心挑选的Datasets有4,348个),样本5,004,163个;版块对应的是GEO数据库数据上传相关的说明信息。

至于上面提到的 “Dataset” “Profiles”链接,我们可以将它们看作GEO数据库的两个数据组织方式各不相同的子数据库,在NCBI首页的Databases选择列表中我们也可以看到它们,如下图。


GEO数据库的数据主要由Platform(平台)、Samples(样本)和Series(系列)三个层级组成。三者相互交叉链接,我们一般只需到Series层级对应的页面下载表达谱数据即可。

Series主要记录当前数据集包含的所有样本基因表达量信息,是我们查看和下载数据的“主页”。而Samples主要记录单个样本的表达量信息,可以视作Series层级下的子层级。

Platform则主要记录数据获取平台对应的信息,如基因表达芯片、二代测序平台的信息等。当我们下载的数据集是芯片数据,我们可以下载对应的GPL文件,获取探针id与gene id(如symbol号)的一一对应关系表。但如果是二代测序数据,就没必要深入探究了。

我们查找数据时,只需在GEO Datasets数据库搜索关键词即可,比如我这里搜索“breast cancer”相关的数据集,如下图。如果使用多个关键词进行条件限定,可以用单词AND联接。


当然,在查找结果页面中,我们也可以在版块①②中进一步过滤查询结果,也可以在版块中修改检索式,进一步搜索数据,如下图。


而在海量的Series数据集中,有一部分(主要是芯片数据)是由GEO工作人员挑选出来处理过的数据集,分别以“Dataset” “Profiles”两种方式存放数据。在版块中点击DataSets即可得到这部分数据(155个),如下图。Dataset数据集的特点是每条记录的右侧有一个热图。


在每条记录的下方有PubMed、Full text in PMC、Similar studies、GEO Profiles 以及Analyze DataSet共5个链接,点击Analyze DataSet(或者右侧的热图)可进入当前数据集的分析页面,如下图。


而点击GEO Profiles则可以进入当前数据集对应的Profiles页面,每一条记录对应一个基因在不同样本(这里共12个样本)的表达情况,以柱状图的形式展示,如下图。


对于非“Dataset”数据,点击查找记录标题进入Series页面后即可查看和下载数据,如下。


好啦,今天的分享就到这里啦!

参考资料
https://ncbi.nlm.nih.gov/geo/info/overview.html

# SCIPainter

基迪奥旗下绘图公众号

分享科研绘图技能与工具

欢迎关注与转发~


你的好友拍了拍你

并请你帮她点一下“分享”~


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存