查看原文
其他

【实用帖】手把手教你如何上传GEO数据库

       还在为不知如何上传GEO数据库而发愁吗?还在为不愿意看繁琐的英文帮助而不知所措吗?一篇帖子教你如何上传GEO数据库,建议收藏,再也不用愁“书到用时方恨少”了。


1

创建账号


        如果要上传GEO数据库,首先要创建NCBI帐号, 网址:

https://www.ncbi.nlm.nih.gov/geo/submitter/


登录成功后,回到GEO的主页,点击  Submission Guidelines

2

数据准备


GEO数据库支持上传芯片数据、高通量数据以及RT-PCR数据等,首先选择需要上传数据的类型,接下来以high-throughput sequence submisssions (高通量测序)为例进行详解。

点击进去如下图:

可以看见我们上传数据需要准备三个文件,分别为:Metadata spreadsheet、Processed data files、Raw data files。下面分别介绍每个文件如何填写以及准备。


01

Metadata spreadsheet文件





        点击下方链接下载该表格

        该表格一共包括7个部分,以下将分别介绍如何填写:


ASERIES


主要包含文章的标题、概述、实验整体设计、共同作者、补充材料和SAR号(SRA号为选填,如果已经上传了SRA,则填上,否则空着即可)

B
SAMPLE


样品的详细信息,包括样品名称、来源、器官、年龄、表达值数据和原始数据等



C
PROTOCOLS


样品的实验和提取建库详情

D
DATA PROCESSING PIPELINE


高通量数据的处理过程,主要包括碱基识别、比对、过滤、参考基因组、文件格式等


EPROCESSED DATA FILES

基因表达量文件名称、文件类型和MD5值(windows电脑可以使用MD5码生成软件,linux可以用md5sum file命令生成)

F
RAW FILES


原始数据文件名称、格式、MD5码、平台类型、测序读长和单双端信息

GPAIRED-ENDWEXPPERIMENTS


如果是双末端数据,需要填写原始数据名称、插入片段长度、标准偏差

02

Processed data files文件


     基因表达量文件 ,如果没有预测的新基因,文件只需要提供gene ID 和表达量如下:

如果表达量文件包含新预测的基因,还需要补充新基因(已知基因可选填)的Chromosome(染色体号)、Strand(正负链信息)、start(起始位置)、end(终止位置)、length(长度)。



03

Raw data files文件


这里需要准备clean 数据的fq文件,通常情况下fq文件很大,因此GEO数据库要求fq文件必须压缩。


到这里准备工作就全部做完了,下面开始上传数据



上传数据有以上两种途径,小编比较推荐第一种,利用FileZilla软件,下载地址点击图片的链接,打开FileZilla软件,开始上传数据,主机(H) 框填写上图中host对应的内容ftp-private.ncbi.nlm.nih.gov,用户名(U)填写geo,密码填写 33%9uyj_fCh?M16H,端口号可不填,全部填好后,点击快速连接按钮


连接成功后,在远程站点下的文件名展示中创建自己的文件,最好在fasp目录下面创建自己的目录(当然也可以与fasp目录同级下创建),例如ABC,创建方法为点击鼠标右键,会出现下图中的创建空文件夹对话框,输入自己文件夹的命名,之后点击确认,这样你的文件夹就创建成功了。



最后在本地站点中找到您要上传的文件,双击就可以将文件上传到您在GEO创建的路径下了,数据上传一般会比较慢。数据全部上传后,需要给GEO发邮件,点击下方的链接。


邮件内容可以参考下方:


邮件主题:Submitting high-throughput sequence data to GEO

邮件正文:

Dear sir,
             We had finished the raw data uploading .Please check according to the following  information :
GEO account username:  GEO帐号
Names of the directory and files deposited: ABC(存放数据的路径)
Public release date :数据释放日期
Our raw files were named as follows:
 XXX.fq.gz
Our Processed data files were named as follows:
 XXX.txt
and Metadata spreadsheet were named as follows: Metadata_spreadsheet.xls

  Thank you again for your time!


        一般GEO第二天就会给您回复邮件,告知您具体的GEO号。


MORE延伸阅读

◐◑ 文献下载圣经,哼哼叽里咕噜嗡嗡弥弥......

◐◑ 【干货分享】细胞信号通路研究全套资料下载料下载

◐◑ 【干货分享】《生信基础+主流编程(perl_linux_python_R等)+视频+科普读物》20G限时免费下载

◐◑ 【干货分享】《实验技术视频+实验原理+实验protocol+实验宝典》限时免费下载

◐◑ 【发福利啦】 免费领取直播听课券—测序数据挖掘系列

◐◑ 【干货分享】PubMed get新技能,直接显示影响因子,筛选高质量文献事半功倍!!!!



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存