要发paper了,不会提交原始数据肿么办?
做高通量测序的老师大都会遇到这样的情况,申请标书或者发文章时,需要提前向 NCBI 提交序列获得登录号,但是,怎样把高通量测序的原始数据提交到SRA数据库却是一个令人头疼的问题。别担心,小编经过一番摸爬滚打终于自学成才,这就和大家分享一下经验心得,不要太感动哦~
NCBI数据库类型
NCBI 的 sequence data 包括 GenBank、Genomes(WGS)、 TSA、SRA、GEO,用于收录不同的测序类型数据。
测序数据需要提交到正确对应的数据库中:
1.测序原始数据
原始数据(raw data,通常包括Illumina平台产生的fastq文件、454平台产生的sff文件等),提交到SRA数据库;
可参考http://www.ncbi.nlm.nih.gov/books/NBK47529/。
2.测序分析数据
测序分析数据的提交步骤则比较繁琐。
meta测序分析数据,如微生物多样性16S/18S/ITS 测序的 OTU 序列,可提交 到GenBank 数据库。
详见http://www.ncbi.nlm.nih.gov/genbank/submit/。
基因组的组装结果和注释信息需要提交到 WGS 或者 Complete Genomes,而基因组草图 draft 只能提交到 WGS 数据库。
详见http://www.ncbi.nlm.nih.gov/genbank/genomesubmit 。
TSA 是收录转录组测序组装结果 EST 的数据库。
详见https://www.ncbi.nlm.nih.gov/genbank/tsaguide/。
表观遗传学等数据则需要提交到 GEO 数据库。
详见https://www.ncbi.nlm.nih.gov/geo/info/seq.html。
原始数据提交步骤
1.注册NCBI账号
没有NCBI账号的同鞋们,需要在登陆界面下方点击Register for an NCBI account进行注册后再登陆。
登陆网址:
2.建立BIOPROJECT和BIOSAMPLE
BIOPROJECT和BIOSAMPLE是用来描述研究背景、项目情况、样本属性及制备情况等信息的。下面我们来看一下如何创建BIOPROJECT和BIOSAMPLE。
建立BioProject
登陆https://submit.ncbi.nlm.nih.gov/subs/bioproject/,在界面上选择 new submission 填写项目描述信息建立账号。
依次填写SUBMITTER、PROJECT TYPE、TARGET、GENERAL INFO、BIOSAMPLE等信息。所有界面中都是带星号的为必填项,将鼠标放到每项后面的蓝色问号标识,会有该项描述,如下图。
小编之前上传的都是微生物多样性的原始数据,以此为例进行说明:
上面所示释放时间可以选择立即释放,或者选定一个特定的释放时期,最长可以选择延时四年释放。如果中途需要修改释放时间,可以写信给 NCBI 要求修改。
后面BIOSAMPLE和PUBLICATIONS两个界面可以不写相关信息,都直接点Continue,进入OVERVIEW界面。如果有问题可返回修改,没问题的话即可点击submit提交。
完成后会有一个BioProject 登陆号,以PRJNA 开头命名。发表paper时主要是这个信息,当然也可以把BioSample登陆号一并说明。
建立BioSample
登陆https://submit.ncbi.nlm.nih.gov/subs/biosample/,在界面选择 new submission。
GENERAL INFO界面需要确定是单个还是多个BioSample:Single BioSample即只有一个组或一类样本;Multiple BioSample即有多个分组或分类,将一组内多个样本在样本信息表格中作为一个样品填写。当然如果不怕麻烦,可以把所测样本每一个都分开填写在表格中。下面以Multi BioSample进行展示。
点击Download Excel后填写下表相关信息。
Excel表格中有详细的填写要求,带*号的绿色部分是必填的。如果不知道信息需要写 'not collected', 'not applicable' 或者'missing',不能空白,否则不符合要求。鼠标放在每一个表头字段上会有提示出现,严格按照所要求的格式填写,如下所示:
按照表格中要求将其另存:'File, Save as, Save as type: Text (Tab-delimited)',制表符分隔文件,或者直接把全部内容选中粘贴到空白txt文件中保存。非txt文件不能识别。
COMMENTS界面不用填写,最后在OVERVIEW界面点击Submit提交,会生成BioSample登陆号,以SAMN开头。
3.建立EXPERIMEN上传数据
登陆http://www.ncbi.nlm.nih.gov/Traces/sra_sub/sub.cgi,选择 NCBI PDA入口,填写个人信息后,点击 create new submission。
注:Alias只是临时命名,完成后不会显示,且这里的数据释放时间最多只能延迟一年。
保存后点击New Experiment,创建Experiment。一个submission ID 下可以添加多个 experiment。这些experiment中的BioProject 都写之前申请的PRJNA号,另外每个Biosample对应一个Experiment。
填写我们前面申请到的 BioProject 号和 BioSample 号。如下图所示。Layout 选项中,如果是illumina 系统测序机型的双端测序模式选择paired,454 测序的单端测序模式选择 fragment。
填写完成Experimen信息点击Save后,点击New Run创建Run,我们会得到相应SRX和SRP号。填写原始数据文件格式,文件名和MD5值,见下图。注:文件名后面必须写上后缀,如*****.fq等,否则不能识别上传到SRA的原始数据。压缩文件只能是 .gz 和 .bz2格式。MD5值通常由测序公司提供,MD5值是要上传数据的识别码,需要与所上传的原始数据相对应,否则也不能识别。
最后一步:需要用FTP将本地原始数据拖拽到右侧SRA数据库,
Address: ftp-private.ncbi.nlm.nih.gov; Login: sra; Password:Qrjo6iJ4
Files一列显示为done的是被识别的,而waiting for files的则是没有被识别的。当所有的都显示都显示done即大功告成!
开课时间:05月17日 (周二)15:00-17:00
课程内容:
1.从现代测序技术的发展、转录组研究内容的进展、现状出发,探讨未来的研究趋势;
2. 新技术全长转录组、环状RNA的技术流程、应用策略及经典文章案例解读;
3. 5大联合分析组合及具体应用介绍,从应用水平介绍利用高通量测序对动植物生长发育、环境适应及疾病免疫的作用机制。
师资情况:
金牌讲师:康巧林
北京百迈客生物科技RNA线技术总监,多年的转录调控研究经验。
报名地址:
https://ke.qq.com/course/132589#term_id=100148176 (点击阅读原文即可一键报名)
欢迎老师加入百迈客转录调控培训群 (391526617)进行相关问题咨询。
长按识别指纹加关注哦