NCBI-SRA数据上传指南 | 云课堂(15)
一直关注联川公众号的小伙伴们都知道,联川云平台已于2018年12月6日正式上线( http://cloud.lc-bio.com:5390/index.html);
还没使用过的小伙伴,赶紧点开大显身手一番~使用指南详情请戳此链接:联川生物云平台使用指南;
联川云平台包含FAQ/SOP和云平台双重功能:丰富的FAQ/SOP,助你快速上手入门,更有详尽的分析技能小技巧等你来学习;云平台中包含科研中经常用到的分析绘图软件,可对实验数据进行统计分析、绘图等。
今天小编将与大家一起分享云平台里的NCBI-SRA数据上传指南,一起学起来吧~
SRA(Sequence Read Archive,之前称为Short Read Archive)是一个生物信息学数据库,为DNA测序数据提供公共储存库,特别是通过高通量测序生成的"short reads"(通常是小于1000碱基对长度的序列)。
今天给大家介绍SRA数据上传流程,该方法不但无需单独申请biosample和bioproject,而且再也不用担心没有服务器、上传慢的情况发生了。
1.注册NCBI账号(如果已有账号跳过该步骤,标星为必填信息):
注意:注册完成后,NCBI会给填写的邮箱发激活邮件(Activate your new NCBI account),注意查收并点击邮件中的网址进行激活。
2.点击NCBI-Submit,然后选择下图所示的Nucleotide Sequences(SRA),并点击GO进入:
3.点击New submission进入:
注意:只有邮箱激活才会出现New submission的入口。
4.输入您的信息(该步骤需要您填写的邮箱进行验证):
5.由于之前没有单独建biosample和bioproject,后续步骤需要新建,并根据需要自行选择数据释放的日期:
6.填写Bio Project信息(给您的实验取个名字并做出简要描述):
7.BioSample 类型(样本类型选择,参考下图选择,比如宏基因组/环境样本):
8.Biosample属性:
注意:选择excel文件或tsv文件下载,其中tsv格式的文件可用excel打开,按照每列的提示填写信息,每列表格都有固定格式,特别是organism列切记准确填写。(此外,在信息填写完成后,只支持tsv或者txt格式的文件上传,如果您下载的excel表格,填写完成后,需要另存为txt或tsv格式才能上传,粘贴填写内容的部分即可),具体的说明详见下图。出现warning不用管,可以继续上传。
9.SRA metadata此步骤为批量上传的关键:
具体的填写规则见下表的信息。Excel表格中填写好相应表格(包括未填写内容的Bioproject_accession也要粘贴进txt,最后的file3、file4则可不必)。
注意:filename是对应上传数据的文件名,后续上传的文件名字必须与此对应。上传文件支持tar,tar.gz,tgz,tar.bz2,taz2,gz等格式。
10.上传序列
这里许多老师可能会遇到数据量,上传速度慢,ftp中断的情况,这里提供几种上传的方式供选择:
(1)最简单的上传方法
如果您的样本少,数据量小,您可以直接选择通过网页上传。
注意:双端序列,需要将R1,R2两端序列均上传。
(2)最快速的方法
这里需要用到NCBI推荐的aspera软件,下载及用法见下图:
①点击 Sequence Read Archive(SRA)回到以下界面:
②点击Aspera browser plugin upload,下载并安装windows版本的Aspera软件以及Key file:
③把这些软件下载安装到windows下后,运行dos命令窗口:
④指令运行:
a.首先进入到Aspera安装路径,
b.运行命令行:
ascp -i 第二步下载的key文件(注意带上文件的目录) -QT -l100m(上传最大速度,这里设置的为100M,如果觉得太快或太慢,可适当调整) -k1 -d 数据存放的目录(目录一“\”结尾) subasp@upload.ncbi.nlm.nih.gov:uploads/lily@outlook.com_jZdRWIub(邮箱_生成的随机码)
注意:第二步中Aspera Command-Line upload有具体的命令行指令,以及需要上传的路径,只需要修改key文件路径和数据目录即可运行上传数据。此外,需要将所有的数据存放在一个目录下,最终的数据会上传至-d参数最后的文件夹命名的文件夹内,比如上图的代码中,数据自动传到以cleandata命名的文件夹内。
(3)服务器上传方法
如果您有服务器,可以在NCBI网页aspera下载linux版本,然后用命令行的方式进行数据上传,命令行的指令与上一步的一致。
注意:可以将指令写入shell脚本运行指令上传数据,而且NCBI支持断点上传,如果在上传过程中有部分文件上传失败,只需要重新运行shell脚本,它会自动跳过已经上传成功的数据,重新上传失败的数据。
至此,数据上传就完成了,您可以点击下图红框标出的按钮来选择需要使用的数据文件夹,然后点击Continue。
注意:此处只能选择一个文件夹,对于多个样品的数据上传,需要将所有的数据放进一个文件夹。
11. 上传信息核对,信息核对无误后,点击Submit上传:
12. 序列登录号获取:
所有步骤完成后,网页会自动跳转至 SRA界面,申请的相应提交进程处于 processing;根据不同的样本量需要等待 30分钟左右,待相应进程变为Processed后,可以查询序列登录号;其中SRP即最后需要登录号,意味着原始数据上传成功。
NCBI-SRA数据上传指南就分享完了,除了本教程联川云平台还有很多小技能供学习哦~下载本教程请至云平台:http://cloud.lc-bio.com:5390/faq/sop_detail.php?id=68或直接点击文末左下角“阅读原文”下载~
云平台目前只针对联川客户开放,注册需用正确的合同号进行注册哦,有多个合同的填写任意一个合同号即可。暂不能体验的小伙伴也别着急,随着平台的优化,也会逐步对全员开发的~注册链接如下:
http://cloud.lc-bio.com:5390/app/signin.html
也欢迎给位给我们的云平台留言、提建议
在大家的督促下,我们的云平台会越做越好
MEGA软件下载安装&序列处理&进化树绘制&Newick格式介绍
云课堂(8)|MetaboAnalyst使用教程-Enrichment Analysis模块
云课堂(9)|MetaboAnalyst使用教程-Pathway Analysis模块
云课堂(10) | MicrobiomeAnalyst在线绘图教程
云课堂(13) | 高通量测序数据NCBI GEO数据库上传指南