使用ebi数据库直接下载fastq测序数据的改进脚本
昨天安排学徒分享了我们全国巡讲的生信爆款入门课大家关于下载fastq测序数据最常见的问题,就是ncbi的sra数据库访问慢,学徒写了一个shell脚本批量从ebi数据库下载,然后被吐槽比较难懂,而且不智能。我稍微改进一下:
其它sra数据库见;
在EBI数据库搜索自己感兴趣的文章的项目地址,然后选择就可以拿到全部fastq链接,如下:
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707733/SRR7707733_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707733/SRR7707733_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/004/SRR7707734/SRR7707734_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/004/SRR7707734/SRR7707734_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/005/SRR7707735/SRR7707735_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/005/SRR7707735/SRR7707735_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/006/SRR7707736/SRR7707736_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/006/SRR7707736/SRR7707736_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/007/SRR7707737/SRR7707737_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/007/SRR7707737/SRR7707737_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/008/SRR7707738/SRR7707738_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/008/SRR7707738/SRR7707738_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/009/SRR7707739/SRR7707739_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/009/SRR7707739/SRR7707739_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/000/SRR7707740/SRR7707740_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/000/SRR7707740/SRR7707740_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/001/SRR7707741/SRR7707741_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/001/SRR7707741/SRR7707741_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/002/SRR7707742/SRR7707742_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/002/SRR7707742/SRR7707742_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707743/SRR7707743_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707743/SRR7707743_2.fastq.gz
这个项目地址是:https://www.ebi.ac.uk/ena/data/search?query=PRJNA486533
首先使用conda安装aspera
conda create -n download
conda activate download
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
which ascp
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh
我们已经多次介绍过conda细节了,这里就不再赘述。
生信技能树B站软件安装视频
https://www.bilibili.com/video/av28836717
然后写出第一个aspera下载命令
关于aspera命令参数细节,大家自行搜索哦:
ascp -QT -l 300m -P33001 \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707743/SRR7707743_1.fastq.gz .
可以看到,就是把我们前面拿到的fastq的aspera链接不停的放在命令里面,就可以循环下载啦。
最后写批量的脚本
cat fq.txt |while read id
do
ascp -QT -l 300m -P33001 \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
era-fasp@$id .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &
得到的文件如下:
2.0G Feb 11 18:38 SRR7707733_1.fastq.gz
2.1G Feb 11 18:49 SRR7707733_2.fastq.gz
2.2G Feb 11 19:00 SRR7707734_1.fastq.gz
2.3G Feb 11 19:12 SRR7707734_2.fastq.gz
2.9G Feb 11 19:28 SRR7707735_1.fastq.gz
3.1G Feb 11 19:44 SRR7707735_2.fastq.gz
2.6G Feb 11 20:00 SRR7707736_1.fastq.gz
2.9G Feb 11 20:17 SRR7707736_2.fastq.gz
2.7G Feb 11 20:34 SRR7707737_1.fastq.gz
3.0G Feb 11 20:54 SRR7707737_2.fastq.gz
2.9G Feb 11 21:14 SRR7707738_1.fastq.gz
3.1G Feb 11 21:33 SRR7707738_2.fastq.gz
3.0G Feb 11 21:57 SRR7707739_1.fastq.gz
3.2G Feb 11 22:13 SRR7707739_2.fastq.gz
2.3G Feb 11 23:13 SRR7707740_1.fastq.gz
2.5G Feb 11 23:41 SRR7707740_2.fastq.gz
2.8G Feb 11 23:56 SRR7707741_1.fastq.gz
3.0G Feb 12 00:13 SRR7707741_2.fastq.gz
2.7G Feb 12 00:31 SRR7707742_1.fastq.gz
3.0G Feb 12 00:50 SRR7707742_2.fastq.gz
2.5G Feb 11 18:08 SRR7707743_1.fastq.gz
2.7G Feb 12 01:07 SRR7707743_2.fastq.gz
可以看到,下载速度还算ok啦,基本上是15-20分钟一个样本。
拿到fastq测序数据之后呢?
当然是走各种各样的NGS流程啦,同样是在B站有教学视频,全栈生信工程师的NGS组学技能
分别是4,5,6,7个小时的教学视频,主要是依托于我在生信技能树/生信菜鸟团过去五年举办的各种NGS组学线上教学经验,相关推文目录是:
lncRNA数据分析传送门 (2017-12-21)
450K甲基化芯片数据处理传送门 ( 2017-09-09)
ChIP-seq基础入门传送门 ( 2017-08-13)
转录组入门传送门 ( 2017-08-07)
如果你留心观察,可以看到近十万的生信工程师都是靠我的这些教学指引来掌握不同的NGS数据处理技术的。
当然了,大部分人不会直接写从我这里学习的,不过没关系哈,资料还是给大家。部分NGS组学讲义思维导图在:
学徒第一周:文档链接:https://mubu.com/doc/38tEycfrQg 密码:vl3q
学徒第二周:文档链接:https://mubu.com/doc/38y7pmgzLg 密码:p6fo
学徒第三周:文档链接:https://mubu.com/doc/1iDucLlG5g 密码:7uch
学徒第四周:文档链接:https://mubu.com/doc/11taEb9ZYg 密码:wk29
同样的,我也为每个组学视频课程,设置了练习题:
基本上每个过来我这边学习一个月以上的学徒我都会让他们学习多种组学(围绕着中心法则),而且有了Linux基础和R语言能力后, 跟着我们的视频教程很容易就学会基础流程,毫无压力。
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
全国巡讲全球听(买一得五) ,你的生物信息学入门课
生信技能树的2019年终总结 ,你的生物信息学成长宝藏