其他
听说aspera下载会失败,我也解决不了啊
在国内做数据分析本来就不容易,SRA数据库自带的prefetch基本上是形如虚设,下载速度比乌龟快一点点,所以不得不求助IBM的aspera加速器。这也是我们每次授课都会介绍的各种国内科研数据处理专用小技巧
首先下载软件
老规矩,conda解决一切依赖
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
然后prefetch下载数据
/SRR5907429prefetch SRR5907429
可以看到速度很可怜:
然后使用aspera加速
which ascp
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh l
ascp -v -k 1 -T -l 200m -i \
~/miniconda3/etc/asperaweb_id_dsa.openssh \
dbtest@sra-download.ncbi.nlm.nih.gov:data/sracloud/traces/sra51/SRR/005768/SRR5907429 ./
其实就是解析url规律,然后构建上面的命令,需要替换的仅仅是 SRR5907429
下载速度通常是100M每秒左右
但是有趣的是,下载快结束的时候,被困住了。
393MB - stalled -
换一个数据下载:
ascp -v -k 1 -T -l 200m -i ~/miniconda3/etc/asperaweb_id_dsa.openssh dbtest@sra-download.ncbi.nlm.nih.gov:data/sracloud/traces/sra15/SRR/001015/SRR1039513 ./
仍然是被困住,很有趣。
换一个服务器
很轻松就下载ok了。
conda create -n download
conda activate download
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
$ascp -v -k 1 -T -l 200m -i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh dbtest@sra-download.ncbi.nlm.nih.gov:data/sracloud/traces/sra51/SRR/005768/SRR5907429 ./
SRR5907429 100% 393MB 30.3Mb/s 01:53
Completed: 402572K bytes transferred in 114 seconds
(28833K bits/sec), in 1 file.
很诡异哦
# 而且文件大小不一样
379M Aug 8 16:05 SRR5907429
394M Aug 8 15:57 SRR5907429
其实没有解决这个问题
因为我换海外服务器就解决了,所以懒得去解决这个中国大陆特色bugs,而且根据学徒们的反馈,这个中国大陆特色bugs也不是每次都出现,偶尔也能下载成功,而下载数据只是我们NGS数据处理的一个小步骤罢了。
如果你也遇到了同样的数据下载问题,欢迎留言讨论。
全国巡讲约你
第1-11站北上广深杭,西安,郑州, 吉林,武汉,成都,港珠澳(全部结束)
一年一度的生信技能树单细胞线下培训班(已结束)