查看原文
其他

生信平台搭建(十六):NCBI三大工具的安装与使用

王通 基因学苑 2023-08-18

做生物信息怎么能离开ncbi数据库呢,这次我们来介绍一下ncbi数据库的使用,平时使用网页也可以操作NCBI数据库,但是毕竟当数据增多的时候,使用网页还是比较麻烦的,这个时候就可以使用ncbi自带的工具软件,blast+,sratoolkit,edirect。

blast+安装及使用

blast+是ncbi最重要的功能,用来找同源基因序列。

cd /ifs1/Software/biosoft
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.9.0+-x64-linux.tar.gz
tar -zxvf ncbi-blast-2.9.0+-x64-linux.tar.gz 

将程序链接到bin目录下

for i in ncbi-blast-2.9.0+/bin/*;do ln -s $PWD/$i /ifs1/Software/bin/ ;done;

sratoolkit安装及使用

sra主要用来处理NCBI SRA数据库的数据,包括数据下载以及各式转换等,自己添加到bin目录下。

cd /ifs1/Software/biosoft
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.6-1/sratoolkit.2.9.6-1-centos_linux64.tar.gz
tar -zxvf sratoolkit.2.9.6-1-centos_linux64.tar.gz

案例:利用prefetch下载sra数据

#如果安装了aspera,会自动调用aspera进行下载
prefetch SRR1972917
#数据下载到 ~/ncbi/public/sra/目录下
ll  ~/ncbi/public/sra/
#使用fastq-dump进行转换
fastq-dump --split-files --gzip ~/ncbi/public/sra/SRR1972917.sra
#其实fastq-dump也可以直接进行下载

edirect安装及使用

edirect包含一大堆工具,主要用来检索NCBI各个数据库的内容。

cd /ifs1/Software/biosoft
wget  https://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.tar.gz
tar -zxvf edirect.tar.gz

案例:下载序列

#esearch搜索sra数据库中的项目PRJNA257197
esearch -db sra -query PRJNA257197
#利用efetch从核酸数据库下载Accession Number号为NC_000962.3的序列,保存为gbk格式
efetch -db=nuccore -format=gb -id=NC_000962.3 > NC_000962.3.gb
# 利用efetch从核酸数据库下载Accession Number号为NC_000962.3的序列,保存为fasta格式
efetch -db=nuccore -format=fasta -id=NC_000962.3 > NC_000962.3.fa

---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

R语言与生物信息(深圳站)开课了
上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存