生物信息百Jia软件(23):SOAPdenovo
编者按
SOAPdenobo是soap系列软件中最好用的一款。已经完成非常多的基因组的拼接了,我曾经用过模拟数据,比较SOAPdenovo和velvet以及spades等几款软件的拼接效果,SOAPdenovo无论是完整性还是准确性方面效果否非常好。
一、功能分类:
序列拼接
二、软件官网:
http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/
三、软件介绍:
SOAPdenovo是由华大基因开发的SOAP软件包的一部分,SOAPdenovo主要用于短序列reads拼接,尤其是illumina测序数据。从小的细菌基因组到大的动植物基因组,人基因组都适用。已经成功应用于大熊猫基因组,黄瓜基因组等众多基因组的拼接中。
SOAPdenovo的一个优点是使用起来比较简单,但是却拥有很好的拼接效果,尤其在基因组构建Scaffold方面,效果很好。对于内存控制的也比较好。通常只要给软件输入测序的数据,即可拼接出很好的全基因组。
四、下载安装:
wget https://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz
tar -zxvf SOAPdenovo2-bin-LINUX-generic-r240.tgz
五、软件使用:
SOAPdenovo需要使用一个配置文件,将数据路径写入配置文件中,可以使用多个文库。
max_rd_len=90
[LIB]
avg_ins=439
reverse_seq=0
asm_flags=3
rank=1
pair_num_cutoff=3
q1=../../../Data/reads.1.fq.gz
q2=../../../Data/reads.2.fq.gz
选项参数。
-s STR 配置文件
-o STR 输出文件的文件名前缀
-g STR 输入文件的文件名前缀,这个主要用在分布运行程序的时候。
-K INT 输入的K-mer值大小,默认值23,取值范围 13-63
-p INT 程序运行时设定的线程数,默认值8
-R 利用read鉴别短的重复序列,默认值不进行此操作
-d INT 去除频数不大于该值的k-mer,默认值为0
-D INT 去除频数不大于该值的由k-mer连接的边,默认值为1,即该边上每个点的频数都小于等于1时才去除
-M INT 连接contig时合并相似序列的等级,默认值为1,最大值3。
-F 利用read对scaffold中的gap进行填补,默认不执行
-u 构建scaffold前不屏蔽高覆盖度的contig,这里高频率覆盖度指平均contig覆盖深度的2倍。默认屏蔽
-G INT 估计gap的大小和实际补gap的大小的差异,默认值为50bp。
-L 用于构建scaffold的contig的最短长度,默认为:Kmer参数值 ×2
-k INT map步骤中kmer的大小,默认是和K一样的kmer大小
-N INT 基因组大小
-V 输出可视化的组装信息
六、使用案例:
SOAPdenovo-63mer all -s lib.config -K 45 -d 1 -D 1 -o kmer45 -F >kmer45.log
七、注意事项:
1、软件需要使用配置文件;
2、如果使用matepair文库,配置文件中一些选项需要修改。