查看原文
其他

生物信息百Jia软件(23):SOAPdenovo

王通 基因学苑 2022-03-29

编者按
SOAPdenobo是soap系列软件中最好用的一款。已经完成非常多的基因组的拼接了,我曾经用过模拟数据,比较SOAPdenovo和velvet以及spades等几款软件的拼接效果,SOAPdenovo无论是完整性还是准确性方面效果否非常好。

一、功能分类:

序列拼接

二、软件官网:

http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/

三、软件介绍:

SOAPdenovo是由华大基因开发的SOAP软件包的一部分,SOAPdenovo主要用于短序列reads拼接,尤其是illumina测序数据。从小的细菌基因组到大的动植物基因组,人基因组都适用。已经成功应用于大熊猫基因组,黄瓜基因组等众多基因组的拼接中。
SOAPdenovo的一个优点是使用起来比较简单,但是却拥有很好的拼接效果,尤其在基因组构建Scaffold方面,效果很好。对于内存控制的也比较好。通常只要给软件输入测序的数据,即可拼接出很好的全基因组。

四、下载安装:

wget https://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz
tar -zxvf SOAPdenovo2-bin-LINUX-generic-r240.tgz

五、软件使用:

SOAPdenovo需要使用一个配置文件,将数据路径写入配置文件中,可以使用多个文库。

max_rd_len=90
[LIB]
avg_ins=439
reverse_seq=0
asm_flags=3
rank=1
pair_num_cutoff=3
q1=../../../Data/reads.1.fq.gz
q2=../../../Data/reads.2.fq.gz

选项参数。
   -s  STR     配置文件
   -o  STR     输出文件的文件名前缀
   -g  STR     输入文件的文件名前缀,这个主要用在分布运行程序的时候。
   -K  INT     输入的K-mer值大小,默认值23,取值范围 13-63
   -p  INT     程序运行时设定的线程数,默认值8
   -R          利用read鉴别短的重复序列,默认值不进行此操作
   -d  INT     去除频数不大于该值的k-mer,默认值为0
   -D  INT         去除频数不大于该值的由k-mer连接的边,默认值为1,即该边上每个点的频数都小于等于1时才去除
   -M  INT     连接contig时合并相似序列的等级,默认值为1,最大值3。
     -F          利用read对scaffold中的gap进行填补,默认不执行
   -u          构建scaffold前不屏蔽高覆盖度的contig,这里高频率覆盖度指平均contig覆盖深度的2倍。默认屏蔽
   -G  INT        估计gap的大小和实际补gap的大小的差异,默认值为50bp。
   -L          用于构建scaffold的contig的最短长度,默认为:Kmer参数值 ×2
   -k   INT map步骤中kmer的大小,默认是和K一样的kmer大小
    -N  INT  基因组大小
    -V 输出可视化的组装信息

六、使用案例:

SOAPdenovo-63mer  all -s lib.config -K 45 -d 1 -D 1 -o kmer45 -F >kmer45.log

七、注意事项:

1、软件需要使用配置文件;
2、如果使用matepair文库,配置文件中一些选项需要修改。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存