查看原文
其他

生物信息百Jia软件(十一):svsim

王通 基因学苑 2022-03-29

通哥点评
模拟数据其实是非常重要的,通过模拟数据可以方便评估一款软件的准确性与敏感性。SV检测一直是基因组分析中最难的一个问题,一方面是因为目前测序读长过短,另一方面是因为SV类型多变,包括插入,缺失,易位,倒位,倍增等多种类型,通过svsim可以分别模拟每一种sv类型,然后可以利用wgsim对其进行模拟测序,之后可以用sv检测软件评估检测的效率。

一、功能分类:

SV模拟软件

二、软件官网:

https://github.com/GregoryFaust/SVsim

三、软件介绍:

svsim的主要作用也是用于软件的评估。因为模拟的变异事先知道数量和具体位置,可以用来评估软件检测的效率,包括敏感性与特异性。因为实际数据中的SV并不清楚是真实存在的还是误差导致。svsim可以模拟出insertion, deletion, duplication, inversion 和translocation五种sv变化,sv的长度在50bp或者以上,这也正是我们对sv的定义长度。小于这个就是indel了。

四、下载安装:

git clone git://github.com/GregoryFaust/SVsim.git
cp SVsim/SVsim /usr/local/bin/

五、软件使用:

选项    释义
-i    输入文件,这个文件非常重要,里面列出SV的模式,后面我们会介绍如何书写这个文件。
-r    基因组序列的索引,也是必须的,注意是索引文件,不是序列文件,序列文件也要在。
-o    输出文件前缀
下面几个选项只适用于全基因组模式
-d    每个事件在明显的区域,可以加上试试,比较一下与不加-d的差别

下面几个选项只适用于contig模式,主要都是用来控制contig模式时,如何输出结果。
-c INT    在每个breakpoints事件前面取多长序列,默认是500
-l    如果设置-l,表示在INC/INR/INS/INV 这些SV事件中,只保留左边断点和bedpe的条目
-p INT    在每个事件后面取多长序列,默认也是500
下面两个选项是通用的。
-n INT    每一行发生重复时间的次数,默认是1,可以用来控制模拟SV的数目
-s INT    设置一个随机数种子,保证可重复

六、使用案例:

SVsim -i commands.sim -r genome.fasta -o output

七、注意事项:

1、由于SV分成多种类型,因此配置文件不容易书写。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存