查看原文
其他

生物信息百Jia软件(四):wgsim

2018-04-08 王通 基因学苑

编者按
前面写了专题《手把手教你生物信息分析平台搭建》,然后又介绍了很多《生物神奇网站》资源,也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备,就开始学习生物信息吧。所以,我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢?可以是百佳,也可以是百家,还可以是百加。从100家中选择100款优秀软件,掌握这些软件,就可以扩展出更多内容,这就是百Jia。

一、功能分类:

测序数据模拟

二、软件官网:

https://github.com/lh3/wgsim

三、软件介绍:

wgsim是一块用于高通量数据模拟的软件,whole genome simulation。这款软件可以模拟出illumina测序数据,并且可以自由调整测序reads的读长,插入片段大小以及错误率等,使用起来比较方便。模拟数据主要用于软件的测试与评估。例如对序列拼接软件的评估。因为模拟数据是根据已有的参考序列来的,我们可以将模拟出来的数据进行拼接,再将拼接的结果与原序列进行比对。这样就能每次调整单因素变量,例如比较不同reads读长,不同插入片段大小或者不同错误率条件下,对序列拼接的影响。
也可以为参考序列模拟变异位点,例如点突变、片段获得缺失等,然后模拟数据,评估软件是否可以检测出这些变异位点。
这个过程中,模拟出可控条件的数据是非常重要的。
但是,这里面我们也要认识到,实际测序中影响的因素是非常多的,模拟数据是很难和实际数据相匹配的,比如拼接软件对模拟数据表现出非常好的效果,但是对实际测序数据可能非常差。

四、下载安装:

git clone  https://github.com/lh3/wgsim.git
gcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm

五、软件使用:

软件比较简单,输入文件为基因组序列,fasta格式,输出为illumina的fastq格式,这些格式我们在前面都介绍过。然后是一些选项。
-e 是错误率,默认是0.02
-d reads两头的距离,也就是插入片段长度,默认250bp,注意插入片段本身是包含reads长度的,而不是reads之间的距离
-s 是-d插入片段的偏差,默认是20,也就是-d的值加减20,我们知道插入片段长度并不是固定的,而是一个范围
-N 是测序的层数,控制输出数据量
-1 是reads1长度,默认70bp
-2 是reads2长度,默认70bp
-r 突变率
-R -X 都是调整indels的
-h 是单倍体模式
下面我们来运行一下
wgsim 参考序列 reads1 reads2 这里插入片段我们选择500bp,偏差-s在50,reads长度-1 -2为100bp,二者可以不一样,其余默认。

六、使用案例:

wgsim ref.fna reads1.fq reads2.fq -d 500 -s 50 -1 90 -2 90

七、注意事项:

1、模拟出的reads质量值是无法更改的,都是“I”,如果程序用到reads的质量值模拟数据就会有问题。
2、不支持Mate-pair文库,就是即使把-d设置微6K,那么它是不能像实际过程中发生环化的,两条reads的方向和小片段还是一样的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存