查看原文
其他

生物信息百Jia软件(十):seqtk

2018-04-15 王通 基因学苑

通哥点评
seqtk同样来自于生物信息大神李恒之手,被称为序列处理的瑞士军刀,可以方便处理日常序列分析中的小问题,例如将fq转换为fa,格式化序列,截取序列等这些问题并不难,但是可能需要编程完成,而seqtk已经集合了这些功能,一条命令就可以轻松完成,建议好好学习seqtk工具的使用,可以大大提高序列分析的效率。

一、功能分类:

数据处理工具

二、软件官网:

https://github.com/lh3/seqtk

三、软件介绍:

seqtk是seq tookits的的意思,也就是序列处理的一个工具箱。它的作者是大名鼎鼎的李恒。这款软件类似于序列处理的瑞士军刀,里面有非常多实用的小工具。可以方便处理fasta格式和fatsq格式的数据,这也是生物信息分析中,最常用的两种格式。seqtk可以非常方便的处理,比如统计碱基组成,统计GC含量,截取序列,fastq转换fatsa等等功能。这些一般都需要编程来完成,而seqtk可以一条命令就处理好,非常方便,如果不会编程,掌握这个工具还是非常有帮助的。

四、下载安装:

git clone https://github.com/lh3/seqtk.git;
cd seqtk; make

五、软件使用:

seq    主要功能都在这个选项中,也是最常用的一项
sample    用于抽样
subseq    提取序列
fqchk    fastq质量评估
mergepe    合并pairend reads
trimfq    很明显是截取fastq
hety    计算某个区域杂合性,筛选杂合位点
gc    识别高低gc区域
mutfa    标记出高变区
mergefa    合并fastq或者fasta文件
famask    屏蔽fasta文件,比如将重复区用字母替换为X,这些区域不参与变异检测
dropse    丢掉不是pair end的reads
rename    修改序列ID,比如将ID中的chr全部去掉
randbase    随机选取碱基
cutN    根据N区域截取序列
listhet    提取杂合位点的位置,DNA序列中,可以用非ATCGN的字母表示杂合位点,listhet可以将这些位点位置列出来。

六、使用案例:

案例1:fastq转换为fasta,支持压缩格式

seqtk seq -a in.fq.gz > out.fa

案例2:illumina质量值转换

seqtk seq -aQ64 -q20 in.fq > out.fa
seqtk seq -aQ64 -q20 -n N in.fq > out.fa

案例3:根据bed文件信息,将固定区域序列提取出来。

seqtk subseq in.fa reg.bed > out.fa

案例4:根据bed文件信息,将固定区域序列转换为小写字母

seqtk seq -M reg.bed in.fa > out.fa

案例5:切除reads前5bp,后面10bp

seqtk trimfq -b 5 -e 10 in.fa > out.fa

七、注意事项:

1、每个菜单还有更多的选项参数,例如seqtk seq,列出seq功能的选项参数。
2、对于软件的学习,更多的还是在于亲自上手操作。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存