生物信息百Jia软件(十):seqtk
通哥点评
seqtk同样来自于生物信息大神李恒之手,被称为序列处理的瑞士军刀,可以方便处理日常序列分析中的小问题,例如将fq转换为fa,格式化序列,截取序列等这些问题并不难,但是可能需要编程完成,而seqtk已经集合了这些功能,一条命令就可以轻松完成,建议好好学习seqtk工具的使用,可以大大提高序列分析的效率。
一、功能分类:
数据处理工具
二、软件官网:
https://github.com/lh3/seqtk
三、软件介绍:
seqtk是seq tookits的的意思,也就是序列处理的一个工具箱。它的作者是大名鼎鼎的李恒。这款软件类似于序列处理的瑞士军刀,里面有非常多实用的小工具。可以方便处理fasta格式和fatsq格式的数据,这也是生物信息分析中,最常用的两种格式。seqtk可以非常方便的处理,比如统计碱基组成,统计GC含量,截取序列,fastq转换fatsa等等功能。这些一般都需要编程来完成,而seqtk可以一条命令就处理好,非常方便,如果不会编程,掌握这个工具还是非常有帮助的。
四、下载安装:
git clone https://github.com/lh3/seqtk.git;
cd seqtk; make
五、软件使用:
seq 主要功能都在这个选项中,也是最常用的一项
sample 用于抽样
subseq 提取序列
fqchk fastq质量评估
mergepe 合并pairend reads
trimfq 很明显是截取fastq
hety 计算某个区域杂合性,筛选杂合位点
gc 识别高低gc区域
mutfa 标记出高变区
mergefa 合并fastq或者fasta文件
famask 屏蔽fasta文件,比如将重复区用字母替换为X,这些区域不参与变异检测
dropse 丢掉不是pair end的reads
rename 修改序列ID,比如将ID中的chr全部去掉
randbase 随机选取碱基
cutN 根据N区域截取序列
listhet 提取杂合位点的位置,DNA序列中,可以用非ATCGN的字母表示杂合位点,listhet可以将这些位点位置列出来。
六、使用案例:
案例1:fastq转换为fasta,支持压缩格式
seqtk seq -a in.fq.gz > out.fa
案例2:illumina质量值转换
seqtk seq -aQ64 -q20 in.fq > out.fa
seqtk seq -aQ64 -q20 -n N in.fq > out.fa
案例3:根据bed文件信息,将固定区域序列提取出来。
seqtk subseq in.fa reg.bed > out.fa
案例4:根据bed文件信息,将固定区域序列转换为小写字母
seqtk seq -M reg.bed in.fa > out.fa
案例5:切除reads前5bp,后面10bp
seqtk trimfq -b 5 -e 10 in.fa > out.fa
七、注意事项:
1、每个菜单还有更多的选项参数,例如seqtk seq,列出seq功能的选项参数。
2、对于软件的学习,更多的还是在于亲自上手操作。