sickle的基本介绍
sickle是一个使用碱基质量,窗口自适应的FASTQ trimming工具。大部分现代测序技术产生的reads沿着3'末端质量下降(一些是5'末端)。不正确的碱基会影响装配、比对及下游生物信息学分析。
Sickle支持3类质量值:Illumina、Solexa和Sanger。
sickle的算法原理
Sickle使用滑窗,连同碱基质量和长度阈值来确定何时质量足够低以去除3'末端reads,及何时足够高以去除5'末端reads。它利用质量值滑窗,窗口长度为read长度的0.1倍。
例如read为150bp,则窗口为15bp。若这个长度<1,则窗口长度等于read长度。若长度>1,则沿着质量值滑窗,直到窗口中的平均质量超过阈值,这时,算法确定质量在窗口的哪个位置开始升高,并在此处cut read,作为5'末端。接着滑窗,直到窗口中平均质量低于阈值,这时,算法确定是窗口中哪个位置开始下降的,并在此处cut read,作为3'末端。若此时长度小于指定的长度阈值,则丢弃这条reads。
sickle的使用
安装
$ git clone https://github.com/najoshi/sickle$ cd sickle
$ make
用法
输入sickle, 会输出:
sickle sesickle pe
Sickle 单末端的read (sickle se)
sickle se
需要fastq格式的输入文件,然后会输出经过修剪的fastq文件。在可选择的参数中,我们可以改变修剪所设定的read的长度和质量控制的标准,或者禁用5'修剪并使能够切掉含有多个Ns的顶端序列。
sequence file> -t <quality type> -o
<trimmed fastq file>
Options:
-f, --fastq-file, 输入文件 fastq格式
-t, --qual-type, 质量值的类型 (solex
a (CASAVA < 1.3),
illumina (CASAVA 1.3 to 1.7), sanger
(which is CASAVA >= 1.8))
(required)
-o, --output-file, 输出已经修饰过得
fastq 文件 (required)
-q, --qual-threshold,sickle质量控制
的标准, Default 20.
-l, --length-threshold, 保留read 长
度的标准. Default 20.
-x, --no-fiveprime, Don't do five
prime trimming.
-n, --trunc-n, Truncate sequences
at position of first N.
-g, --gzip-output, 输出gzipped压缩
的文件.
Sickle 双末端的read (sickle pe)
sickle pe
以使用两种类型的输入。
第一种是最经典常用的形式,它可以使用两个双末端的fastq文件作为输入,然后输出两个已经修饰后的双末端fastq文件和一个“单个”文件。
Usage: sickle pe [options] -f <pair
ed-end forward fastq file> -r
<paired-end reverse fastq file> -t
<quality type>
-o <trimmed PE forward file> -p <tr
immed PE reverse file>
-s <trimmed singles file>
第二种形式,从已经存储于序列器的交错read的单个组合输入文件开始。 在这种形式中,你还需要提供单个输出文件名以及“单个”文件。 “单个”文件包含已经过滤后正向或反向的read中的其中一个。
Usage: sickle pe [options] -c <int
erleaved input file>
-t <quality type> -m <interleaved
trimmed paired-end output>
-s <trimmed singles file>
Options:
Paired-end separated reads
--------------------------
-f, --pe-file1, 输入已经修饰之后
正向的fastq文件 (两个输入文件必须
要相同数目的read)
-r, --pe-file2, 输入已经修饰之后
反向的fastq文件
-o, --output-pe1, 输出已经修饰之
后正向的fastq文件
-p, --output-pe2, 输出已经修饰之
后反向的fastq文件. 必须使用 -s
option.
-s, --output-single, 输出单个fa
stq文件
Paired-end interleaved reads
----------------------------
-c, --pe-combo, 输入含有交错read
的双末端 fastq文件
-m, --output-combo, 输出含有交错
read的双末端 fastq文件.
Must use -s option.
References
https://github.com/najoshi/sickle
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。