查看原文
其他

生物信息百Jia软件(十二):trimmomatic

2018-04-17 王通 基因学苑

通哥点评

数据处理的工具其实有很多,前面我们也介绍过了fastp。因为处理的原则都差不多,最重要的是了解数据处理的原理,为何要过滤低质量,N碱基,adapter,duplication等。我自己是不喜欢用trimmomatic的,因为参数比较复杂,其实,以前我的同事们好多人都自己写个工具,只不过大家没觉得数据处理还是一个很大的问题,并不像老外把处理处理的工具都发表出来,刷了一篇SCI。

一、功能分类:

数据处理软件

二、软件官网:

http://www.usadellab.org/cms/index.php?page=trimmomatic

三、软件介绍:

trimmomatic是一款用来处理illumina测序数据的工具,可以是单条的single reads,也可以是成对的pairend reads。支持压缩格式数据。功能和其他数据处理的程序都差不多,主要包括,
1、去除adapter序列以及测序中其他特殊序列;
2、采用滑动窗口的方法,切除或者删除低质量碱基;
3、去除头部低质量以及N碱基过多的reads;
4、去除尾部低质量以及N碱基过多的reads;
5、截取固定长度的reads;
6、丢掉小于一定长度的reads;
7、Phred 质量值转换

四、下载安装:

wget  http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.36.zip
unzip Trimmomatic-0.36.zip

五、软件使用:

下面看一下选项参数。分为PE和SE。
-version软件版本
-threads 线程数
-phred33 -phred64 质量值体系,默认是-phred64,但是目前使用的几乎都是-phred33,所以这个要设置,很多程序是可以自动识别的。
-trimlog  截取的日志文件
-quiet 安静运行运行
-validatePairs
-basein 输入文件,可以直接是序列,也可以是reads文件,一般都是reads1和reads2
-baseout 输出文件,这里比较麻烦,前面我们介绍过如果是pairend reads,会输出四个文件,其中两个没什么用,但是这里需要搞清楚输出文件顺序,解释起来比较麻烦,比如第一个是reads 1和2满足过滤条件的reads文件,第二个reads1满足过滤条件的,reads2不满足的reads1文件,后两个是reasds2的情况
SE的情况和PE差不多,比PE简单。
除了软件中列出这些选项参数,还有很多没列出来,比如很多调节参数,滑动窗口大小,质量值大小,最小序列长度等,这些都需要通过关键字加上冒号的方法来设置,很不方便。

六、使用案例:

案例一:single情况

java -jar trimmomatic-0.35.jar SE -phred33 input.fq.gz output.fq.gz

案例二:pair-end情况

java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

七、注意事项:

1、根据测序数据时间情况选择引物序列,TruSeq2或者TruSeq3。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存