查看原文
其他

Trim Galore软件详解

宋红卫 聊生信 2022-09-11
 Trim Galore (美 /ɡəˈlɔːr/) 软件的简介、功能、安装和参数详解。

Trim Galore简介

软件基本信息:

https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/

Trim Galore是对Cutadapt和FastQC进行了包装的工具,用于可自动地对FastQ文件进行一致的、统一的(测序)质量和接头(Adapter)修剪(trimming),以及质量控制(Quality Control, QC)。

该软件也携带一些额外的功能,例如:可应用于通过MspI消化的RRBS(Reduced Representation Bisufite-Seq)类(DNA甲基化测序)文库,以删除单端或双端测序中具有偏向性的甲基化位置(biased methylation positions

Trim Galore的作者是菲利克斯•克鲁格 (Felix Krueger)。


生物信息学家Felix Krueger

供职于英国伯拉罕研究所(The Babraham Institute)生物信息小组,他于2009年在完成分子信号的博士后职位后加入生物信息学团队,在德国埃尔兰根肿瘤学系(Department of Oncology in Erlangen/Germany)接受生物学培训,并获得分子细胞生物学博士学位。

Phone: +44 (0)1223 496104

Email: felix.krueger@babraham.ac.uk

Google Scholar Github:https://scholar.google.com/citations?user=e7C36YkAAAAJ&hl=en

TrimGalore的Project page:https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
TrimGalore的GitHub地址:https://github.com/FelixKrueger/TrimGalore

作者的工作单位:英国巴布拉汉研究所生物信息小组(Babraham Bioinformatics)

该小组为研究所的30个研究小组提供生物信息学服务,并提供外部商业咨询服务。

https://www.bioinformatics.babraham.ac.uk/index.html

该团队在生物信息学的各个领域都有丰富的经验,包括基因组学、蛋白质组学、统计学和微阵列,以及定制软件开发的丰富经验。

Babraham研究所

Babraham研究所是世界一流的生命科学研究所,坐落于英国剑桥郡Babraham研究园。该研究所重点关注细胞信号传导,基因调控以及表观遗传调控在生命不同阶段的影响。


Trim Galore的功能

Trim Galore有哪些具体的功能?除了对碱基的修剪,是否可以"扔掉整个Reads"?是可以的,具体看参数的设定。主要功能介绍如下:

1. 针对单/双端测序FastQ文件,默认去除Illumina的标准接头序列(13bp, 'AGATCGGAAGAGC'),可以自定义接头序列

  • Uses the first 13 bp of Illumina standard adapters ('AGATCGGAAGAGC') by default (suitable for both ends of paired-end libraries), but accepts other adapter sequence, too.

其它接头:Small RNA, TGGAATTCTCGG;Nextera, CTGTCTCTTATA

如果没有指定具体的接头序列则会自动检测前一百万条Reads,再对比前12-13bp的序列是否符合上述类型的接头序列。

2. 针对MspI消化的RRBS文库,进行根据碱基质量和接头的裁剪,其中也可去除2个额外的含有胞嘧啶的碱基,该碱基是在文库制备过程中人为引入的。

  • For MspI-digested RRBS libraries, performs quality and adapter trimming in two subsequent steps. This allows it to remove 2 additional bases that contain a cytosine which was artificially introduced in the end-repair step during the library preparation.

3. 除了MspI消化的RRBS文库,对于任何类型的FastQ文件进行Single-pass接头和质量修剪。

  • For any kind of FastQ file other than MspI-digested RRBS, Trim Galore! can perform single-pass adapter- and quality trimming.

4. 这里提到了可以对Phred碱基质量和接头序列的"单独指定的"清除。

  • The Phred quality of basecalls and the stringency for adapter removal can be specified individually.

5. 如果序列在修剪过程中变得太短,可以删除序列;对双端测序文件,如果(trim之后)两个Reads中的一个(或两个)比设置的长度cutoff值更短,则删除整个序列对;如果Reads对的读长超过给定阈值,但配对Reads变得太短,则可以选择性地将其写入单端文件(这确保了如果只有一个Read是高质量的,Reads对的信息不会完全丢失)。

  • Can remove sequences if they become too short during the trimming process. For paired-end files, removes entire sequence pairs if one (or both) of the two reads became shorter than the set length cutoff. Reads of a read-pair that are longer than a given threshold but for which the partner read has become too short can optionally be written out to single-end files. This ensures that the information of a read pair is not lost entirely if only one read is of good quality.

聊生信:自定义地、严谨地删除不符合某些条件的Reads,对于ctDNA等肿瘤相关的、旨在分析稀有体细胞变异的测序数据的质控可能非常重要。

6. 可以从双端测序的所有Reads的3'端,修剪额外1bp,以避免Bowtie 1的无效对齐问题
  • Can trim paired-end files by 1 additional bp from the 3' end of all reads to avoid problems with invalid alignments with Bowtie 1.

7. 接收且可以输出标准的、或gzip压缩的FastQ文件

  • Accepts and produces standard or gzip compressed FastQ files.

8. 一旦裁剪完成,FastQC可(自动)在输出文件上运行(可选)

  • FastQC can be run on the resulting output files once trimming has completed (optional).

Trim Galore的安装和参数详解

安装
conda install -y -q trim-galore

注意:软件名称的大小写和横杠

查看参数
trim_galore --help


--phred33或--phred64参数详解
问题的起源——测序时碱基的质量值。Sanger测序仪或Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应A/T/C/G,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题(baike.baidu)这个概率就用碱基质量值来间接地表示。
我们先看一下FastQ文件的每条Reads的第四行:

每个Reads的第四行反映了相应位置碱基(Reads的第二行)的测序质量(聊生信:可认为是原始“伪”碱基质量ASCII字符),不等同于真正的碱基质量("Phred quality of basecalls",Qphred/Q)。此二者之间存在如下两种转换方式:phred33与phred64。

这个“伪”碱基质量ASCII字符需要首先取出其对应的十进制数值(可自行查询ASCII表)减去33或64后,才是对应Reads第二行碱基的真正质量值Qphred/Q。若测序错误率用 P_error 表示,则:= ASCII - 33(或64) = -10log10(P_error。所以Q的值为10时表示该碱基有10%的错误率(即90%的概率是正确的), 20时有1%错误率, 30时有0.1%的错误率,以此类推。

Trim Galore的参数--phred33或--phred64就是用来选择上述公式使用33还是64。如果选错后果是比较严重的,但一般从最终Clean Data的FastQC质控结果可以很容易辨别出来是否选错。因为Qphred一般在40~0之间,选错后在FastQC质控结果中可以看出来最终的质量值明显脱离了这个区间,甚至Reads全部被删掉。

(1) --phred64:用于指导Trim Galore内置的Cutadapt软件使用ASCII-64质量分数作为Phred分数 (适用于Illumina 1.5 encoding,即Illumina的早期版本质量值,包括v1.3和v1.4等)来对碱基质量修剪。

(2) --phred33:用于指导Trim Galore内置的Cutadapt软件使用ASCII+33质量分数作为Phred分数进行碱基质量修剪。默认值: ON(即Trim Galore默认使用phred33)。此参数一般适用于Sanger测序和Illumina 1.9+的测序下机数据(Sanger/Illumina 1.9+ encoding)。

有了上面的介绍,会发现我们其实只需要一个对照表就好了。即Q值、P_error和ASCII码的对照表(如下图),并仔细理解一下红框的位置即可。



延伸阅读

以上是Sanger中心采用记录Read测序质量的方法,Illumina起初没有完全依照Sanger中心的方法来定义测序质量,而是把P换成了p/(1-p)。其他完全按照Sanger的定义来做。但是这种形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。

质量得分Qphred和错误率p的关系符合下图(红色的为phred,黑色的为Illumina的早期版本质量值

虚线表明p=0.05,对应的质量得分为Qphred≈13

http://blog.sciencenet.cn/blog-630246-813262.html
因此上述的33或64是指FastQ文件的原始碱基质量符号的ASCII值需要减去的数值。例如碱基质量符号为大写A时表示十进制的65; 碱基质量为小写a时表示十进制的97。若为phred33,则上述的A表示碱基质量phred为32(即65-33),碱基错误率约为0.1%;若为phred64,则上述的A表示碱基质量phred为1(即65-64),碱基错误率为80%(通常测序仪不可能有这么高的错误率)。因此碱基质量值的大写字母一般只出现在Phred+33中,而小写字母一般只出现在Phred+64中。具体选择--phred33还是--phred64,需要询问测序公司,或查看测序仪型号。


Trim Galore的其它参数相对简单,后续会再补充一篇相关的推文。



扫码添加好友

备注“姓名-研究方向”,拉您进入同行交流群


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存