Trim Galore软件详解
Trim Galore简介
软件基本信息:
Trim Galore是对Cutadapt和FastQC进行了包装的工具,用于可自动地对FastQ文件进行一致的、统一的(测序)质量和接头(Adapter)修剪(trimming),以及质量控制(Quality Control, QC)。
该软件也携带一些额外的功能,例如:可应用于通过MspI消化的RRBS(Reduced Representation Bisufite-Seq)类(DNA甲基化测序)文库,以删除单端或双端测序中具有偏向性的甲基化位置(biased methylation positions)。
Trim Galore的作者是菲利克斯•克鲁格 (Felix Krueger)。
生物信息学家Felix Krueger
供职于英国伯拉罕研究所(The Babraham Institute)生物信息小组,他于2009年在完成分子信号的博士后职位后加入生物信息学团队,在德国埃尔兰根肿瘤学系(Department of Oncology in Erlangen/Germany)接受生物学培训,并获得分子细胞生物学博士学位。
Phone: +44 (0)1223 496104
Google Scholar Github:https://scholar.google.com/citations?user=e7C36YkAAAAJ&hl=en
作者的工作单位:英国巴布拉汉研究所生物信息小组(Babraham Bioinformatics)
该小组为研究所的30个研究小组提供生物信息学服务,并提供外部商业咨询服务。
该团队在生物信息学的各个领域都有丰富的经验,包括基因组学、蛋白质组学、统计学和微阵列,以及定制软件开发的丰富经验。
Babraham研究所
Trim Galore的功能
Trim Galore有哪些具体的功能?除了对碱基的修剪,是否可以"扔掉整个Reads"?是可以的,具体看参数的设定。主要功能介绍如下:
1. 针对单/双端测序FastQ文件,默认去除Illumina的标准接头序列(13bp, 'AGATCGGAAGAGC'),也可以自定义接头序列。
Uses the first 13 bp of Illumina standard adapters ('AGATCGGAAGAGC') by default (suitable for both ends of paired-end libraries), but accepts other adapter sequence, too.
其它接头:Small RNA, TGGAATTCTCGG;Nextera, CTGTCTCTTATA
2. 针对MspI消化的RRBS文库,进行根据碱基质量和接头的裁剪,其中也可去除2个额外的含有胞嘧啶的碱基,该碱基是在文库制备过程中人为引入的。
For MspI-digested RRBS libraries, performs quality and adapter trimming in two subsequent steps. This allows it to remove 2 additional bases that contain a cytosine which was artificially introduced in the end-repair step during the library preparation.
3. 除了MspI消化的RRBS文库,对于任何类型的FastQ文件进行Single-pass接头和质量修剪。
For any kind of FastQ file other than MspI-digested RRBS, Trim Galore! can perform single-pass adapter- and quality trimming.
4. 这里提到了可以对Phred碱基质量和接头序列的"单独指定的"清除。
The Phred quality of basecalls and the stringency for adapter removal can be specified individually.
5. 如果序列在修剪过程中变得太短,可以删除序列;对双端测序文件,如果(trim之后)两个Reads中的一个(或两个)比设置的长度cutoff值更短,则删除整个序列对;如果Reads对的读长超过给定阈值,但配对Reads变得太短,则可以选择性地将其写入单端文件(这确保了如果只有一个Read是高质量的,Reads对的信息不会完全丢失)。
Can remove sequences if they become too short during the trimming process. For paired-end files, removes entire sequence pairs if one (or both) of the two reads became shorter than the set length cutoff. Reads of a read-pair that are longer than a given threshold but for which the partner read has become too short can optionally be written out to single-end files. This ensures that the information of a read pair is not lost entirely if only one read is of good quality.
聊生信:自定义地、严谨地删除不符合某些条件的Reads,对于ctDNA等肿瘤相关的、旨在分析稀有体细胞变异的测序数据的质控可能非常重要。
Can trim paired-end files by 1 additional bp from the 3' end of all reads to avoid problems with invalid alignments with Bowtie 1.
7. 接收且可以输出标准的、或gzip压缩的FastQ文件
Accepts and produces standard or gzip compressed FastQ files.
8. 一旦裁剪完成,FastQC可(自动)在输出文件上运行(可选)
FastQC can be run on the resulting output files once trimming has completed (optional).
Trim Galore的安装和参数详解
conda install -y -q trim-galore
注意:软件名称的大小写和横杠
trim_galore --help
这个“伪”碱基质量ASCII字符需要首先取出其对应的十进制数值(可自行查询ASCII表),减去33或64后,才是对应Reads第二行碱基的真正质量值Qphred/Q。若测序错误率用 P_error 表示,则:Q = ASCII - 33(或64) = -10log10(P_error) 。所以Q的值为10时表示该碱基有10%的错误率(即90%的概率是正确的), 20时有1%错误率, 30时有0.1%的错误率,以此类推。
Trim Galore的参数--phred33或--phred64就是用来选择上述公式使用33还是64。如果选错后果是比较严重的,但一般从最终Clean Data的FastQC质控结果可以很容易辨别出来是否选错。因为Qphred一般在40~0之间,选错后在FastQC质控结果中可以看出来最终的质量值明显脱离了这个区间,甚至Reads全部被删掉。
(1) --phred64:用于指导Trim Galore内置的Cutadapt软件使用ASCII-64质量分数作为Phred分数 (适用于Illumina 1.5 encoding,即Illumina的早期版本质量值,包括v1.3和v1.4等)来对碱基质量修剪。
有了上面的介绍,会发现我们其实只需要一个对照表就好了。即Q值、P_error和ASCII码的对照表(如下图),并仔细理解一下红框的位置即可。
延伸阅读
以上是Sanger中心采用记录Read测序质量的方法,Illumina起初没有完全依照Sanger中心的方法来定义测序质量,而是把P换成了p/(1-p)。其他完全按照Sanger的定义来做。但是这种形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。
质量得分Qphred和错误率p的关系符合下图(红色的为phred,黑色的为Illumina的早期版本质量值:
虚线表明p=0.05,对应的质量得分为Qphred≈13
扫码添加好友
备注“姓名-研究方向”,拉您进入同行交流群