查看原文
其他

王hh 2018-06-06


这个包是由Cold Spring Harbor 的Hannon laboratory开发的,这个实验室主要做microRNAs, endogenous siRNAs and piRNAs。最近一次更新在2014年(不符合现在的发展速度),可能有些新的软件会更快更好(比如seqtk之类)。无论如何,此番介绍旨在让大家简单地操作fastq文件,fastx toolkit算是相当傻瓜好用。鉴于网上资料众多且详细,此处摘录几个博客的精华,先上链接,不愿意点开的可以往下看:)。

  1. 安装方法+使用: http://blog.sina.com.cn/s/blog_751bd9440102v2qo.html

  2. 使用参数详解+结果说明: http://www.jianshu.com/p/26762fcfb8f8


  1. fastqqualityconverter [-h] [-a] [-n] [-z] [-i INFILE] [-f OUTFILE] 直观观察质量值

    [-h] =打印帮助

    [-a] = 输出ASCII的质量得分(默认).

    [-n] = 输出质量值数据.

    [-z] = GZIP压缩输出.

    [-i INFILE] = 输入fasta/fastq格式的文件.

    [-o OUTFILE] = 输出fasta/fastq文件.

  2. fastq_masker [-h] [-v] [-q N] [-r C] [-z] [-i INFILE] [-o OUTFILE]屏蔽低质量碱基

    [-q N] =质量门限值,质量值低于这个门限值的将被mask掉,默认值为10

    [-r C] = 用C替代低质量的碱基,默认用N来替代

    [-z] = 输出用GZIP压缩.

    [-i INFILE] = 输入FASTA文件

    [-o OUTFILE] = 输出文件

    [-v] = 详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR

  3. fastqqualityfilter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]过滤低质量序列

    [-q N] = 最小的需要留下的质量值

    [-p N] = 每个reads中最少有百分之多少的碱基需要有-q的质量值

    [-z] =压缩输出

    [-v] =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR

    [-i INFILE] = FASTA/Q input file. default is STDIN. 输入文件

    [-o OUTFILE] = FASTA/Q output file. default is STDOUT. 输出文件

  4. fastqqualitytrimmer [-h] [-v] [-t N] [-l N] [-z] [-i INFILE] [-o OUTFILE] 修剪reads的末端

    [-t N] = 从5'端开始,低与N的质量的碱基将被修剪掉

    [-l N] = 修建之后的reads的长度允许的最短值

    [-z] = 压缩输出

    [-v] =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR

  5. fastqtofasta [-h] [-r] [-n] [-v] [-z] [-i INFILE] [-o OUTFILE] fastq转换成fasta

    [-r] = 序列用序号重命名

    [-n] = 保留有N的序列,默认不保留

    [-z] = 压缩输出

若用-r和-n,则

  1. @SRR1174233.392 HWI-1116:76:D0LVDACXX:3:1101:14764:2007 length=100

  2. NCTACTGAGTTTCCACACTGCATACCTTAGGTCTTCCGAATTCGAAGTTAATTTGCAAGATGGCTAAGGAAAAGGCTCAGATCAACATTGTGGTGGTTGG

  3. +SRR1174233.392 HWI-1116:76:D0LVDACXX:3:1101:14764:2007 length=100

  4. \#1=DFFFFHHHHHJIJJJJJJIJJJIJJJJJFIJJJIJGIJJJIGIJGHIIJIJJIJIIJJIJJJIIJJIHIGGECDFFFFDECDDCDDCDCBDDDDDD>

  5. @SRR1174233.404 HWI-1116:76:D0LVDACXX:3:1101:15379:2013 length=100

  6. NTCCAGACATAGTAAGGATTTGTCTGGTTAATTCCGTTAACGAACGAGACCTCAGCCTGCTAAATAGCTATGTGGAGGTAACCCTCCACGGCCAGCTTCT

  7. +SRR1174233.404 HWI-1116:76:D0LVDACXX:3:1101:15379:2013 length=100

  8. \#4=DDFFFHHHHHJIJJIJIJJIGJJJHIJJJJIIJJJJIIIJJJJIGHIIHJIIIIGGII:DECHFGHGFDDDFF?BAAC>@=AA@DD?BBBDDDCCDD

结果是:

  1. \>1

  2. NCTACTGAGTTTCCACACTGCATACCTTAGGTCTTCCGAATTCGAAGTTAATTTGCAAGATGGCTAAGGAAAAGGCTCAGATCAACATTGTGGTGGTTGG

  3. \>2

  4. NTCCAGACATAGTAAGGATTTGTCTGGTTAATTCCGTTAACGAACGAGACCTCAGCCTGCTAAATAGCTATGTGGAGGTAACCCTCCACGGCCAGCTTCT

  5. 若只用-n,则结果是:

  6. \>SRR1174233.392 HWI-1116:76:D0LVDACXX:3:1101:14764:2007 length=100

  7. NCTACTGAGTTTCCACACTGCATACCTTAGGTCTTCCGAATTCGAAGTTAATTTGCAAGATGGCTAAGGAAAAGGCTCAGATCAACATTGTGGTGGTTGG

  8. \>SRR1174233.404 HWI-1116:76:D0LVDACXX:3:1101:15379:2013 length=100

  9. NTCCAGACATAGTAAGGATTTGTCTGGTTAATTCCGTTAACGAACGAGACCTCAGCCTGCTAAATAGCTATGTGGAGGTAACCCTCCACGGCCAGCTTCT

  1. fastx_trimmer [-h] [-f N] [-l N] [-t N] [-m MINLEN] [-z] [-v] [-i INFILE] [-o OUTFILE]从3'开始到5'哪些部分保留

    [-f N] = 从第几个碱基开始保留,默认第一个

    [-l N] = 后面从第几个碱基开始保留,默认全部碱基都保留.

    [-t N] =序列尾部修剪掉N个碱基.

    [-m MINLEN] = 修剪掉长度小于MINLEN的序列.

  2. fastxqualitystats [-h] [-N] [-i INFILE] [-o OUTFILE] fastq文件的质量值进行统计

    [-i INFILE] = 输入fastq文件

    [-o OUTFILE] = 输出的文本文件名字

    [-N] =使用新的输出格式,默认使用老格式

    老格式输出文件:下面一行代表输出文件的一列

    column=1到36

    count = 这列有多少碱基

    min = 这列的碱基质量最小值

    max = 这列的碱基质量最大值

    sum = 这列的碱基质量的总和

    mean =这列的碱基质量平均值

    Q1 = 1/4碱基质量值

    med = 碱基质量值的中位数

    Q3 = 3/4碱基质量值.

    IQR = Q3-Q1

    lW = 'Left-Whisker' value (for boxplotting).

    rW = 'Right-Whisker' value (for boxplotting).

    A_Count =本列A的数目

    C_Count = 本列C的数目.

    G_Count = 本列G的数目.

    T_Count = 本列T的数目.

    N_Count =本列N的数目.

    max-count =碱基数目的最大值

    新的输出格式:

    循环数

    最大数目

    对每个循环的碱基 (ALL/A/C/G/T/N):

    count = 本列碱基的数目

    min = 本列碱基质量的最小值

    max = 本列碱基质量的最大值.

    sum = 本列碱基质量的综合.

    mean = 本列碱基质量的平均值

    Q1 = 1/4碱基质量值

    med = 碱基质量值的中位数

    Q3 = 3/4碱基质量值

    IQR = Q3-Q1

    lW = 'Left-Whisker' value (for boxplotting).

    rW = 'Right-Whisker' value (for boxplotting).

  3. fastqqualityboxplot_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]绘制碱基质量分布盒式图

    [-p] =产生.PS文件,默认产生png图像

    [-i INPUT.TXT]=输入文件为 fastxqualitystats的输出文件

    [-o OUTPUT] =输出文件的名字

    [-t TITLE] =输出图像的标题

  4. fastxnucleotidedistribution_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]绘制碱基分布图

    [-p] =产生.PS文件,默认产生png图像.

    [-i INPUT.TXT] =输入文件为 fastxqualitystats的输出文件

    [-o OUTPUT] =输出文件的名字.

    [-t TITLE] =输出图像的标题

  5. fastx_clipper [-h] [-a ADAPTER] [-D] [-l N] [-n] [-d N] [-c] [-C] [-o] [-v] [-z] [-i INFILE] [-o OUTFILE] 去掉接头序列

    [-a ADAPTER] =接头序列(默认为CCTTAAGG)

    [-l N] = 忽略那些碱基数目少于N的reads,默认为5

    [-d N] = 保留接头序列后的N个碱基默认 -d 0

    [-c] = 放弃那些没有接头的序列.

    [-C] = 只保留没有接头的序列.

    [-k] = 报告只有接头的序列.

    [-n] = 保留有N多序列,默认不保留

    [-v] = Verbose - report number of sequences. 报道序列的个数

    If [-o] is specified, report will be printed to STDOUT.

    If [-o] is not specified (and output goes to STDOUT),

    report will be printed to STDERR.=详细-报告序列编号

    [-z] =压缩输出.

    [-D] = 输出调试结果.

    [-M N] =要求最小能匹配到接头的长度N,如果和接头匹配的长度小于N不修剪

    [-i INFILE] = FASTA/Q input file. default is STDIN. 输入文件

    [-o OUTFILE] = FASTA/Q output file. default is STDOUT. 输出文件


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存