查看原文
其他

fastq格式文件处理大全(三)

王通 基因学苑 2023-08-18

从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。

fastq格式文件处理大全(一)
fastq格式文件处理大全(二)

过滤短的序列

Ion Torrent,pacbio,nanopore测序的fastq文件序列长度并不相同,通常需要过滤较短的序列,例如过滤掉长度小于150bp的序列。可以使用seqtk seq或者seqkit seq进行操作。

#过滤小于150bp序列,并压缩输出 
seqkit seq -m 150 nanopore.fastq.gz | gzip -  >filter_150.fq.gz
seqtk seq -L 150 nanopore.fastq.gz
#保留小于150bp序列
seqkit seq -M 150 nanopore.fastq.gz

转换为列表格式

如何将fastq格式转换为列表格式?可以使用seqkit fx2tb,为什么要做这一步处理呢,转换为列表,这样方便根据ID进行处理。将四行数据转换为一行三列,这样就可以使用常用的列表处理程序来进行处理,例如awk。当然处理完了,还可以使用tab2fx将列表转为换fastq格式。

seqkit fx2tab SRR8651554_1.fastq.gz

质量值转换

目前测序得到的fastq文件,都采用phred+33的格式,但是如果处理之前的文件,还有可能遇见phred+64的模式,一般软件中包含--phred33或者--phred64选项,当然也可以直接在两种质量值之间进行转换。

#将illumina 1.8转换为1.5
seqkit convert --to Illumina-1.5+ SRR8651554_1.fastq.gz |head -4
#将illumina 1.5转换为1.8,什么都不加就是转换为1.8
seqkit convert  SRR8651554_illmina1.5.gz

质量控制QC

fastq格式的质量控制其实非常简单,我们前面统计的各种指标,质控软件可以一次性进行统计,绘制出质控图,包括碱基含量分布图与碱基质量分布图通过这两个图来判断fastq文件质量好坏。可以一次性统计很多文件,每个测序数据会生成一个html格式结果和一个压缩格式的文件夹。如果样品太多可以使用multiqc合并多个结果。

fastqc -f fasqc *.fq.gz

---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存