查看原文
其他

fastq格式文件处理大全(二)​

王通 基因学苑 2023-08-18

从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。

fastq格式文件处理大全(一)

完整性校验

完整性检验主要是为了保证文件在传输过程中保持完整,没有丢失内容,一般采用md5校验方式,目前测序公司给定的测序数据都带有md5文件,这样文件就是用来校验数据完整性的。可以使用md5sum -c命令检测这个文件,如果返回OK,说明文件完整。

md5sum -c SRR8651554_1.fastq.md5
md5sum -c SRR8651554_5.fastq.md5

fastq文件统计

如果想对fastq文件进行统计,例如统计序列条数,碱基总数,reads读长分布等,可以使用seqkit工具进行操作。

$ seqkit stats SRR8651554_1.fastq.gz SRR8651554_2.fastq.gz
file                   format  type   num_seqs      sum_len  min_len  avg_len  max_len
SRR8651554_1.fastq.gz  FASTQ   DNA   6,383,147  957,472,050      150      150      150
SRR8651554_2.fastq.gz  FASTQ   DNA   6,383,147  957,472,050      150      150      150

如果想统计fastq文件每条序列ATCG四种碱基组成以及质量值分布,可以使用seqtk comp工具来完成。

seqtk comp SRR8651554_1.fastq.gz SRR8651554_2.fastq.gz

如果按照位点进行统计,例如统计第一个位点所有序列ATCG以及质量值分布,可以适应seqtk fqchk命令。fqchk的结果可以用来绘制碱基质量以及含量分布图。

seqtk fqchk SRR8651554_1.fastq.gz

合并文件

如果有多个fastq文件,可以使用seqtk mergerpe进行合并,其实cat或者zcat也可以合并,不过seqtk的合并方式有一些差别,cat是将一个文件追加到另一个文件结尾,seqtk mergerpe是每次取文件一个单位合并。

seqtk mergepe SRR8651554_1.fastq.gz SRR8651554_2.fastq.gz  |  head -20

---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存