查看原文
其他

fastq格式文件处理大全(五)

王通 基因学苑 2023-08-18

从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。

fastq格式文件处理大全(一)

fastq格式文件处理大全(二)

fastq格式文件处理大全(三)

fastq格式文件处理大全(四)

排序

如果想对fastq格式文件进行排序,可以使用seqkit sort功能,我们可以对nanopore测序数据,按照长度从大到小进行排序,这样方便取出最长的序列。默认按照从小到大顺序,加上-r可以按照从大到小进行排序。

seqkit sort -l -r nanopore.fastq.gz

抽样

有时候需要从全部文件中抽取一部分进行分析,因为测序出来的数据本身就是随机分布的,因此,即使从头到尾开始取数据,出来的也是随机的。当然还是可以随机抽样的。seqtk和seqkit工具都提供了抽样功能。

#seqtk抽样,
seqtk seq -f 0.1 -s 11 SRR8651554_1.fastq.gz
#seqkit抽样,按照百分比
seqkit sample -p 0.1 SRR8651554_1.fastq.gz

拆分数据

有时候需要将fastq文件拆成多份,或者根据固定模式进行拆分,例如测序时同一个lane的数据根据index进行拆分,16S测序中,同一个文件中序列根据barconde进行拆分等。seqtk split与split2可以用来拆分文件,既可以按照大小进行拆分,也可以直接拆分成固定份数。

seqkit split -1 SRR8651554_1.fastq.gz -2 SRR8651554_2.fastq.gz -p 2 -f
seqkit split -1 SRR8651554_1.fastq.gz -2 SRR8651554_2.fastq.gz -s 1000000 -f

转换为fasta

一些软件只支持fasta格式,例如只有fasta格式才能进行blast比对,因此有时候如果需要将测序数据直接进行blast比对,就需要将fastq转为换fasta,将fastq转换为fasta有多种方法,例如seq,awk,perl都可以,还有很多单独的程序。这里使用seqtk和seqkit分别演示一下。

#seqtk工具
seqtk seq -A nanopore.fastq.gz
#seqkit工具
seqkit fq2fa nanopore.fastq.gz

---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存