查看原文
其他

fasta格式文件处理大全(三)

王通 基因学苑 2023-08-18

前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。

9 排序

如果想按照序列从大到小或者从小到大顺序进行排序,可以使用seqkit sort功能。

seqkit sort -l -r gene.fna | less -S

10 按照长度过滤

如果想按照序列长度过滤,例如过滤掉长度小于1000bp的序列,可以使用seqtk或者seqkit的seq功能,seqkit seq 还可以过滤掉大于某一长度序列。

#过滤长度小于1000bp序列
seqtk seq -L 1000 gene.fna
seqkit seq -m 1000 gene.fna
#过滤长度大于1000bp序列
seqkit seq -M 1000 gene.fna

11 反向互补

如果想取一条fasta序列的反向互补序列也非常容易,seqtk和seqkit都可以直接完成。其中seqtk是一步完成反向互补操作,seqkit可以单独取反向序列,也可以单独取互补序列。

#原序列
$ cat test.fasta 
>test
TTGACCGATGACCCCGGTTCAGGCTTCACCACAGTGTGGAACGCGGTCGTCTCCGAACTTAACGGCGACCCTAAGGTTGA
#seqtk取反向互补序列
$ seqtk seq -r test.fasta 
>test
TCAACCTTAGGGTCGCCGTTAAGTTCGGAGACGACCGCGTTCCACACTGTGGTGAAGCCTGAACCGGGGTCATCGGTCAA
#seqkit取反向序列
$ seqkit seq -r test.fasta
>test
AGTTGGAATCCCAGCGGCAATTCAAGCCTCTGCTGGCGCAAGGTGTGACACCACTTCGGA
CTTGGCCCCAGTAGCCAGTT
#seqkit seq 加-r -p同时取反向互补序列
$ seqkit seq -r -p test.fasta
>test
TCAACCTTAGGGTCGCCGTTAAGTTCGGAGACGACCGCGTTCCACACTGTGGTGAAGCCT
GAACCGGGGTCATCGGTCAA

12 转化大小写

如果想将碱基切换大小写,也非常容易。

seqkit seq -l gene.fna| head
seqkit seq -u gene.fna| head


---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存