其他
fasta格式文件处理大全(三)
前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。
9 排序
如果想按照序列从大到小或者从小到大顺序进行排序,可以使用seqkit sort功能。
seqkit sort -l -r gene.fna | less -S
10 按照长度过滤
如果想按照序列长度过滤,例如过滤掉长度小于1000bp的序列,可以使用seqtk或者seqkit的seq功能,seqkit seq 还可以过滤掉大于某一长度序列。
#过滤长度小于1000bp序列
seqtk seq -L 1000 gene.fna
seqkit seq -m 1000 gene.fna
#过滤长度大于1000bp序列
seqkit seq -M 1000 gene.fna
11 反向互补
如果想取一条fasta序列的反向互补序列也非常容易,seqtk和seqkit都可以直接完成。其中seqtk是一步完成反向互补操作,seqkit可以单独取反向序列,也可以单独取互补序列。
原序列
cat test.fasta
test
TTGACCGATGACCCCGGTTCAGGCTTCACCACAGTGTGGAACGCGGTCGTCTCCGAACTTAACGGCGACCCTAAGGTTGA
seqtk取反向互补序列
seqtk seq -r test.fasta
test
TCAACCTTAGGGTCGCCGTTAAGTTCGGAGACGACCGCGTTCCACACTGTGGTGAAGCCTGAACCGGGGTCATCGGTCAA
seqkit取反向序列
seqkit seq -r test.fasta
test
AGTTGGAATCCCAGCGGCAATTCAAGCCTCTGCTGGCGCAAGGTGTGACACCACTTCGGA
CTTGGCCCCAGTAGCCAGTT
seqkit seq 加-r -p同时取反向互补序列
seqkit seq -r -p test.fasta
test
TCAACCTTAGGGTCGCCGTTAAGTTCGGAGACGACCGCGTTCCACACTGTGGTGAAGCCT
GAACCGGGGTCATCGGTCAA
12 转化大小写
如果想将碱基切换大小写,也非常容易。
seqkit seq -l gene.fna| head
seqkit seq -u gene.fna| head
---------- END ----------
(添加作者微信,请注明单位姓名)
您可能还会感兴趣的
基因学苑文章列表(201906)
上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X