查看原文
其他

fasta格式文件处理大全(五)

王通 基因学苑 2023-08-18

前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。

17 查找重复序列

给定一段fasta格式的基因组序列,如何找到其中的重复序列,其实也比较容易,直接使用RepeatMasker工具即可。

RepeatMasker -pa 2 -q -species tuber -html -gff -dir repeat ref.fna

-pa:线程数
-q:快速模式,敏感性稍低,-s为慢速模式,敏感性更高
-species:物种名
-html:输出html结果
-gff:输出gff格式结果
-dir:输出文件夹

18 串联重复序列

给定一段fasta格式的基因组序列,如何找到其中的串联重复序列,可以使用trf工具。

trf ref.fna 2 7 7 80 10 50 500 -f -d -m   

2 7 7 80 10 50:为运行模式选项,各种罚分标准。
-m:输出屏蔽序列
-f :输出侧翼序列
-d :输出结果文件
-h:输出html格式结果

19 blast比对

fasta格式最长使用的就是进行blast对,比对之前需要对参考序列建立索引。例如,有两个fasta格式序列,ref.fna与query.fna,其中ref.fna作为参考序列。

#建立索引
#makeblastdb -in ref.fna -dbtype nucl -parse_seqids -out ref.fna
#blastn比对
blastn -query gene.fna -db ref.fna -out blastn.out -outfmt 0 -evalue 1e-5

20 建立bwa索引

fasta序列可以作为BWA比对的参考序列,比对之前同样创建索引。

bwa index -a is ref.fna

---------- END ----------



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存