查看原文
其他

fasta格式文件处理大全(四)

王通 基因学苑 2023-08-18

前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。

13 预测基因

给定一段fasta格式序列,如何预测其中的基因呢?首先需要判断该片段来自原核生物,真核生物还是病毒序列。如果是原核生物,基因结构比较简单,可以直接使用prodigal或者glimmer3工具进行预测。直接将fasta格式序列输入给软件即可。

prodigal -a ref.pep -d ref.cds -f gff -g 11  -o ref.gff  -s ref.stat -i ref.fna >prodigal.log 

-i:输入文件,fasta格式
-o:输出结果文件,有多种格式可选
-f:输出文件类型gbk, gff, or sco
-d:基因的核酸序列
-a:基因的氨基酸序列
-g:密码子表,细菌为第11
-p:模式,单菌还是宏基因组
-s:统计信息  
如果是真核生物,可以使用augustus或者snap工具进行预测。

#真核生物基因预测  
augustus --strand=both --genemodel=partial --singlestrand=false --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --alternatives-from-evidence=true --gff3=on --UTR=on --outfile=out.gff --species=human HS04636.fa  

14 基因功能注释

给定一个基因序列,fasta格式的氨基酸序列,如何得到基因的功能信息?可以使用eggnog-mapper进行分析。

emapper.py -i gene.fasta --output polb_bact -d bact --data_dir eggnog-mapper-1.0.3/data/

-i:输入文件,基因的氨基酸序列
-m:选择运行模式hmmer或者diamond
-h:输出帮助文档
--output:输出结果前缀
--output_dir:输出结果目录
--data_dir:数据库目录
--database:单独指定数据库
--dmnd_db:单独指定diamond数据库路径

15 预测rRNA

给定一段序列,如何找到其中的核糖体RNA,也就是rRNA,包括原核生物的5S,16S,23S,真核生物的5.8S,18S,28SRNA等,由于核糖体RNA具有很高的保守性,因此,预测准确性较高。使用rnammer软件,直接输入fasta序列即可。

rnammer -S bac -m tsu,lsu,ssu  -gff ref.gff -f ref.frn ref.fna  

-S:物种类型,古细菌,细菌或者真菌
-m:需要rRNA类型,如果真要16S,则单独选择lsu  
-gff:输出gff格式结果
-f:输出fasta格式序列

16 预测tRNA

给定一段序列,如何找到其中的转运RNA,也就是tRNA,可以使用tRNAscan工具,直接输入序列即可。

tRNAscan-SE  -B  -o tRNAScan.out -f tRNAScan.out.structure -m stat.list ref.fna  

-B :物种为细菌
-A :物种为古细菌
-O :输入序列为细胞器
-G :包括全部类型
-o:输出结果
-f:tRNA二级结构
-m:统计结果

---------- END ----------



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存