查看原文
其他

宏基因组04 宏基因组的注释Prokka、Prodigal

Wenzday 植物微生物组 2022-07-05

软件的安装

Prokka 的安装
conda install -c conda-forge -c bioconda prokka
Prodigal 的安装
git clone https://github.com/hyattpd/Prodigal.git cd prodigal make install INSTALLDIR=/where/i/want/prodigal/ make

软件的使用

Prokka的使用参数详解
Usage:  prokka [选项] <基因组fasta文件> General:  --help             输出帮助信息  --version          输出版本号  --docs             输出所有文档  --citation         输出引文  --quiet            非标准输出  --debug            Debug 模式:保存临时文件(default OFF) Setup:  --dbdir [X]        Prokka database所在的根文件夹(default  '/mnt/bai/public/anaconda3/db')  --listdb           列出所有配置的数据库  --setupdb          为所有安装的数据库建索引  --cleandb          删除掉某些数据库的索引  --depends          列出该软件需要的所有依赖 Outputs:  --outdir [X]       输出的文件夹[auto] (default '')  --force            强制覆盖掉现存的文件夹 (default OFF)  --prefix [X]       输出文件名的前缀 [auto] (default '')  --gffver [N]       GFF版本(default '3') Organism details:  --genus [X]        属名 (default 'Genus')  --species [X]      种名 (default 'species')  --strain [X]       菌株名 (default 'strain')  --plasmid [X]      质粒名称和ID (default '') Annotations:  --kingdom [X]      注释模式: 古菌、细菌、线粒体、病毒 (default 'Bacteria')  --gcode [N]        遗传密码表设置(根据届名设置) (default '0')  --gram [X]         革兰氏: -/阴性 +/阳性 (default '')  --usegenus         使用属特意的blast数据库 (needs --genus) (default OFF)  --proteins [X]     蛋白格式优先使用的格式 (default '')  --hmms [X]         Trusted HMM to first annotate from (default '')  --metagenome       提升高度片段化的基因组的预测 (default OFF) Matching:  --evalue [n.n]     相似性 e-value 的阈值 (default '1e-09')  --coverage [n.n]   比对上的最小蛋白的query的长度 (default '80') Computation:  --cpus [N]         使用的CPU数目 [0=all] (default '8')  --fast             快速注释模式 - 只使用基本的BLASTP databases (default OFF)  --mincontiglen [N] 最小的coting 长度 [NCBI needs 200] (default '1')  --rfam             Infernal+Rfam 鉴定非编码的RNA 使用 (SLOW!) (default '0')  --norrna           不进行rRNA 注释 Don't run rRNA search (default OFF)  --notrna           不进行tRNA 注释 Don't run tRNA search (default OFF)  --rnammer          进行RNA预测时优先使用RNAmmer于Barrnap (default OFF)

表1. Prokka 结果说明
Extension | Description
—-|—-
.gff | 基因注释文件,包括gff和序列,可用igv直接查看
.gbk | Genebank格式,来自gff
.fna | 输入contig核酸文件
.faa | 翻译CDS的AA序列
.ffn | 所有转录本核酸序列
.sqn | 用于提交的序列
.fsa | 输入序列,但有sqn的描述,用于tbl2asn生成sqn文件
.tbl | 特征表,用于tbl2asn生成sqn文件
.err | 错误报告
.log | 日志
.txt | 统计结果
.tsv | 所有注释基因特征表格

Prodigal的使用参数详解
prodigal -i my.metagenome.fna -o my.genes -a my.proteins.faa -p meta -a:  输出选中文件的蛋白翻译结果. -c:  不允许注释的基因超出基因组序列的边缘. -d:  将基因序列输出到该文件 -f:  选择输出的注释文件格式 (gbk, gff, or sco).  Default is gbk. -g:  指定翻译密码子 (default 11). -h:  打印帮助菜单并退出. -i:  指定输入的fasta和genbank文件 (default reads from stdin). -m:  将包含N的序列过滤掉; 不在该区段注释文件. -o:  指定输出的文件 (default writes to stdout). -p:  选择注释程序 (单基因组 or 宏基因组).  Default is single. -q:  静默模式,不在屏幕输出任何错误信息 (suppress normal stderr output). -s:  输出所有潜在的基因及其得分 -v:  打印版本信息并退出.

prodigal 结果说明:

ID: 每个基因的唯一ID,包含每条序列的序号ID。以及原始的基因ID,以及序列的次序ID(用下划线隔开). 例如, "4_1023"表示第1023个基因在文件的第四条序列中。 partial:表示一个基因是否达到序列的边界,或者引入了Gap缺失。 "0" 表示基因有一个真正的边界 (起始 or 终止),1表示基因在边界上未结束的,也就是部分基因。例如, "01"表示基因在右边界是缺失的, "11" 表示基因在两端都是缺失的, 以及 "00"表示一个具有起始和终止密码子的完整基因。 start_type: 序列起始密码子的类别 ( ATG, GTG, or TTG). 如果该基因没有起始密码子,这一域写作"Edge". stop_type:序列终止密码子的类别(通常是TAA, TGA, or TAG).如果该基因没有终止密码子,这一域叫做 "Edge". rbs_motif: Prodigal发现的核糖体结合的motif (e.g. "AGGA" or "GGA", etc.) rbs_spacer: 起始密码子和rbs motif之间的碱基数目 gc_cont:基因序列的GC含量. gc_skew:基因序列的GC偏度. conf: 该基因的置信得分,代表该基因真正为基因的概率. score: 该基因的所有得分. sscore: 该基因的翻译起始位点得分; 是以下三部分的得分之和. rscore: 该基因的RBS motif 得分. uscore: 围绕着起始密码子的序列得分. tscore: 起始密码子类型的得分 (ATG vs. GTG vs. TTG vs. Nonstandard). mscore: 剩余的信号得分 (stop codon type and leading/lagging strand information).

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存