查看原文
其他

基因组注释3.基因的功能注释Prokka

宏基因组 2022-03-28

The following article is from 美格基因 Author 分析技术部

基因组注释的前两篇为大家讲解了关于基因组组成成分分析(包括重复序列的识别非编码基因和编码基因预测等)的内容,今天,将重点介绍如何进行基因的功能注释。 

基因的功能注释


获得基因结构信息后,我们希望能够进一步获得基因的功能信息。基因的功能注释指的是根据数据库中已知编码基因的注释信息(包括motif、domain),基于同源比对,对基因中的模序和结构域、新基因编码的蛋白质功能、所参与的信号传导通路和代谢途径等的预测

常用的数据库有NR、SWISS-PROT、InterProScan、COG、eggNOG、KEGG、GO等。在专题一:生物信息学基本概念及常用数据库介绍中,我们也介绍了其中的几个数据库,基因组注释内容还可涉及蛋白激酶、病原与宿主互作、致病毒力因子预测、抗性基因等等,这些暂不介绍,大家如有兴趣可去查阅相关文献。

注释内容众多,实在难以一一述说。

这里以对原核基因组进行基因预测和注释为例,推荐使用工具prokka。下面简单介绍如何使用prokka自动化注释基因组。

Prokka的使用

Prokka是一款简单、快速和高效的原核基因组注释工具,它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。Prokka是用Perl实现的,可从http://www.vicbioinformatics.com/software.prokka.shtml免费获得。此软件2014年发表于Bioinformatics,截止2017年11月2日Google学术统计引用1265次。



1. 安装prokka程序


如果使用conda可一键安装 conda install prokka

如果你不想用conda,非想手动安装,请看下面这段废话。

首先,下载prokka并进行安装。因为它是一个复杂的分析流程,依赖关系众多,所以安装步骤显得困难一些。

安装prokka前,需要安装一些依赖,需要安装Perl、git。如果你们使用的是Linux操作系统,那么大部分Linux发行版都默认安装好Perl。在Linux终端中,输入命令:perl -v 可查看当前环境是否安装了Perl,如我这里安装的Perl版本为v5.27.9:

然后安装perl模块,推荐使用cpanm进行安装。如下:

$ cpanm Time::Piece XML::Simple Digest::MD5 Bio::Perl

再然后安装第三方依赖工具,主要有以下工具:

  • blast+

  • hmmer3

  • parallel

  • prodigal

  • Barrnap (https://github.com/tseemann/barrnap

  • RNAmmer

  • aragorn

  • tbl2asn

注意,上述软件需要在系统路径可调用($PATH)。可自行Google如何安装,在此不赘述。

接着,使用git从GitHub上下载prokka:

$ git clone https://github.com/tseemann/prokka.git

$ cd prokka

如果没有git,可以从上述超链接中下载源码包,解压即可。

将 prokka 添加到环境变量中,在$HOME/.bashrc中写入:

export PATH=$PATH:$HOME/prokka-1.11/bin

注意,请修改为你安装的prokka路径。

接下来,测试是否可以使用prokka,输入命令:

$ prokka --version

如果显示出prokka版本信息,说明prokka安装正确。

最后,需要进行索引数据库,如下:

$ prokka --setupdb


2. 程序的使用

示例:

prokka --force --outdir ./out_dir/ --prefix test-1122 --kingdom Bacteria --usegenus --genus Streptococcus --species pneumoniae --strain 1122 --gcode 11 --evalue 1e-5 --locustag test1122 --addgenes --rnammer your_genome.fasta

参数说明:

General:

  --help            This help

  --version         Print version and exit

  --docs            Show full manual/documentation

  --citation        Print citation for referencing Prokka

  --quiet           No screen output (default OFF)

  --debug           Debug mode: keep all temporary files (default OFF)

Setup:

  --listdb          List all configured databases

  --setupdb         Index all installed databases

  --cleandb         Remove all database indices

  --depends         List all software dependencies

Outputs:

  --outdir [X]      Output folder [auto] (default '')

  --force           Force overwriting existing output folder (default OFF)

  --prefix [X]      Filename output prefix [auto] (default '')

  --addgenes        Add 'gene' features for each 'CDS' feature (default OFF)     # 建议加上

  --locustag [X]    Locus tag prefix (default 'PROKKA')

  --increment [N]   Locus tag counter increment (default '1')

  --gffver [N]      GFF version (default '3')

  --compliant       Force Genbank/ENA/DDJB compliance: --addgenes --mincontiglen 200 --centre XXX (default OFF)

  --centre [X]      Sequencing centre ID. (default '')

Organism details:

  --genus [X]       Genus name (default 'Genus')     # 属

  --species [X]     Species name (default 'species')    # 种

  --strain [X]      Strain name (default 'strain')      # 株系

  --plasmid [X]     Plasmid name or identifier (default '')

Annotations:

  --kingdom [X]     Annotation mode: Archaea|Bacteria|Mitochondria|Viruses (default 'Bacteria')

  --gcode [N]       Genetic code / Translation table (set if --kingdom is set) (default '0')

  --gram [X]        Gram: -/neg +/pos (default '')

  --usegenus        Use genus-specific BLAST databases (needs --genus) (default OFF)

  --proteins [X]    Fasta file of trusted proteins to first annotate from (default '')

  --hmms [X]        Trusted HMM to first annotate from (default '')

  --metagenome      Improve gene predictions for highly fragmented genomes (default OFF)

  --rawproduct      Do not clean up /product annotation (default OFF)

Computation:

  --fast            Fast mode - skip CDS /product searching (default OFF)

  --cpus [N]        Number of CPUs to use [0=all] (default '8')

  --mincontiglen [N] Minimum contig size [NCBI needs 200] (default '1')

  --evalue [n.n]    Similarity e-value cut-off (default '1e-06')

  --rfam            Enable searching for ncRNAs with Infernal+Rfam (SLOW!) (default '0')

  --norrna          Don't run rRNA search (default OFF)

  --notrna          Don't run tRNA search (default OFF)

  --rnammer         Prefer RNAmmer over Barrnap for rRNA prediction (default OFF)

以上,就是本期基因组注释的全部内容。



至此,基因注释专题的3节课程到此圆满结束啦,感谢每一位读者。开设该专题最初是为了能对在生信入门阶段学习的小伙伴有所帮助,一路走来发现这并不是一件简单轻松的事情,生信世界如同浩瀚宇宙,你知道的越多,你不知道的就越多。

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2400+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存