基因组注释3.基因的功能注释Prokka
The following article is from 美格基因 Author 分析技术部
基因组注释的前两篇为大家讲解了关于基因组组成成分分析(包括重复序列的识别、非编码基因和编码基因预测等)的内容,今天,将重点介绍如何进行基因的功能注释。
基因的功能注释
获得基因结构信息后,我们希望能够进一步获得基因的功能信息。基因的功能注释指的是根据数据库中已知编码基因的注释信息(包括motif、domain),基于同源比对,对基因中的模序和结构域、新基因编码的蛋白质功能、所参与的信号传导通路和代谢途径等的预测。
常用的数据库有NR、SWISS-PROT、InterProScan、COG、eggNOG、KEGG、GO等。在专题一:生物信息学基本概念及常用数据库介绍中,我们也介绍了其中的几个数据库,基因组注释内容还可涉及蛋白激酶、病原与宿主互作、致病毒力因子预测、抗性基因等等,这些暂不介绍,大家如有兴趣可去查阅相关文献。
注释内容众多,实在难以一一述说。
这里以对原核基因组进行基因预测和注释为例,推荐使用工具prokka。下面简单介绍如何使用prokka自动化注释基因组。
Prokka的使用
Prokka是一款简单、快速和高效的原核基因组注释工具,它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。Prokka是用Perl实现的,可从http://www.vicbioinformatics.com/software.prokka.shtml免费获得。此软件2014年发表于Bioinformatics,截止2017年11月2日Google学术统计引用1265次。
如果使用conda可一键安装 conda install prokka
如果你不想用conda,非想手动安装,请看下面这段废话。
首先,下载prokka并进行安装。因为它是一个复杂的分析流程,依赖关系众多,所以安装步骤显得困难一些。
安装prokka前,需要安装一些依赖,需要安装Perl、git。如果你们使用的是Linux操作系统,那么大部分Linux发行版都默认安装好Perl。在Linux终端中,输入命令:perl -v 可查看当前环境是否安装了Perl,如我这里安装的Perl版本为v5.27.9:
然后安装perl模块,推荐使用cpanm进行安装。如下:
$ cpanm Time::Piece XML::Simple Digest::MD5 Bio::Perl
再然后安装第三方依赖工具,主要有以下工具:
blast+
hmmer3
parallel
prodigal
Barrnap (https://github.com/tseemann/barrnap)
RNAmmer
aragorn
tbl2asn
注意,上述软件需要在系统路径可调用($PATH)。可自行Google如何安装,在此不赘述。
接着,使用git从GitHub上下载prokka:
$ git clone https://github.com/tseemann/prokka.git
$ cd prokka
如果没有git,可以从上述超链接中下载源码包,解压即可。
将 prokka 添加到环境变量中,在$HOME/.bashrc中写入:
export PATH=$PATH:$HOME/prokka-1.11/bin
注意,请修改为你安装的prokka路径。
接下来,测试是否可以使用prokka,输入命令:
$ prokka --version
如果显示出prokka版本信息,说明prokka安装正确。
最后,需要进行索引数据库,如下:
$ prokka --setupdb
示例:
prokka --force --outdir ./out_dir/ --prefix test-1122 --kingdom Bacteria --usegenus --genus Streptococcus --species pneumoniae --strain 1122 --gcode 11 --evalue 1e-5 --locustag test1122 --addgenes --rnammer your_genome.fasta
参数说明:
General:
--help This help
--version Print version and exit
--docs Show full manual/documentation
--citation Print citation for referencing Prokka
--quiet No screen output (default OFF)
--debug Debug mode: keep all temporary files (default OFF)
Setup:
--listdb List all configured databases
--setupdb Index all installed databases
--cleandb Remove all database indices
--depends List all software dependencies
Outputs:
--outdir [X] Output folder [auto] (default '')
--force Force overwriting existing output folder (default OFF)
--prefix [X] Filename output prefix [auto] (default '')
--addgenes Add 'gene' features for each 'CDS' feature (default OFF) # 建议加上
--locustag [X] Locus tag prefix (default 'PROKKA')
--increment [N] Locus tag counter increment (default '1')
--gffver [N] GFF version (default '3')
--compliant Force Genbank/ENA/DDJB compliance: --addgenes --mincontiglen 200 --centre XXX (default OFF)
--centre [X] Sequencing centre ID. (default '')
Organism details:
--genus [X] Genus name (default 'Genus') # 属
--species [X] Species name (default 'species') # 种
--strain [X] Strain name (default 'strain') # 株系
--plasmid [X] Plasmid name or identifier (default '')
Annotations:
--kingdom [X] Annotation mode: Archaea|Bacteria|Mitochondria|Viruses (default 'Bacteria')
--gcode [N] Genetic code / Translation table (set if --kingdom is set) (default '0')
--gram [X] Gram: -/neg +/pos (default '')
--usegenus Use genus-specific BLAST databases (needs --genus) (default OFF)
--proteins [X] Fasta file of trusted proteins to first annotate from (default '')
--hmms [X] Trusted HMM to first annotate from (default '')
--metagenome Improve gene predictions for highly fragmented genomes (default OFF)
--rawproduct Do not clean up /product annotation (default OFF)
Computation:
--fast Fast mode - skip CDS /product searching (default OFF)
--cpus [N] Number of CPUs to use [0=all] (default '8')
--mincontiglen [N] Minimum contig size [NCBI needs 200] (default '1')
--evalue [n.n] Similarity e-value cut-off (default '1e-06')
--rfam Enable searching for ncRNAs with Infernal+Rfam (SLOW!) (default '0')
--norrna Don't run rRNA search (default OFF)
--notrna Don't run tRNA search (default OFF)
--rnammer Prefer RNAmmer over Barrnap for rRNA prediction (default OFF)
以上,就是本期基因组注释的全部内容。
至此,基因注释专题的3节课程到此圆满结束啦,感谢每一位读者。开设该专题最初是为了能对在生信入门阶段学习的小伙伴有所帮助,一路走来发现这并不是一件简单轻松的事情,生信世界如同浩瀚宇宙,你知道的越多,你不知道的就越多。
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2400+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”