宏基因组实战4. 基因注释Prokka
前情提要
如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章
测试数据
刘博士帮助把测试数据建立了一个百度云同步共享文件夹,有非常多的好处,请读完下文再决定是否下载:
下载被墙的数据;很多数据存在google, amazon的部分服务器国内无法直接下载,而服务器一般科学上网不方便,下载数据困难。大家下载失败的数据请到共享目录中查找;
预下载好的软件、数据库;有很多需要下载安装、注册的软件(在线安装包除外),其实已经在共享目录了,节约小伙伴申请、下载的时间;
数据同步更新;任何笔记或教程不可避免的有些错误、或不完善的地方,后期通过大家的测试反馈问题,我可以对教程进行改进。共享目录不建议全部下载或转存,因为文件体积非常大,而且还会更新。你转存的只是当前版本的一个备份,就不会再更新了。建议直接在链接中每次逐个下载需要的文件,也对文件有一个认识过程。
方便结果预览和跳过问题步骤;服务器Linux在不同平台和版本下,软件安装和兼容性问题还是很多的,而且用户的权限和经验也会导致某些步骤相关软件无法成功安装(有问题建议选google、再找管理员帮助;想在群里提问或联系作者务必阅读《如何优雅的提问》)。在百度云共享目录中,有每一步的运行结果,读者可以下载查看分析结果,并可基于此结果进一步分析。不要纠结于某一步无法通过,重点是了解整个流程的分析思路。
最后送上本教程使用到的所有文件同步共享文件夹链接:http://pan.baidu.com/s/1hsIjosk 密码:y0tb 。
Prokka注释基因
Annotation with Prokka https://2017-cicese-metagenomics.readthedocs.io/en/latest/prokka_tutorial.html
Prokka简介
细菌基因组、宏基因组的基因注释一直是一个非常复杂的问题,Prokka的出现改变了这一切。
Prokka: rapid prokaryotic genome annotation,快速的原核基因组注释。就是上面的神兽,猜猜是什么动物,但真不是皮卡丘。
Prokka是一个命令行软件工具,可以在一台典型台式机上在约10分钟内充分注释一个细菌基因组草图。它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。Prokka是用Perl实现的,在遵循开源GPLv2许可证下可以从 http://www.vicbioinformatics.com/software.prokka.shtml 免费获得。
此软件2014年发表于Bioinformatics,截止2017年11月2日Google学术统计引用1265
次,最新版本1.12于2017年3月14日更新,大小360MB。因为它是一个复杂的分析流程,依赖关系众多。
安装程序
进入工作目录,即你下载数据的目录
# 设置工作目录 wd,用户根据自己的实际情修改
wd=~/test/metagenome17
cd $wd
# 下载prokka
git clone https://github.com/tseemann/prokka.git
# 安装依赖关系
sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl
# 安装perl包XML
sudo bash
export PERL_MM_USE_DEFAULT=1
export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps"
perl -MCPAN -e 'install "XML::Simple"'
exit
添加环境变量和设置数据库
# 添加环境变量
export PATH=$PATH:`pwd`/prokka/bin
# 自动搜索并添加数据库
prokka --setupdb
# 测序数据库
prokka --listdb
Prokka使用Uniprot-DB数据库,可使用–usegenus –genus Enterococcus
指定额外的数据库
运行Prokka注释contig
# 建立工作目录
mkdir annotation
cd annotation
# 准备输入文件
ln -fs ../assembly/combined/final.contigs.fa ./
# 一句命令10分钟搞定之前别人半年的工作
prokka final.contigs.fa --outdir prokka_annotation --prefix metagG --metagenome --kingdom Bacteria
就是这么简单,一句命令10分钟搞定之前别人半年的工作。给你输出了你想要的,不想要的各种格式结果。
输出文件说明详见下面链接 https://github.com/tseemann/prokka/blob/master/README.md#output-files
下表我列出各种输出结果格式简介
表1. Prokka 结果说明
Extension | Description
—-|—-
.gff | 基因注释文件,包括gff和序列,可用igv直接查看
.gbk | Genebank格式,来自gff
.fna | 输入contig核酸文件
.faa | 翻译CDS的AA序列
.ffn | 所有转录本核酸序列
.sqn | 用于提交的序列
.fsa | 输入序列,但有sqn的描述,用于tbl2asn生成sqn文件
.tbl | 特征表,用于tbl2asn生成sqn文件
.err | 错误报告
.log | 日志
.txt | 统计结果
.tsv | 所有注释基因特征表格
查看结果
# 进入结果目录
cd prokka_annotation
# 结果总结
cat metagG.txt
organism: Genus species strain
contigs: 7904
bases: 13222363
CDS: 12199
tmRNA: 4
tRNA: 300
repeat_region: 7
上面我们看到结果统计的叠连群(contigs)数量,预测基因(CDS)数量等基本信息。下面看一下预测的基因序列。
预测基因展示:
# 查看序列的基因序列
less -S metagG.fsa
>k141_4 [gcode=11] [organism=Genus species] [strain=strain]
ATCGTTTCCCTGCAGACGTCCACCGAGACGAGGTCCGTGGCTTCCACCAGTGCCCCGAGG
GCTACGATGTTGGCCACCTTTTCGCTGCCAAGTTCAAGCGCCGTGGTATGACACGGCACC
GGCAGCACGATGATATCGGATCTGGGGTCGGGATAATCCAGCAGGTCGGAATTGTAAATC
AGCGCTCCGCCCGGTTTTATGATACCGATGAAT
>k141_6 [gcode=11] [organism=Genus species] [strain=strain]
ACAGAACAACCAGGTGGAAACGTATGGTAATTATTGACACGAACACCCACGCCTTGTATT
ATAAGCGTCGCCCCTTGAAACGGGCGGCGTTTTTCATGCACCTTGACAGAGTTATATAGG
CAGGAGAGTAAGCGGGAGAAGGTAAGAGCGATTTATGGAGAGTTTGATCCTGGCTCAGGA
CGAACGCTGGCGGCGTGCCTAACACATGCAAGTCGAACGGTCTG
结果众多,不再一一列举,下面用到自然会提到并介绍,用不到的我也不懂了,今天就到这里了。
Reference
教程原文 https://2017-cicese-metagenomics.readthedocs.io/en/latest/prokka_tutorial.html
Prokka: rapid prokaryotic genome annotation https://www.ncbi.nlm.nih.gov/pubmed/24642063
Prokka中文摘要 http://www.chinapubmed.net/24642063
Prokka官网 http://www.vicbioinformatics.com/software.prokka.shtml
Seemann T. Prokka: rapid prokaryotic genome annotation. Bioinformatics. 2014 Jul 15;30(14):2068-9. PMID:24642063
官方帮助 https://github.com/tseemann/prokka/blob/master/README.md
猜你喜欢
热文:图表规范 DNA提取发Nature
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外六十位多PI,六百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加创始人好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决推荐生信技能树-微生物组版块(http://www.biotrainee.com/forum-88-1.html) 发贴,并转发链接入群,问题及解答方便检索,造福后人。
学习16S扩增子、宏基因组科研思路和分析技术,快关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读