精选30余款宏基因组分析软件,来自老司机的使用经验总结(中篇)
前文回顾
精选30余款宏基因组分析软件,来自老司机的使用经验总结(上篇)
欢迎加入生信者言交流群,和小伙伴们一起交流,入群请联系微信:genegogo007
微生物组学研究中,宏基因组是最为核心的一环。结合自己的实战经验和其他文献中的报道,我为大家整理了一些主流宏基因组分析软件并稍作评述,内容较多,拆成三篇分享给大家。
上篇主要介绍了流程集成、数据质控、去宿主、组装相关的11款软件及使用心得(这才是重点!!)。有了好的组装结果,宏基因组测序就成功了一半。本篇介绍基因预测和物种注释。
下篇,我们将盘点功能注释的数据库们和binning的软件们。
04
基因预测
1、MetaGeneMark
For many species pre-trained model parameters are ready and available through the GeneMark.hmm. Metagenomic sequences can be analyzed by MetaGeneMark , the program optimized for speed.
最新版本:Version 3.38
参考文献:PMID: 20403810
下载地址:
http://topaz.gatech.edu/GeneMark/license_download.cgi
官网地址:
http://topaz.gatech.edu/GeneMark/
2、Orphelia
Orphelia is a metagenomic ORF finding tool for the prediction of protein coding genes in short, environmental DNA sequences with unknown phylogenetic origin.
参考文献:PMID: 18442389
下载地址:
http://orphelia.gobics.de/download/orphelia.tgz
官网地址:http://orphelia.gobics.de/
3、MetaGeneAnnotator
MetaGeneAnnotator is a gene-finding program for prokaryote and phage. Anonymous and fragmented genomic sequences (longer than 60 bp) can be accepted.
参考文献:PMID:17028096
下载地址:
http://metagene.cb.k.u-tokyo.ac.jp/metagene/download_mga.html
官网地址:
http:// metagene.cb.k.u-tokyo.ac.jp
4、Glimmer-MG
A system for finding genes in environmental shotgun DNA sequences.
最新版本:
Version 0.3.2 (最新一次更新在2014年5月)
参考文献:PMID: 22102569
官网地址:
http://www.cbcb.umd.edu/software/glimmer-mg/
5、MetaGUN
A gene prediction method for metagenomic fragments based on a machine learning approach of SVM.
参考文献:PMID:23735199
下载地址:
http://bioinfo.ctb.pku.edu.cn/MetaGUN/
Bioinformatics
老司机点评
基因预测(确切来说是ORF (Open Reading Frame) 预测)的方法主要分为通过相似性比对从已知序列中找证据的同源预测和基于各种统计模型和算法的从头预测两种。相比而言,同源预测一般效果比较稳定,但由于:预测依赖于已知的基因信息、计算资源消耗过大、 不能注释出在数据库中缺少功能相似性序列的基因和发现新基因等原因,对宏基因组并不适用。
宏基因组中大部分是未知物种,因此基因预测中以从头预测应用偏多,上文介绍的几款也都属于从头预测软件。
MetaGeneMark是基因预测工具GeneMark家族中的一员,是基于隐马可夫模型(HMM)的宏基因组专用从头预测工具。GeneMark家族中还有适用于真核生物,转录组,病毒,噬菌体,质粒的针对性软件,是比较靠谱、专业的基因预测软件,网上的安装使用资料也比较多。MGM只适用于细菌和古菌的基因预测,很遗憾不能预测宏基因组中的真菌基因,有在线版和本地版,方便使用。
同样基于隐马可夫模型的还有Glimmer-MG,GLM是Glimmer家族中的宏基因组专用杀器,不同于MGM依赖于序列的GC百分比,而是利用序列间的系统发生关系进行预测,对于454序列中的同聚物和NGS测序中常见的低质量碱基识别、插入删除等都有比较好的响应。
MetaGeneAnnotator也如MGM一样依赖于序列的GC分布,结合核糖体结合位点特异信息构建自训练模型。MGA适用于细菌,古菌和噬菌体的基因预测,可以预测出水平基因转移和前噬菌体的基因,还可以发现核糖体结合位点的物种特异性模式。在线版仅支持小于10M数据,因此实际分析中也要下载本地版。
Orphelia是更晚推出的基于人工神经网络(ANN)的宏基因组ORF预测的工具,把TISs、ORF长度和GC含量等序列信息整合到一个人工神经网络中来评估ORF的蛋白质编码的概率。也有在线版和本地版,但如果数据超过30M,就只能下载安装本地版本进行预测了。
此外,也有基于支持向量机(SVM)的MetaGUN,MG也是首先基于序列组成特征(密码子的熵密度分布、翻译起始信号打分和开放阅读框长度)分类,结合已完成基因组信息完成通用预测后,再进行翻译起始位点的进一步预测。在模拟宏基因序列测试集和在两个人体肠道微生物的真实数据上的测试表明,MetaGUN在发现新基因方面更具潜力。【PMID:23735199】
05
物种注释
1、BLAST
BLAST finds regions of similarity between biological sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance.
最新版本:
Version 2.6.1(最新一次更新在2016年12月)
参考文献:PMID: 20003500
下载地址:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
官网地址:
https://blast.ncbi.nlm.nih.gov/Blast.cgi
2、DIAMOND
DIAMOND is a new high-throughput program for aligning DNA reads or protein sequences against a protein reference database such as NR, at up to 20,000 times the speed of BLAST, with high sensitivity.
最新版本:
Version 0.9.10(最新一次更新在2017年8月)
参考文献:PMID:25402007
下载地址:
https://github.com/bbuchfink/diamond/releases/tag/v0.9.10
官网地址:
http://ab.inf.uni-tuebingen.de/software/diamond/
3、MEGAN
The most powerful interactive microbiome analysis tool. Analyse metagenome, metatranscriptome and amplicon sequences from multiple sources.
最新版本:MEGAN6
参考文献:PMID:17255551
下载地址:
http://ab.inf.uni-tuebingen.de/software/megan6/download/
官网地址:
http://ab.inf.uni-tuebingen.de/software/megan6/
4、MetaPhlAn
A computational tool for profiling the composition of microbial communities (Bacteria, Archaea, Eukaryotes and Viruses) from metagenomic shotgun sequencing data with species level resolution.
最新版本:Metaphlan2
参考文献:PMID: 22688413
下载地址:
https://bitbucket.org/biobakery/metaphlan2/downloads/
官网地址:
https://bitbucket.org/biobakery/metaphlan2
5、Kraken
A system for assigning taxonomic labels to short DNA sequences, usually obtained through metagenomic studies.
最新版本:
Version 0.10.5-beta(最近一次更新在2015年2月)
参考文献:PMID:24580807
下载地址:
https://github.com/DerrickWood/kraken
官网地址:
http://ccb.jhu.edu/software/kraken/
Bioinformatics
老司机点评
宏基因组得到ORF预测结果后,通过CD-HIT去冗余后得到一个非冗余的基因集,就可以进行物种注释了,通常是利用比对软件和NCBI-NR蛋白参考库进行比对。
物种注释时,主要涉及到比对软件和比对结果的选择两方面的问题。
比对软件目前从发文情况来看还是BLAST,但2015年nature methods上发布了一款新的比对软件DIAMOND,比对速度非常快,再也不用等上几天了,感觉有取代BLAST之势。但是自行小测试发现,两者比对结果虽然基本相似,但是排在第一位的比对结果的相同率并不高,因此直接以best hit作为最终比对结果的可能需要测试下哪个软件的比对结果更符合自己的数据情况。
比对结果的选择有best hit(即综合评分最高的)和LCA(lowest common ancestors,即最近公共祖先)两种方法,best hit 精度高准确度低,LCA精度低准确度高,对于宏基因组我们还是推荐使用LCA的算法选择最终比对结果。可以使用MEGAN软件,其可以利用LCA算法分析比对结果。当然这仅仅是MEGAN的一个功能,和DIAMOND一样,它们都出自Daniel Huson实验室。
MetaPhalAn2 是基于reads做物种注释,直接通过宏基因组质控数据clean reads与marker基因集比对,对样品中的细菌、古菌、真核和病毒进行精确到种水平的物种注释, MetaPhlAn2 的marker基因集来源于~17,000基因组序列(~13,500 细菌和古菌,~3,500 病毒和~110 真核生物),与基于组装和基因预测后进行的物种注释的方法(如LCA)相比,省却了组装和基因预测过程的资源消耗,能注释到更多的低丰度物种,物种注释和物种相对丰度的准确度也大幅提高。同样直接从reads注释的还有Kraken,Kraken的特点是非常快速,但内存需求较大,大量小数据集运算比较适宜,而且在之后的研究中也指出,Kraken的快速其实还是要牺牲掉一部分注释的精确度的。
此外,RNA-Seq中的常用比对软件Kallisto (https://pachterlab.github.io/kallisto/)在宏基因组物种比对分类上也有好的表现。15年和16年的两篇文献显示Kallisto比MetaPhlAn2 和Kraken有更高的敏感度,并且在物种水平上的分类精确度也比Kraken高,结合MetaPhlAn的marker基因集和Kallisto的比对分类准确度进一步提升,注释结果可更为细化。(PMID: 28334086;doi: https://doi.org/10.1101/081141)
/End.
果然科学推荐阅读
点击下方图片即可阅读
扫码关注,获取更多精彩内容
我
是
彩
蛋
喜马拉雅FM搜索并订阅:生信者言;收听内容:
《一分钟听懂NGS基础概念》,让生信分析不再遥不可及
《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事
《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史
回复文字:果然科学,看一篇好玩的科普文。