查看原文
其他

精选30余款宏基因组分析软件,来自老司机的使用经验总结(下篇)

李木子 生信者言 2022-03-28


前文回顾

精选30余款宏基因组分析软件,来自老司机的使用经验总结(上篇)


精选30余款宏基因组分析软件,来自老司机的使用经验总结(中篇)


欢迎加入生信者言交流群,和小伙伴们一起交流,入群请联系微信:genegogo007



微生物组学研究中,宏基因组是最为核心的一环。结合自己的实战经验和其他文献中的报道,我为大家整理了一些主流宏基因组分析软件并稍作评述。


今天是最后一篇,希望通过这三篇内容,大家能了解和掌握更多宏基因组分析的工具,并清楚各个工具的优缺点。


上篇主要介绍了流程集成、数据质控、去宿主、组装相关的11款软件及使用心得(这才是重点!!)


中篇主要介绍了基因预测和物种注释相关的10款软件


本篇,我们将盘点20款功能注释的数据库和binning软件,如下:



06

功能注释

1、KEGG

A database resource for understanding high-level functions and utilities of the biological system, such as the cell, the organism and the ecosystem, from molecular-level information, especially large-scale molecular datasets generated by genome sequencing and other high-throughput experimental technologies.


最新版本:

Release 84.0(最近一次更新在2017年10月)

参考文献:PMID: 10592173

下载地址:

http://www.kegg.jp/kegg/download/

官网地址:

http://www.genome.jp/kegg/

2、CAZy

The CAZy database describes the families of structurally-related catalytic and carbohydrate-binding modules (or functional domains) of enzymes that degrade, modify, or create glycosidic bonds.


参考文献:PMID: 24270786

官网地址:http://www.cazy.org/

3、COG

Phylogenetic classification of proteins encoded in complete genomes.


参考文献:PMID: 25428365

下载地址:ftp://ftp.ncbi.nih.gov/pub/COG/

官网地址:http://www.ncbi.nlm.nih.gov/COG/

4、EggNOG

A database of orthologous groups and functional annotation.


最新版本:

Version 4.5.1(最近一次更新在2016年11月)

参考文献:PMID: 26582926

下载地址:

http://eggnogdb.embl.de/download/

官网地址:

http://eggnogdb.embl.de/#/app/home

5、ARDB

Antibiotic Resistance Genes Database.


最新版本:

Version 1.1(最近一次更新在2009年7月)

参考文献:PMID:18832362

下载地址:

ftp://ftp.cbcb.umd.edu/pub/data/ARDB/ARDBflatFiles.tar.gz

官网地址:

https://ardb.cbcb.umd.edu/

6、CARD

A bioinformatic database of resistance genes, their products and associated phenotypes.


最新版本:

Version 1.2.0(最近一次更新在2017年9月)

参考文献:PMID:27789705

下载地址:https://card.mcmaster.ca/download

官网地址:https://card.mcmaster.ca/

7、Pfam

The Pfam database is a large collection of protein families, each represented by multiple sequence alignments and hidden Markov models (HMMs).


最新版本:

Pfam 31.0 (最近一次更新在2017年3月)

参考文献:PMID:26673716

下载地址:

ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam31.0/

官网地址:http://pfam.xfam.org/

8、Resfams

Resfams is a curated database of protein families and associated profile hidden Markov models (HMMs), confirmed for antibiotic resistance function and organized by ontology.


最新版本:

Version 1.2.1(最近一次更新在2017年3月)

参考文献:PMID: 25003965

官网地址:

http://www.dantaslab.org/resfams/

9、NR

The nr protein database maintained by NCBI as a target for their BLAST search services is a composite of SwissProt, SwissProt updates, PIR, PDB. Entries with absolutely identical sequences have been merged.


最新版本:

最新一次更新在2017年3月

参考文献:

doi:10.3969/j.issn.1000-3428.2006.05.026

下载地址:

ftp://ftp.ncbi.nlm.nih.gov/blast/db

10、Swiss-Prot

SwissProt is a highly-curated, highly-crossreferenced, non-redundant database.


参考文献:PMID:27899622

下载地址:

ftp://ftp.ebi.ac.uk/pub/databases/sp_tr_nrdb/)

官网地址:

http://www.gpmaw.com/html/swiss-prot.html

11、VFDB

The virulence factor database (VFDB) is an integrated and comprehensive online resource for curating information about virulence factors of bacterial pathogens.


最新版本:

最近一次更新在2017年10月

参考文献:PMID:26578559

下载地址:

http://www.mgc.ac.cn/VFs/download.htm

官网地址:

http://www.mgc.ac.cn/VFs/main.htm

12、PHI

This database contains expertly curated molecular and biological information on genes proven to affect the outcome of pathogen-host interactions. Information is also given on the target sites of some anti-infective chemistries.


最新版本:

Version 4.3 (最近一次更新在2017年5月)

参考文献:

PMID: 16381911

下载地址:

http://www.phi-base.org/downloadLink.htm

官网地址:

http://www.phi-base.org/

13、HUMAnN

HUMAnN is a pipeline for efficiently and accurately determining the presence/absence and abundance of microbial pathways in a community from metagenomic data. 


参考文献:

PMID:22719234

下载地址:

https://bitbucket.org/biobakery/humann/downloads/

官网地址:      http://huttenhower.sph.harvard.edu/humann


Bioinformatics

老司机点评 

宏基因组功能注释主要是基于上面得到的非冗余的基因集,利用比对软件和各功能数据库进行比对。比对软件和比对结果的筛选同物种注释类似,比对软件主要有BLAST和DIAMOND,结果的选择有best blast hit和LCA 两种策略,这里多直接选择best blast hit作为最终比对结果。


在功能数据库的选择上,林林种种的功能数据库估计得有百余种,需要结合实际样品和项目情况、科学问题等选择适合的功能注释数据库。这里列出了一些相对较为常用或有特色的数据库,比如KEGG,最优的地方在于拥有描绘已知通路的代谢通路图,另外,KEGG的MGENES数据库包含了海洋、人体等不同环境的微生物功能信息(http://www.genome.jp/mgenes/),专为宏基因组数据分析使用,可以一试。此外,还有关注碳水化合物酶的CAZy,关注直系同源基因的COG、关注已验证蛋白信息的Swiss-Prot,关注毒力因子的VFDB、PHI等,关注蛋白结构域的Pfam、Resfams等等,此处不一一列举。

 

值得注意的是抗生素抗性基因数据库(注意是抗抗生素的基因而不是抗生素基因)的选择,ARDB自09年就不再更新,官网已挂上推荐大家使用接受志愿者数据而持续有更新的CARD。此外,以CARD的抗药基因数据为核心,结合隐马可夫模型构建的蛋白结构域预测数据库Resfam也在抗生素抗性基因研究中应用很多。

 

这里再介绍一下HUMAnN软件,可以说是HMP官方指定代谢分析工具。可以直接基于reads mapping进行KEGG,COG,NOG,PFAM等功能分析。比如分析代谢通路(KEGG pathway+module,MetaCyc pathway)的丰度和覆盖度,GO、PFAM、eggNOG、KO和EC的功能丰度等,十分好用。


07

binning

binning软件

1、CONCOCT

CONCOCT “bins” metagenomic contigs. Metagenomic binning is the process of clustering sequences into clusters corresponding to operational taxonomic units of some level.


最新版本:

Version0.4

参考文献:

PMID:25218180

下载地址:

https://github.com/BinPro/CONCOCT

官网地址:

http://concoct.readthedocs.io/en/latest/#

2、Meta-BAT


最新版本:

Version 2.12.1(最近一次更新于2017年9月)

参考文献:

PMID:26336640

下载地址:

https://bitbucket.org/berkeleylab/metabat/downloads/

官网地址:

https://bitbucket.org/berkeleylab/metabat

3、Canopy

A DA method called Canopy was used to reconstruct microbial and phage genomes, and plasmids, using co-abundance patterns across multiple samples.

参考文献:

PMID:24997787

下载地址:

https://github.com/ fplaza/mgs-canopy- algorithm

4、COCACOLA

A general framework automatically bin contigs into OTUs based upon sequence composition and coverage across multiple samples which is s scalable and faster than CONCOCT ,GroopM, MaxBin and MetaBAT.


参考文献:

PMID: 27256312

下载地址:

https://github.com/younglululu/COCACOLA

5、GroopM

An automated tool for the recovery of population genomes from related metagenomes.


参考文献:      

PMID:25289188

下载地址:

www.github.com/minillinim/GroopM

6、MaxBin

An automated binning algorithm to recover genomes from multiple metagenomic datasets.


最新版本:

MaxBin 2.0

参考文献:

PMID:26515820

下载地址:

http://sourceforge.net/projects/maxbin/

binning评估

7、CheckM

Assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes.


参考文献:

PMID: 25977477

下载地址:

http://ecogenomics.github.io/CheckM/

Bioinformatics

老司机点评 

在之前的文章《句句干货!一文读懂宏基因组binning》中对宏基因组binning做了比较系统的介绍。根据基于聚类的序列类型的不同,暂且分为reads binning, contig binning和 genes binning, 由于核酸组成和物种丰度变化模式在越长的序列中越显著和稳定,基于contig binning效果可能更好,现在的很多软件也是基于contig binning。


Contig binning的软件有不少,如CONCOCT、ABAWACA、Canopy、MaxBin、MetaBAT、GroopM、COCACOLA等,在去年发表的一篇文章中也有详细比较【PMID:26951112】


Binning软件比较


这些软件中,目前比较主流和经典的是CONCOCT软件,2014年推出,目前引用量达到105;还有Meta-BAT 和 Canopy 资源消耗比较低,相比于其他binning软件资源消耗都比较大,这是一个很重要的优势。


Binning完成后,可以用CheckM软件对binning结果进行评估,得到completeness和contamination两个指标。

 

之后就可以做基于bins的单菌组装了。对于组装软件,常用的组装软件SOAPdenovo,Velvet,Ray和ABySS 等都可以,不过基于binning得到的bins进行组装,序列深度可能会比较低,可以选用适用于低深度测序的组装软件,比如Spades软件



/End.






果然科学推荐阅读

点击下方图片即可阅读


扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存