查看原文
其他

宏基因组分析软件专题(二)| 热心肠日报

热心肠小伙伴们 热心肠研究院 2022-01-15

今天是第1254期日报。

聚焦宏基因组拼接、基因注释软件,让选择不再困难。

上一期:0918 | 宏基因组分析软件专题(一)

微生物组数据分析思想、步骤及软件和数据库选择指南

Hereditas(Beijing)[IF:N/A]

① 本文概述了微生物组研究主要分为微生物培养、DNA和mRNA层面,按研究技术主要包括培养组、扩增子、宏基因组、宏病毒组和宏转录组等测序技术;② 测序技术研究,主要分为样本制备、测序、数据处理和统计分析四个阶段;③ 数据分析主要通过降维和可视化的基本思想,实现将大数据转化为可读图表;④ 对常用分析语言环境Shell和R的入门提供建议;⑤ 对扩增子和宏基因组常用近100个软件和数据库的优缺点进行点评,方便读者选择。

Methods and applications for microbiome data analysis
09-02, doi: 10.16288/j.yczz.19-222

【主编评语】高通量测序技术的发展衍生出一系列微生物组(microbiome)研究技术,如扩增子、宏基因组、宏转录组等,快速推动了微生物组领域的发展。微生物组数据分析涉及的基础知识、软件和数据库较多,对于同领域研究者开展学习和选择合适的分析方法具有一定困难。本文系统概述了微生物组数据分析的基本思想和基础知识,详细总结比较了扩增子和宏基因组分析中的常用软件和数据库,并对高通量数据下游分析中常用的几种方法,包括统计和可视化、网络分析、进化分析、机器学习和关联分析等,从可用性、软件选择以及应用等几个方面进行了概述。本文拟通过对当前微生物组主流分析方法的整理和总结,为同领域研究者更方便、灵活的开展数据分析,快速选择研究分析工具,高效挖掘数据背后的生物学意义提供参考,进一步推动微生物组研究在生物学领域的发展。全文可杂志官网免费获取,下载链接 http://www.chinagene.cn/CN/10.16288/j.yczz.19-222 。(@刘永鑫-中科院遗传发育所-宏基因组)

“扩增子”VS“宏基因组”——到底谁可以描绘宿主和微生物共生体进化蓝图

Microbiome[IF:10.465]

① 作为当前主流的微生物群落的研究手段,我们评估扩增子测序和“鸟枪法”宏基因组测序,及扩增对不同宿主微生物群落的影响,结果表明两种方法在表征微生物群落方面具有较好的一致性;② 基于 16S rRNA扩增子测序,我们推荐扩增V3-V4区域,最好进行多步PCR扩增;③ 通过对多个宿主微生物的物种分类和功能图谱分析,我们提出了自己独特的见解:动物栖息地从水体环境转到陆地环境是宿主相关微生物群落进化的一次里程碑事件。

Comparative analysis of amplicon and metagenomic sequencing methods reveals key features in the evolution of animal metaorganisms
09-14, doi: 10.1186/s40168-019-0743-1

【主编评语】高通量测序使微生物组的研究走上了快车道,与宿主相关的微生物往往更受研究者青睐。不仅仅作为人类的第二基因组,微生物其实与大量的动植物都有互作关系。这一宿主微生物共生体对于生态系统的稳定、发展和进化尤其重要。在微生物协同宿主进化研究中,基于扩增子和宏基因组都可以对微生物群落结构进行表征。为了比较它们表征微生物群落和功能的异同,同时为广大研究者提供方法上的优化和参考,基于两种不同方法,作者使用不同环境的宿主相关微生物进行了深入的讨论。并且在宿主和微生物互作方面提出了自己独特的见解。相信在今后可以为我们研究宿主微生物进化之路提供有力的技术参考和重要的认识。(@刘永鑫-中科院遗传发育所-宏基因组)

metaSPAdes:株水平高精度宏基因组拼接软件

Genome Research[IF:9.944]

① metaSPAdes是目前宏基因组领域组装指标较好的软件,尤其在株水平组装优势明显;② 软件基于SPAdes系列积累的单细胞和高度多态的二倍体基因组中积累的有用经验;③ 软件与宏基因组领域主流组装工具MEGAHIT、IDBA—UD、Ray-Meta进行比较,在合成群落、人类、海洋和土壤微生物组中均表现出更好的基因长度和读长比较率;④ 软件在组装中对宏基因组中的相近菌株的组装、重复序列处理进行优化,以获得更好的组装长度。

metaSPAdes: a new versatile metagenomic assembler
2017-05-01, doi: 10.1101/gr.213959.116

【主编评语】metaSPAdes是目前宏基因组领域组装指标最好、最耗时和耗内存的软件,也存在提高错误率。其支持混装是一大优点,还有很多子版本,如metaplasmidSPAdes装质粒(https://www.mr-gut.cn/papers/read/1041966050)。此软件也是组装评比中必用软件,如《宏基因组仿真数据生成软件:CAMISIM》(https://www.mr-gut.cn/papers/read/1045860958)。最新组装工具OPERA-MS也会与其对标比较(https://www.mr-gut.cn/papers/read/1088940721)。(@刘永鑫-中科院遗传发育所-宏基因组)

IDBA-UD:宏基因组和单细胞组装工具

Bioinformatics[IF:4.531]

① IDBA-UD算法专门用于组装来自具有不均匀测序深度的单细胞或宏基因组测序技术数据;② 使用多个深度相关阈值来去除低深度和高深度区域中的错误k-mer;③ 使用具有末端信息的局部组装技术来解决低深度短重复区域的分支问题;④ 在模拟和真实数据集上的实验结果表明,IDBA-UD在深度高度不均匀的数据集中的表现优于所有现有的组装程序(SOAPdenovo、Velvet和Meta-IDBA等)。

IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth
2012-04-11, doi: 10.1093/bioinformatics/bts174

【主编评语】IDBA-UD是目前宏基因组最常用的三款拼接软件之一,另外两个分别为拼接结果最快的MEGAHIT(http://www.mr-gut.cn/papers/read/1051360183)和最长的metaSpades。IDBA—UD的速度和内存消耗介于两者之者,是平衡的选择,优点也较多,可实现从小到大迭代k,还通过局部组装重建缺失的k-mers,并通过迭代地去除低深度重叠群来去除错误。最近Nature Biotechnology的文章也选用了些方法组装(http://www.mr-gut.cn/papers/read/1066063689)。(@刘永鑫-中科院遗传发育所-宏基因组)

MetaQuast:专业评估宏基因组拼接质量的软件

Bioinformatics[IF:4.531]

① MetaQUAST是一款专门针对宏基因组拼接结果评估的工具;② 评估主要步骤包括比对参考序列确定未知物种含量,提供基于多样性参考基因组的综合报告,通过检测嵌合重叠群确定是否存在高度相关的物种;③ 通过4种常用拼接工具分析一个模拟数据集和两个真实数据集的结果进行评估,测试结果表明MetaQUAST性能良好,同时发现没有一个软件在各方面都能优于其它软件;④ 该软件可为用户选择适合的拼接工具提供指导。

MetaQUAST: evaluation of metagenome assemblies
2016-04-01, doi: 10.1093/bioinformatics/btv697

【主编评语】宏基因组拼接软件众多,但由于缺少参考数据库,拼接结果评估困难。QUAST是2013年发表于Bioinformatics,是一款非常流行的基因组拼接结果评估软件,引用1759次。2016年又推出了专门针对宏基因组的MetaQUAST版本,引用125次(引用统计截止19年9月17日)。(@刘永鑫-中科院遗传发育所-宏基因组)

Prokka细菌基因组和宏基因组基因注释流程

Bioinformatics[IF:4.531]

① Prokka是原核基因组注释的分析流程,包括基因鉴定、功能注释和基因组配套注释文件生成;② 软件使用Prodigal鉴定编码基因位置,多种软件鉴定多类型非编码RNA,并采用多种方法和数据库依次对基因功能进行注释;③ 软件输入文件仅为fasta文件,依赖软件和数据库较多,但支持conda一键安装;④ 软件在功能注释步骤较耗时,通常细菌基因组在10分内完成,宏基因组耗时较长可将任务拆分计算;⑤ 结果输出10类文件,满足发表、提交数据库所需文件。

Prokka: rapid prokaryotic genome annotation
2014-07-15, doi: 10.1093/bioinformatics/btu153

【主编评语】Prokka是一个神奇的软件,只有一个作者,发表5年引用3千多次可谓神作。目前在细菌菌组、宏基因组领域有非常广泛的应用。(@刘永鑫-中科院遗传发育所-宏基因组)

Prodigal鉴定细菌基因组和宏基因组中的基因

BMC Bioinformatics[IF:2.511]

① Prodigal是细菌基因预测领域的主流软件,在宏基因组领域也有较多应用;② 软件主要采用动态规划算法,较其它主流工具相比有更接近参考注释的水平;③ 软件引用超3千多次,并被众多分析工具整合,如抗生素抗生基因鉴定流程rgi、基因注释流程prokka、分箱流程das_tool和、基因簇鉴定流程antismash等;④ 软件运行速度快,支持多线程,原生安装或conda安装都非常方便。

Prodigal: prokaryotic gene recognition and translation initiation site identification
2010-03-08, doi: 10.1186/1471-2105-11-119

【主编评语】由橡树岭国家实验室计算生物学与生物信息学小组开发的Prodigal是原核生物基因鉴定的流行软件,引用3千多次可谓神作。而且此软件被众多分析流程整合,如抗生素抗生基因鉴定rgi、分箱结果去冗余drep(https://www.mr-gut.cn/papers/read/1066969984)、宏基因组流程anvio、基因注释流程prokka(https://www.mr-gut.cn/papers/read/1076111428)、基因组质量评估checkm-genome、分箱流程das_tool(https://www.mr-gut.cn/papers/read/1036660372)、基因簇鉴定antismash等,引用被严重低估。目前在细菌菌组、宏基因组领域有非常广泛的应用。(@刘永鑫-中科院遗传发育所-宏基因组)

metaProdigal:宏基因组序列中的基因预测

Bioinformatics[IF:4.531]

① metaProdigal是Prodigal的宏基因组中预测基因的专业版本,可实现高度准确地识别短和匿名编码序列中的基因;② 该方法的新颖价值包括增强的翻译起始位点识别,识别使用替代遗传密码的序列和评估每个基因置信度值的能力;③ 可以根据要求输出蛋白质翻译,DNA序列和有关序列中每个潜在起始位点的详细信息;④ 软件运行速度快,支持多线程加速,原生安装或conda安装都非常方便,单线程下7小时可处理1GB数据。

Gene and translation initiation site prediction in metagenomic sequences
2012-07-12, doi: 10.1093/bioinformatics/bts429

【主编评语】由橡树岭国家实验室计算生物学与生物信息学小组开发的Prodigal是原核生物基因鉴定的流行软件,引用3千多次可谓神作。2012年开发的metaProdigal版本,改进了宏基因组中的基因鉴定能力,可作为宏基因组分析中基因鉴定步骤的推荐软件之一。(@刘永鑫-中科院遗传发育所-宏基因组)

感谢本期日报的创作者:刘永鑫-中科院遗传发育所-宏基因组

点击阅读过去10天的日报:

1014 | 预防癌症,警惕高脂饮食

1013 | 红肉之后,还有哪些饮食成分值得关注?

1012 | 肥胖,不止是体重

1011 | 一图读懂:菌群如何影响宿主表型

1010 | 肠道给药新装置:告别打针,口服胶囊搞定生物大分子药物

1009 | 菌群移植新突破!不只粪菌,阴道菌群也能治病

1008 | 炎性衰老与DNA损伤,菌群扮演什么角色?

1007 | 粪菌+小RNA:诊断大肠癌的新思路?

1006 | 不用少吃红肉和加工肉了?仍需谨慎

1005 | 烹饪:塑造肠道菌群的关键因素

点击阅读原文,查看更多热心肠日报的内容

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存