宏基因组分析软件专题(一)| 热心肠日报
The following article is from 热心肠研究院 Author 热心肠小伙伴们
今天是第1227期日报。
Nature Biotechnology综述带你开展宏基因组实验和分析,在众多分析软件中选择不再困难。还有三代测序和宏表观组等前沿技术。
基于鸟枪法宏基因组测序经历了十余年的快速发展,在分析的每个环节上出现了众多软件,让读者选择困难且学习成本过高。本期根据作者经验和Google引用次数统计,精选了8篇文章,包括一篇重镑的Nature Biotechnology综述,6个高分或高引软件,以及一篇宏表观组的新技术。希望读者阅读综述快速入行,对主流软件的基本特点和适用范围的简介,方便读者分析时选用。同时扩展阅读有进一步的介绍和使用方法长文,方便读者深入学习和开展分析工作。由于篇幅有限,对于MetaQUAST、Prokka和Salmon等宏基因组分析中常用软件的介绍,将在下个月进行专题梳理,敬请期待。
Nature子刊:宏基因组研究超强综述——从取样到分析
Nature Biotechnology[IF:31.864]
① 随着测序价格下降、配套软件的发表和更新,宏基因组广泛应用;② 本文概述了宏基因组学的工作流程,总结了实验设计的基本思路,以及常见问题和解决方法;③ 实验阶段从DNA提取、文库制备和测序各阶段进行详细描述和经验分享;④ 分析阶段介绍了拼接、分箱、有参定量、基因和代谢通路和下游分析的方法和原理,同时对主流软件的优缺点和适合范围进行讨论;⑤ 本文是入手宏基因组研究必读综述,内容深入浅出,适合本领域各层次同行学习。
Shotgun metagenomics, from sampling to analysis
2017-07-12, doi: 10.1038/nbt.3935
【主编评语】此文是Nicola Segata领衔创作的宏基因组分析综述,是目前我所见到的指导宏基因组实验和分析最好的综述。Segata本人及其团队在宏基因组分析领域编写了最多的主流软件,如LEfSe、MetaPhlAn2、HUMAnN2(https://www.mr-gut.cn/papers/read/1055870103)和GraPhlAn等,而且还表发了众多顶级宏基因组研究文章,如《Cell:9428个人体宏基因组!探索全球人类微生物组中的广大未知》(https://www.mr-gut.cn/papers/read/1047831920)、《Nature子刊:跨越人群的大肠癌肠道菌群特征和诊断标志物》(https://www.mr-gut.cn/papers/read/1066677273)等。此文发表近2年,引用200+次,是CNS平均引用的2.5倍多,足以见此文的重要性。(@刘永鑫)
Nature子刊:宏基因组物种分类和定量工具MetaPhlAn2
Nature Methods[IF:28.467]
① MetaPhlAn2是分析微生物群落(细菌、古菌、真核生物和病毒)组成的工具,只需一条完命令即可获得物种丰度信息;② 软件整理了超过17000个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物,汇编整理了100万+类群特异的标记基因;③ 可以实现精确的分类群分配、准确估计物种的相对丰度、种水平精度、株鉴定与追踪、超快的分析速度;④ 结果同时提供脚本可进一步统计和可视化。
MetaPhlAn2 for enhanced metagenomic taxonomic profiling
2015-09-26, doi: 10.1038/nmeth.3589
【主编评语】MetaPhlAn2是基于标记基因的快速物种分类和定量工具,由哈佛大学Curtis Huttenhower团队和意大利特轮托大学Nicola Segata(出自Curtis Huttenhower组)团队共同出品,是MetaPhlAn工具的升级版,截止19年9月4日软件两版累计引用1335(853+482)次。是肠道宏基因组研究中物种组成分析的首选工具。日报之前报导过的相关工具还有《MGX框架——宏基因组分析的新方法》(https://www.mr-gut.cn/papers/read/1075688938)、 想要专门分析病毒组,有《Nature子刊:分析病毒组的新工具》(https://www.mr-gut.cn/papers/read/1081676963)等。(@刘永鑫)
Kraken:超快的宏基因组序列物种注释工具
Genome Biology[IF:14.028]
① Kraken是一种超快速、高度准确的宏基因组DNA序列分类学分配程序;② 基于k-mers的精确对齐,Kraken实现了与BLAST程序相当的分类精度;③ Kraken以每分钟超过410万个的速度对100 bp长的序列进行分类,比Megablast快909倍,比丰度估计程序MetaPhlAn快11倍;④ 软件支持conda安装,配置数据库下载和使用方便,同时提供快速版Kraken-Q和小内存版miniKraken等众多版本可用,满足不同硬件条件的用户。
Kraken: ultrafast metagenomic sequence classification using exact alignments
2014-03-03, doi: 10.1186/gb-2014-15-3-r46
【主编评语】Kraken是物种注释中最快,最庞大的存在,其超快的速度受到大家的喜欢,但标准版超大的内存消耗也非常恐怖。现在已经开发一系列子版本和新版本,如小内存的miniKraken,基于非冗余K-mer的KrakenUniq,还有最的版Kraken2。之前日报介绍过的相关方法有《一个新的宏基因组分类器KrakenUniq》(https://www.mr-gut.cn/papers/read/1079174335)、《Bioinformatics:大幅提高宏基因组分类速度的新算法!》(https://www.mr-gut.cn/papers/read/1058091428)、《MGS-Fast:快速注释菌群宏基因组测序数据的方法》(https://www.mr-gut.cn/papers/read/1068195517)、以及针对临床检测的《PAIPline:鉴定致病菌的临床测序结果分析平台》(https://www.mr-gut.cn/papers/read/1055280911)等可供用户根据具体需求进行选择。(@刘永鑫)
Nature子刊:长读长宏基因组分析工具MetaMaps
Nature Communications[IF:11.878]
① 长读长测序技术有望使物种分类更准确,但缺少专门的工具;② MetaMaps是一种专为长读长开发的新方法,能够将长读长宏基因组比对到RefSeq数据库;③ 数据库中包括大于12,000个基因组,可在12GB内存的笔记本电脑上运行;④ 种水平分配的准确率达94%,并在种和株水平上高于同类软件;⑤ MetaMaps输出所有末分类读长的比对位置和质量,实现功能研究基因存在/不存在和检测样品与参考基因组之间的差异。
Strain-level metagenomic assignment and compositional estimation for long reads with MetaMaps
07-11, doi: 10.1038/s41467-019-10934-2
【主编评语】有效的物种分类和注释是宏基因组分析中的重点和难点。前几天Cell杂志发表分析文章对现有20个宏基因组分类软件进行了系统评估(https://www.mr-gut.cn/papers/read/1033790381),可见此类分析的重要性。此外,我们还介绍过《一个新的宏基因组分类器KrakenUniq》(https://www.mr-gut.cn/papers/read/1079174335)、《菌群测序数据进行准确分类的新方法》(https://www.mr-gut.cn/papers/read/1033264805)等文章。今天介绍的这款专门针对长读长三代序列的宏基因组物种分类软件,为三代测序在宏基因组测序中的应用提供了基础工具。(@刘永鑫)
Nature 子刊:HUMAnN2实现宏基因组和宏转录组种水平功能组成分析
Nature Methods[IF:28.467]
① HUMAnN2是一款快速获得宏基因组、宏转录组物种和功能组成的软件;② 与传统的纯翻译比对方法相比,采用分层式搜索策略确定物种、比对到泛基因组、对基因家族和代谢通路定量,速度更快且准确率更高;③ 结果不但获得了功能通路中具体物种组成,还建立起物种与功能的联系,可进一步研究功能组成的贡献者;④ 引入“贡献多样性”的概念,使我们从类多样性角度重新认识微生物组功能组成,以及物种间的联系。
Species-level functional profiling of metagenomes and metatranscriptomes
2018-10-30, doi: 10.1038/s41592-018-0176-y
【主编评语】HUMAnN2 可实现快速宏基因组、宏转录组的物种和功能定量,同时提供功能通路内物种组成信息。(@高春辉)
MEGAHIT:多快好省的宏基因组装工具
Bioinformatics[IF:4.531]
① MEGAHIT是超快的宏基因组序列组装工具,尤其适合组装超大规模数据;② 与SPAdes和IDBA-UD相比,计算时间和内存消耗方面优势巨大;③ 在同类软件评估中,MEGAHIT通常有着最少的计算时间和N50,同时也拥有最低的嵌合体比例;④ 软件安装方便,参数简单,可通过调整k-mer范围和步长控制分析质量和计算时间的不同要求;⑤ 尤其在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,成为行业的主流组装软件。
MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph
2015-05-15, doi: 10.1093/bioinformatics/btv033
【主编评语】MEGAHIT是超快的宏基因组序列组装工具,截止2019年9月4号引用786(615+171)次。其参与众多软件评测,如《宏基因组仿真数据生成软件:CAMISIM》(https://www.mr-gut.cn/papers/read/1045860958)和高水平新组装方法文章如《Nature子刊:宏基因组二、三代混合组装新软件OPERA-MS》(https://www.mr-gut.cn/papers/read/1088940721)等中,成为宏基因组分析中拼接必用的软件之一。(@刘永鑫)
最完整的宏基因组分箱流程:MetaWRAP
Microbiome[IF:10.465]
① MetaWRAP是一款整合了质控、拼接、分箱、提纯、评估、物种注释、丰度估计、功能注释和可视化的分析流程,纳入超140个工具软件,可一键安装;② 流程整合了CONCOCT、MaxBin、 metaBAT等三款分箱工具以及提纯和重组装算法;③ 与以上三种工具单独使用,以及与使用DAS_tool、Binning-refiner相比,分箱结果更佳。④ 在此基础上,MetaWRAP还可实现宏基因组分析从原始数据到结果可视化的全部流程,同时也可灵活使用各个模块独立分析,弹性多变。
MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis
2018-09-15, doi: 10.1186/s40168-018-0541-1
【主编评语】您还在为宏基因组分析流程繁琐,所用软件甚多,安装使用异常复杂而烦恼吗?请看这款最新发布的宏基因组分析全能工具,可帮助您一站式完成质控、分箱、注释、结果可视化等全部分析作业。基于Conda,部署方便,使用简单,需要的话赶快试一下吧。好用的话别忘了在下面留言哦!(@高春辉)
Natutre子刊: 宏表观组—DNA甲基化辅助宏基因组分箱
Nature Biotechnology[IF:31.864]
① 微生物组中各基因组的有效区分是当前宏基因组研究的一大挑战;② 本文提出了一种结合单分子实时测序检测细菌DNA甲基化特征的分箱方法,基于合成和真实微生物组数据验证,可实现内源表观遗传条形码将个体短序列和组装的重叠群分类为物种和菌株水平;③ 此方法还能将质粒和其他移动遗传元件与真实微生物组样本中的宿主物种联系起来;④ 将DNA甲基化信息纳入是对宏基因组学分析方法的有效补充,以实现更准确的序列分组。
Metagenomic binning and association of plasmids with bacterial host genomes using DNA methylation
2017-12-11, doi: 10.1038/nbt.4037
【主编评语】西奈山伊坎医学院的房刚课题组在Nature Biotechnology杂志上发表了宏表观组领域的开创性工作,该研究提出不同种的微生物中广泛存在自己独特的DNA 甲基化修饰模式,能被看成是一个天然的“条形码”,可以被用来提高宏基因组拼接和分箱的清晰度和完整度。同时,这项研究也开启了表观遗传学在微生物群落研究中功能性的探索。(@刘永鑫)
感谢本期日报的创作者:刘永鑫
点击阅读过去10天的日报:
0911 | Cell单细胞研究揭秘:抗TNF疗法治肠炎,哪些患者会无效?
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”