Microbiome:宏基因组分箱流程MetaWRAP简介
MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis
题目:MetaWRAP——灵活的宏基因组数据挖掘单菌基因组分析流程
作者:Gherman V. Uritskiy, Jocelyne DiRuggiero and James Taylor
单位:约翰斯·霍普金斯大学,生物系
文章于2018年3月6日发布于bioRxiv上 https://www.biorxiv.org/content/early/2018/03/06/277442 ,9月15日于Microbiome杂志在线发表
热心肠日报导读
全能型宏基因组分析工具:MetaWRAP
Adam刘永鑫-中科院-宏基因组 10-13 热心肠日报
原标题:MetaWRAP——灵活的宏基因组数据挖掘单菌基因组分析流程
① MetaWRAP是一款整合了质控、拼接、分箱、提纯、评估、物种注释、丰度估计、功能注释和可视化的分析流程,纳入超140个工具软件,可一键安装;
② 流程整合了CONCOCT、MaxBin、 metaBAT等三款分箱工具以及提纯和重组装算法;
③ 与以上三种工具单独使用,以及与使用DAS_tool、Binning-refiner相比,分箱结果更佳。
④ 在此基础上,MetaWRAP还可实现宏基因组分析从原始数据到结果可视化的全部流程,同时也可灵活使用各个模块独立分析,弹性多变。
主编评语:
您还在为宏基因组分析流程繁琐,所用软件甚多,安装使用异常复杂而烦恼吗?请看这款最新发布的宏基因组分析全能工具,可帮助您一站式完成质控、分箱、注释、结果可视化等全部分析作业。基于Conda,部署方便,使用简单,需要的话赶快试一下吧。好用的话别忘了在下面留言哦!
摘要
背景
使用宏基因组测序研究微生物组,可以分析环境中不可培养的微生物群落。提取个体基因组草图(bins)可以实现宏基因组的单菌基因组水平分析。这些分析的软件和流程非常多样且复杂,对于生物学家来说,使用是一件非常困难的事情,对工作造成非常大的负担。此外,分箱算法快速发展,但一直缺少评估和可视化的工具。
结果
为解决以上挑战,我们发布宏基因组分析流程metaWRAP。MetaWRAP部署了最先进的宏基因组分析软件和数据库,从原始数据直接到宏基因组bin和相关下游分析。MetaWRAP使用过程又足够灵活,允许研究人员调整,更重要的是安装和使用方便。它包括混合算法,来实现多种软件分箱结果的整合。在人工重组和自然样本数据中结果均优于5款主流软件。最后,metaWRAP还包括物种注释、丰度估计、功能注释和可视化等多个宏基因组分箱结果的下游分析功能。
结论
MetaWRAP是一款易用的模块化流程,用于分析宏基因组分析中的核心任务——分箱,显著改善高质量分箱结果的提取和解析。其中的分箱提纯和再组装功能优于其它分箱方法。流程中的每个模块也独立运行,增加宏基因组分析的灵活性。此软件为开源项目,源代码见 https://github.com/bxlab/metaWRAP
主要结果
图1. metaWRAP工作流程
图中红色代表分析模块,绿色代表宏基因组数据,橙色代表中间文件,蓝色代表结果图表。
实现原始序列的质控、物种注释和可视化、宏基因组拼接、三种主流Bin方法分析和结果筛选与可视化、Bin的重新组装、Bin的物种和功能注释等。轻松实现Bin相关分析和可视化的绝大部分需求。
图2. 基于CAMI人工数据集高、中、低数据量下,对6款Bin软件结果的完整度和污染率进行评估。结果表明metaWRAP在各种情况下在完整度和污染率方面都表现更优秀。
关于CAMI数据集的Nature Methods文章,详见下文:
图3. Blobology模块可视化水体、肠道和土壤宏基因组拼接叠连群的GC含量和丰度。
叠连群的丰度计算基于每个样品中标准化的reads覆盖度。采用blast注释叠连群门水平物种信息
图4. 基于水体、肠道和土壤宏基因组数据对6款分箱软件的完整度和污染率进行评估
原始分箱工具,包括metaBAT2, CONCOCT和MAXBin2;分箱提纯工具,包括(DAS_Tool, Binning_refiner和metaWRAP的Bin_refinement模块。仅展示CheckM估计完整度大于50%,污染率小于10%的bins
图5. 水体、肠道和土壤宏基因组bins再组装结果的N50、完整度和污染率比较
使用metaWRAP的Reassemble_bins模块对原始bins进行二次组装。仅展示CheckM估计完整度大于50%,污染率小于10%的bins
图6. 水体、肠道和土壤中高纯度bins(污染率<5%)分别在完整度70%、80%、90%、95%下的数量
MetaWRAP运行在不同最小完整度参数下的结果。
图7. Blobology模块可视化水体、肠道和土壤宏基因组拼接叠连群的GC含量和丰度
叠连群的丰度计算基于每个样品中标准化的reads覆盖度。图中按bins进行随机着色。只显示70%以上完整度和10%以下污染Bins。
点评
该软件的优点:
安装方便,一键安装140多个相关软件;
流程完善,原来拼接需要自己拼接和准备丰度格式耗时耗力,现在一步全搞定;
结果优于主流方法;
可视化功能强大;
可对Bin进一步进行物种和功能注释。
总结:此软件在手,Binning分析别无所求。
参考文献
Micribome https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0541-1
热心肠日报 https://www.mr-gut.cn/papers/read/1059939857?kf=xread_daily
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2300+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”