查看原文
其他

Nature Methods:快速准确的微生物来源追溯工具FEAST

宏基因组 宏基因组 2022-05-08


FEAST: 快速准确的微生物来源追溯工具

FEAST: 快速期望最大化的微生物来源追溯

FEAST: fast expectation-maximization for microbial source tracking

Nature Methods    [IF:28.467]

2019-06-10  Articles

DOI: https://doi.org/10.1038/s41592-019-0431-x

第一作者:Liat Shenhav1

通讯作者:Eran Halperin1,2,5,6*

其它作者:Mike Thompson 2, Tyler A. Joseph3, Leah Briscoe2, Ori Furman4, David Bogumil4,
Itzhak Mizrahi4, Itsik Pe’er3

作者单位:

1加州大学洛杉矶分校加计算机科学系(Department of Computer Science, University of California Los Angeles, Los Angeles, CA, USA.)

2加州大学洛杉矶分校人类遗传学系(Department of Human Genetics, University of California Los Angeles, Los Angeles, CA, USA.)

3哥伦比亚大学计算机科学系,纽约(Department of Computer Science, Columbia University, New York, NY, USA.)

4本古里安大学生命科学院,以色列,贝儿舍瓦(Life Sciences, Ben Gurion University, Be’er Sheva, Israel.)

5加州大学洛杉矶分校麻醉学和围手术期医学部(Department of Anesthesiology and Perioperative Medicine, University of California Los Angeles, Los Angeles, CA, USA.)

6加州大学洛杉矶分校计算医学系(Department of Computational Medicine, University of California Los Angeles, Los Angeles, CA, USA.)

*电子邮件:ehalperin@cs.ucla.edu

划重点

  1. 快速准确的微生物来源分析一直是本领域的难点,之前发布的SourceTracker仍有速度慢,准确率不高的问题;

  2. 本文提出一种新的方法FEAST,可以实现快速、更准确的微生物来源追踪;

  3. 软件基于R语言开发,保证了方法跨平台的可用性;

  4. 应用于婴儿和厨房两个微生物组项目,结果的微生物来源解释比例更合理;

  5. 此方法在分类问题中,也比JSD、加权UniFrac指标有更好的AUC值,在医学诊断中有更好的应用前景。

摘要

分析微生物组数据的组成结构的一个主要挑战是确定其潜在来源。在这里,我们介绍了快速期望最大化微生物源跟踪工具(Feast),这是一个随时可用的可扩展框架,可以同时及时估计数千个潜在源环境的贡献,从而帮助解开复杂微生物群落的起源。源代码见 https://github.com/cozygene/feast 。从Feast获得的信息可以为量化污染、跟踪发展中微生物群落的形成,以及区分和表征与细菌相关的健康状况并提供见解。

A major challenge of analyzing the compositional structure of microbiome data is identifying its potential origins. Here, we introduce fast expectation-maximization microbial source tracking (FEAST), a ready-to-use scalable framework that can simultaneously estimate the contribution of thousands of potential source environments in a timely manner, thereby helping unravel the origins of complex microbial communities (https://github.com/cozygene/FEAST). The information gained from FEAST may provide insight into quantifying contamination, tracking the formation of developing microbial communities, as well as distinguishing and characterizing bacteria-related health conditions.

结果

图1. 方法比较

Fig. 1 | Methods comparison.

基于模拟数据,使用FEAST与SourceTracker、随机森林分类器评估结果比较。每个模拟样品都是使用20个真实的源环境(Source)和模拟的渗入(Sinks)样本。

a、准确性比较,FEAST方法明显优于另两种方法。X轴是已知来源的Jensen–Shannon平均发散值(即来源之间完全相同到完全不同的比例)。Y轴表示真实混合比例和估计混合比例之间所有源环境的相关性;误差条显示平均值的标准误差(n=30)。b,通过不同水平的未知来源比例对Feast和SourceTracker进行评估。Feast假阳性率低,与真实情况较接近;而之前的SourceTracker无关来源时也会预测到假阳性的来源

图2. 当前最先进方法的运行时间比较

Fig. 2 | Running time comparison to current state-of-the-art

所有模拟研究的运行时间(对数刻度,以秒为单位)比较,使用每个源深度为10000条序列。看到新方法使用时间是10几倍至30几倍的下降。对于SourceTracker之前要需等几天的项目,现在几小时即可搞定

图3. 1岁婴儿肠道微生物来源估计

Fig. 3 | FEAST estimations of source contribution to the sink; that is, gut microbiome of focal infant at 12-months of age.

左图为剖腹产、右图为顺产。来原样本有母亲肠道样本、婴儿出生及4个月时间样本。明显看到顺道主要来源于母体,而剖腹产最大末知来源如环境。目标样本量为98个。

图4. 厨房样品中末知来源的比例

Fig. 4 | The proportion of the unknown sources in kitchen counter samples using FEAST and SourceTracker.

使用Feast和SourceTracker的厨房柜台样品中未知来源的比例分析。A,来源估计,考虑到12个已知的人类来源(四个居民的手、脚和鼻子),使用来自LAX等人文章的数据(参考文献15)。B. FEAST估计第一时间点一个家庭厨房柜台微生物来源,使用来自地球微生物组项目的额外来源数据。

图5. 使用FEAST、加权UniFrac和Jensen-Shannon差分法对健康个体和ICU中生态失调患者分类的ROC曲线

Fig. 5 | The receiver operating characteristic curve using FEAST, weighted UniFrac and Jensen–Shannon divergence to classify healthy individuals and patients in ICU with dysbiosis.

ROC曲线下面积(AUC)分别为:FEAST,0.91;加权UniFrac,0.78;Jensen–Shannon divergence(JSD,0.87。

可以看到本方法有最高的分类准确度和最低的假阳性率

图6. 94例接受造血干细胞移植的患者移植前和中的未知来源比例有显著差异。

Fig. 6 | Significant differences in the distribution of the unknown source between sink samples before and during the first event of intestinal domination across 94 patients undergoing allo-HSCT.

箱线展示中位数(中心线)、IQR(百分位数)和第5和95百分位(胡须线终点)。

总结

在微生物来源分析中,随机森林和基于贝叶斯的SourceTracker有较广泛应用,但运行速度和准确度一直不尽人意。基于模拟数据测试,本软件的优势是与之前的方法相比即快又准。此外在婴儿和厨房的自然样本数据中,也看到了较合理的结果。此外它也可应用于分类诊断中的应用,也比JSD和UniFrac方法更准确。同时提出了将未知来源比例可能用于疾病恢复过程中的诊断指标。方法到底多好用,还需要在更多的实战项目中检验。过几天,我们将推送此软件的实战教程,带大家从输入、分析过程,以及结果的全面解读。

新闻稿

《Nature Methods》新工具:追溯肠道细菌起源

新闻稿转自生物通,有修改

由加州大学洛杉矶分校领导的研究小组开发出了一种更快、更准确的方法来确定寄宿在人类体内的细菌来自何处。从理论上讲,这个工具能推断出任何微生物群的起源。

新工具被命名为“FEAST”(https://github.com/cozygene/FEAST),可以在短短几个小时内分析过去需要在几天或几周才能处理完的大量遗传信息。该软件可用于医疗保健、公共卫生、环境研究和农业,研究结果发表在《Nature Methods》。

一个微生物群通常包含成百上千种微生物。微生物群随处可见,从人类的消化道到为我们提供水源的湖泊和河流。组成这些群落的微生物可以来自周围的环境,包括食物。

了解这些生物体来自何处以及如何形成群落,可以让科学家更详细地了解影响人类健康的未知生态过程。研究人员开发这个项目,为医生和科学家提供了一个更有效的工具来研究这些现象。

追源程序可以给出来自其他地方的微生物群的百分比。这在概念上与人口普查相似,人口普查揭示移民人口来自哪些国家,以及每个群体占总人口的百分比。

例如,对厨房柜台样本使用追源工具可以指示样本中有多少来自人类,有多少来自食物,具体是哪种类型的食物。

有了这些信息,医生就可以通过简单分析微生物群来区分健康人和患有某种疾病的人。科学家可以使用这个工具来检测水资源或食物供应链中的污染。

该研究的主要研究人员Eran Halperin说:“微生物组与人体生理和健康的许多方面有联系,但是现阶段仍处于研究早期,我们正在了解许多物种动态网络的临床意义,以及它们如何相互作用。”

Halperin补充说:“微生物组数据空前扩大,这迅速增加了我们对微生物生命的不同功能和分布的认识。然而,如此庞大和复杂的数据集带来了统计和计算上的挑战。”

研究人员说,与其他追源工具相比,FEAST的速度快了300倍,而且非常准确。

此外,目前的工具只能分析较小的数据集,或者只针对被认为是有害污染物的特定微生物。研究人员说,新工具可以处理更大的数据集,并提供更完整的微生物概述,以及这些微生物来自何处。

研究人员通过对比先前发表的数据集,证实了FEAST的可行性。

例如,他们使用这个工具来确定厨房柜台上微生物的类型,与以前分析相同数据集的工具相比,它提供了更多的细节。

他们还使用这个工具来比较剖宫产婴儿的肠道微生物群和阴道产婴儿的肠道微生物组。

加州大学洛杉矶分校计算机科学研究生、该研究的第一作者Liat Shenhav说:“我希望科学家们能利用FEAST来诊断与细菌有关的健康状况。例如,如果一种特定的癌症具有某种微生物特征,那么FEAST可能会被用于早期诊断。”

Reference

Shenhav, L. et al. FEAST: fast expectation-maximization for microbial source tracking. Nature Methods, doi:10.1038/s41592-019-0431-x (2019).

《Nature Methods》新工具:追溯肠道细菌起源 https://mp.weixin.qq.com/s/IZ1DAUXJxIxrvRz3t041cQ

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存