Nature子刊：改进宏基因组的分箱和组装的新方法

宏基因组 2023-08-18

要点

尽管在宏基因组学分类方面有新进展，但是从宏基因组学数据重建微生物物种仍然具有挑战性。来自Nature Biotechnology 的一项最新研究开发了用于宏基因组分箱（VAMB）的变体自动编码器，该程序使用深度的变体自动编码器在聚类之前对序列丰度和k-mer分布信息进行编码。结果表明VAMB能够集成这两种不同的数据类型，而无需事先了解数据集。 VAMB的表现优于现有的最新Binner，在模拟和真实数据上分别重建了29-98％和45％的近乎完整（NC）基因组。此外，VAMB能够分离出高达99.5％的平均核苷酸同一性（ANI）的密切相关菌株，并从1,000例人类肠道微生物组样本数据集中将255个和91个NC Bacteroides vulgatus和Bacteroides dorei样品特异性基因组重建为两个不同的簇。研究者从该数据集中使用了2606个NC箱，以显示人类肠道微生物组的物种具有不同的地理分布模式。 VAMB可以从https://github.com/RasmussenLab/vamb 免费获得。

Figure 1 VAMB原理

主要原理

VAMB主要有4个必需步骤和1个可选步骤：

a）解析包含要分档的N个DNA序列的输入FASTA文件，并计算标准的4聚体频率或四核苷酸频率（TNF），并将其存储在N×103矩阵。或者，可以使用预先计算的TNF。

b）每个样本的reads数据已经mapping到a中的FASTA文件，生成包含到所有序列的特定于样本的mapping的S/BAM文件。对这些数据进行解析，并根据RPKM计算出数据的丰度。每个BAM文件都表示为N×S矩阵中的一列。或者，可以使用预先计算的RPKM。

c） TNF和RPKM使用变分自编码器(VAE)连接和编码到一个潜在表示(μ)，一个N×L矩阵，其中L通常小于S + 103。这种表示法保留了TNF和RPKM的加权信息，但较小。

d）利用自适应迭代的中线方法进行聚类。序列被提出为medoids, M和余弦分布距离从M到所有序列放置在直方图(d1)。如果有一些距离(小峰)与主要分布(大峰)被波谷分开，半径r设置在波谷的最小值，并且r内的所有序列都聚类(d2)。这样重复，直到所有的序列都聚集在一起。

e）这是可选步骤。来自d的聚类可以被拆分，分成sample-wise的bins，这由FASTA文件中的序列头决定。这保证了样品的纯度，提高了菌株的纯度。

Figure 2 VAMB性能展示

参考文献：

Jakob Nybo Nissen, Joachim Johansen, Rosa Lundbye Allesøe, Casper Kaae Sønderby, Jose Juan Almagro Armenteros, Christopher Heje Grønbech, Lars Juhl Jensen, Henrik Bjørn Nielsen, Thomas Nordahl Petersen, Ole Winther & Simon Rasmussen. (2021). Improved metagenome binning and assembly using deep variational autoencoders. Nature Biotechnology, doi: https://doi.org/10.1038/s41587-020-00777-4

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

Nature子刊：改进宏基因组的分箱和组装的新方法

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

生成图片，分享到微信朋友圈

Nature子刊：改进宏基因组的分箱和组装的新方法

猜你喜欢

写在后面

您可能也对以下帖子感兴趣