查看原文
其他

NBT:宏基因组"读云"建库+雅典娜算法组装获得微生物高质量基因组

宏基因组 宏基因组 2022-03-28

读云(read clouds)组装高质量末培养的微生物基因序列

High-quality genome sequences of uncultured microbes by assembly of read clouds

Nature Biotechnology, [35.724]

链接: http://dx.doi.org/10.1038/nbt.4266

第一作者:Alex Bishara

通讯作者:Serafim Batzoglou, Ami S Bhatt

主要单位:加州,斯坦福大学,计算机系,医学与遗传学系

其它作者:Eli L Moss, Mikhail Kolmogorov, Alma E Parada, Ziming Weng, Arend Sidow, Anne E Dekas

PDF:https://www.nature.com/articles/nbt.4266.pdf

热心肠日报导读

Nature子刊:新技术“读云”可获得高质量宏基因组序列

新技术“读云”可获得不可培养微生物的高质量基因组序列

① 读云(read clouds)技术建库分为两步,先将宏基因组封装在大量含有一条或多条长DNA序列的微液滴中,再从这些子集构建带条码的短序列文库测序;

② 配套的“雅典娜(Athena)”组装算法则先结合条码对子集进行组装,然后在子集之上组装得到宏基因组序列;

③ 通过对人粪便样本和海洋沉积物样本测序,评估了读云技术相较于长读长三代测序和短读长二代测序策略的优势;

④ 发现读云在低丰度物种发现、宏基因组分箱、基因组完整性等各项指标上均明显占优。

主编评语:“读云”的核心是采用了微液滴封装技术降低了宏基因组复杂性,之后再结合现有方法测序和新算法组装。这相当于对宏基因组展开了一场“降维攻击”。

关键字:宏基因组,新一代测序技术,宏基因组算法,微液滴封装

摘 要

尽量宏基因组测序微生物组样本可以部分重建群体菌株水平结果,但仅获得分离难培养微生物的高质量基因组草图。

这里,我们呈现了一个“读云(read clouds”新方法,对微生物样本短序列标签化结合长序列来源的信息。

我们开发Athena组装软件,可以使用读云方式的标签化序列从头组装,以改进宏基因组组装。

使用此方法应用于两个健康人粪便样本,与现有的短读长和合成长读长的宏基因组测序技术比较,即使细菌丰度小于20X下,读云方法宏基因组测序和Athena组装结果有最好的基因组草图(N50>  200kb,小于10个重叠群)。

我们也测序复杂的海洋沉积物,产生24个中等质量的基因组草图(完整度 > 70%,污染率 < 10%),其中9个达到完整的水平(完整度 > 90%,污染率 < 5%)。

本方法可基于单个样本的宏基因组测序,无须微生物分离培养,即可获得高质量的微生物基因组草图。

图1. 读云鸟枪测序和组装方法技术路线

(a) 微生物组样本DNA提取,片段选择富集长片段。将长片段稀释,松散的分隔在上百万个小液滴中。变性扩增这些长片段,获得有标签的短序列文库,每个空间的标签是唯一的。然后文库混合并使用Illumina测序。

(b) 雅典娜组装工具使用读云产生更全面的草稿,如基因组重复可以正确放置。图中显示为正确识别重复序列的例子。
(i) 读云采用标准短读长技术获得种子重又不群,再利用序列比对,双端序列扩展重叠群为支架(scaffold),现在包括无法确定的分枝。
(ii) 在每个边,雅典娜基于相同标准的小范围内数据组装解决分枝问题。例如红、蓝进行子集组装支持了准确的分枝选择。
(iii) 亚组装的重叠群与起始重叠群进一步基于DB图组装。这样宏基因组草图信息更准确,可组装出正确的重复序列。

图2.两位健康人个体粪便的微生物属水平组成

(a,b) 三种建库方式下短序列分类属水平的相对丰度P1(a)和P2(b)。结果可见三种见库方式下属水平结果相当一致。样品P1多样性比P2更高。

(c,d) P1、2样品拼接基因组草图的完整度和连续性N50。读云方法最好。结果只展示每个属中最完整的分箱。单拷贝基因预测采用chechm预测和评估。不完整(图中X,<90%)、完整(图中圆,>90%完整,<5%污染),高质量(图中三角,完整基础上要求至少有18个tRNA,至少一个5S、16S和23S)。读云测序和组装产生高质量和完整的基因组草图。

图3.三种方法获得基因组草图评估。

读云稳定获得完整和高质量基因组草图,远优于其它方法,即使在50X以下低丰度计算完整和高质量的基因组数量也表现优异。

完整分箱的数量在不同最小N50(a) 、最小读段覆盖度(b相对于低丰度物种)和最小覆盖度且N50大于200 kb(c)条件下。

高质量的分箱(完整基础上,且至少18个tRNAs,至少一个5S, 16S, 23S)的数量与N50,最小覆盖度和N50>200kb时最小覆盖度;

图4.三种方法基因组Bin的完整度

基于读云、合成长读长(SLR)和短读长三种方法,对健康人类粪便样本进行测序和组装,进一步分箱结果的完整性比较。读云(金色)与SLR和短读长(会将一个完整的基因组分为2个或更多的分箱)相比,产生更全面、高质量的物种基因组草图。图中少在两种方法中发现,且在一种方法中完整的Bin。

(a) 三种方法不同物种数量下分箱的数量,读云获得最多单个物种的分箱;

(b) 三种方法完整、高质量分箱的数量;读云产生最多的完整和高质量的分箱;

(c) 三种方法下Bin物种注释和对应的混合物种数量。颜色代表方法,形状代表完整度。几乎所有的物种获得高质量的基因组草图,仅有单个分箱属于这些物种。如大肠杆菌、梭菌等包括一些小的不完整的分箱;

(d) 每类物种最大分箱中包括的基因数量。读云产生的分箱在绝大多数物种中包括最多数量的基因。SLR方法在B. uniformis中基因最多,但存在15%的污染。

图5. Bin基因组与参考基因组比较

与参考基因组比较三种分箱方法的结果。Dot-plot展示最近参考基因组(X轴)与雅典娜组装分箱(Y轴)的共线性和完整性。每种颜色代表一条contigs。可以在图中观察到大片段的倒位;同时另两种方法的结果在读云结果中覆盖情况,在其它Bin中的contigs用浅黄色表示。

图6. 海洋沉积物读云测序下短读长组装与雅典娜组装的基因组草图比较

可见雅典娜组装(黄色),比短读长组装(蓝色)获得更多的高质量和中等质量的分析。

(a) 完整度 > 70%,污染率 < 10%的中等质量分箱

(b) 包含16S序列的中等质量分箱

(c) 有16S序列的高质量基因组草图

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2600+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存