查看原文
其他

句句干货!一文读懂宏基因组binning

2017-09-01 李木子 生信者言


阅读用时全文共4小节,约4100字,约10分钟

关键词宏基因组、binning、组装




宏基因组 ( 也叫元基因组,Metagenomics ) ,顾名思义,做的就是一个环境 ( 通常也即是指一个样品 ) 中的全部微生物的基因组信息,以获得群落中全部的物种信息和功能信息。


那么问题来了,每一个自然环境样品中,都存在着几百甚至几千个物种,每个物种在环境样品中的丰度又有很大差异,它们的基因组信息混在一起,我们如何有效的区分,并获得每个菌株的信息呢?


这就少不了binning的贡献了。在宏基因组研究中,binning技术越来越必需且关键,可谓是CNS必备神器,宏基因组的高分文章中几乎都能看到binning的身影。


什么是宏基因组binning? Binning能做什么?


Binning的含义是分箱、聚类,指从微生物群体序列中将不同个体的序列(reads或contigs等)分离开来的过程。简单来说就是把宏基因组数据中来自同一菌株的序列聚到一起,得到一个菌株的基因组。是的,可以达到菌株水平。


基于宏基因组binning,主要有两方面的重要应用:


关联分析

即通过binning得到的bins(暂且简称为bins,更确切的说是strain-level clusters 或strain-level taxonomic units)可以进行宏基因组关联分析以及多组学联合分析,将特定功能代谢产物与特定物种、特定基因进行关联研究,推动其因果机制的探究,为疾病监控、环境监测提供了菌株水平的生物靶标。


单菌组装

通过对binning得到的bins进行后续组装,可以得到很多不能在实验室里培养的细菌、古菌、病毒的基因组草图,然后根据单菌组装结果进行菌株水平的基因和功能注释、比较基因组分析、进化分析等,使我们得以洞察这些无法在实验室培养获得的菌株的生态适应机制,营养互作机制和新陈代谢功能等,可以研究在生态环境和复杂疾病中起重要作用的菌种以及致病菌和宿主的互作机制及其微进化机制。



    如何进行宏基因组binning ?  



同一菌株的序列如何聚到一起?


最开始的binning的依据是来自同一菌株的序列,其核酸组成是相似的,于是可以根据核酸组成信息来进行binning,例如根据核酸使用频率(oligonucleotide frequency variations),通常是四核苷酸频率(tetranucleotide frequency),GC含量和必需的单拷贝基因等。


比如最早利用binning的那篇2011年发表在Science上的牛瘤胃的文章【PMID: 21273488】,使用的就是四核苷酸频率。这种方法的优势是即便只有一个样品的宏基因组数据也可以进行binning,这在原理上是可操作的。但是由于很多微生物种内各基因型之间的基因组相似性很高,想利用1个样品的宏基因组数据通过核酸组成信息进行binning,效果往往并不理想或难度很大。


利用核酸组成信息进行binning,基本上只适合那些群落中物种基因型有明显核酸组成差异的,例如低GC含量和一致的寡核苷酸使用频率。


后来研究发现来自同一个菌株的基因在不同的样品中 ( 不同时间或不同病理程度 ) 的丰度分布模式是相似的【PMID: 24997787】。因此可以根据丰度信息来进行binning,即在不同样品中的丰度变化模式 ( co-abundance patterns across multiple samples ) 。这种方法更有普适性,一般效果也比较好,能达到菌株的水平。


但是值得注意的是必须要大样本量,一般至少要50个样本以上,至少要有2个组能呈现丰度变化 ( 即不同的处理,不同的时间,疾病和健康,或者不同的采样地点等 ) ,每个组内的生物学重复也要尽量的多,最好参考相关研究的文献,实验设计和采样的科学性关系重大,值得好好研究,在此就不详述了。


当然还可以同时依据核酸组成和丰度变化信息,将核酸组成信息和丰度差异信息创建一个综合的距离矩阵,既能保证binning效果,也能相对节约计算资源,现在比较主流的binning软件多是同时依据核酸组成和丰度变化信息。


Binning技术原理


宏基因组binning具体怎么操作?


操作层面,面对宏基因组数据,从哪些序列下手进行binning呢?是从原始的clean reads,还是从组装成的contig,还是从预测到的gene呢?都可以,都有文章发表。


根据基于聚类的序列类型的不同,暂且分为reads binning, contig binning和 genes binning,下面我们来看一下各自的优劣势。


由于核酸组成和物种丰度变化模式在越长的序列中越显著和稳定,基于contig binning效果可能更好,现在的很多软件也是基于contig binning。


基于reads binning的优势是可以聚类出宏基因组中丰度非常低的物种,考虑到在宏基因组组装中reads利用率很低,单样品5Gb测序量情况下,环境样品组装reads利用率一般只有10%左右,肠道样品或极端环境样品组装reads利用率一般能达到30%,这样很多物种,尤其是低丰度的物种可能没有被组装出来,没有体现在gene 或者contig 中,因此基于reads binning 才有可能得到低丰度的物种。一篇基于reads binning 的LSA方法的文章称,可以聚类出丰度低到0.00001%的物种,并且对同一物种中的不同菌株的敏感性很强【DOI:10.1038/nbt.3329.Detection】


基于genes binning的应用非常广泛,目前已发表的宏基因组关联分析(MWAS)和多组学联合分析文章中,宏基因组binning很多都用genes binning方法,尤其是疾病的MWAS研究中基本都用genes binning,原因可能是基于genes丰度变化模式进行binning可操作性比较强,宏基因组分析中肯定都会计算gene丰度,一般不会计算contig丰度,gene丰度数据可以信手拈来,同时基于genes binning有很多可参考的文献,过程也并不复杂,可复制性强,也有一定的马太效应吧,还有就是对计算机资源消耗比较低。


基于contig binning虽然有现成的软件可用,但是计算资源消耗一点也不低,需要的时间也不短。


总体来说应用最广泛的就是基于genes binning 和 contig binning,下面就具体介绍一下。


常用于关联分析的Genes binning


Genes binning方法一般是在宏基因组做完组装和基因预测之后,把所有样品中预测到的基因混合在一起,去冗余得到unique genes集合,对这个unique genes集合进行binning,主要是根据gene在各个样品中的丰度变化模式,计算gene之间的相关性,利用这种相关性进行聚类。


根据具体的聚类算法和相关性系数的不同,对binning得到的bins的叫法也不同,主要有metagenomic linkage groups ( MLG ), metagenomic clusters ( MGC ), metagenomic species ( MGS ),和 metagenomic operational taxonomic units ( MetaOTUs ),同时,MLG, MGC, MGS和MetaOTUs物种注释的标准也是不一样的。


2016年在Nature Reviews Microbiology发表的一篇MWAS的综述中【PMID:27396567】,大家可以看到已发表的一些疾病在宏基因组binning研究中用到的binning方法,都是高分文章,都可以参考,其实这几个概念大同小异,只是聚类算法不同。


MLG和MGS用得比较多,但是注意不同的文献中同样都叫MLG,其具体的聚类算法可能是不一样的,所以各种方法的具体流程和参数,还需要参考具体的文献。


这里推荐2014年发表在nature biotechnology上的文章中的方法【PMID:17616613】,将根据genes丰度变化模式进行binning得到的bins称为CAG ( co-abundance gene groups ),将包含有700个以上的gene的CAG称为MGS,CAG可用进行关联分析,MGS可用进行后续的单菌组装。


MWAS分析流程


常用于组装单菌的Contig binning


基于contig binning最常用的就是组装单菌了,而且现在已经有很多基于contig binning的软件了,在2016年3月份Microbiome期刊发表的一篇综述文章【PMID:26951112】中,就对各软件从基础原理(核酸组成、丰度变化模式),聚类算法,终止标准,后续处理和优缺点等方面进行了讨论。


有集成的binning软件当然方便多了,但是目前的binning软件也是有些缺陷或者说还有很多可提升的空间,比如对核酸组成信息的利用,开发得就不够充分,四碱基使用频率因简单而被广泛使用和接受,但现在已有研究表明k-mer丰度信息也是很好的种系特征,同时越长的k-mer含有越多的信息,还有基因和参考基因组间的同源关系也是有价值的种系信号,但这些都还没有被自动化的binning软件整合。


还有binning结果对于参数设置是很敏感的,但是很多binning软件只有有限的可调整的参数,这使得想要获得高质量的bins经常需要手动调整。而且现在的binning软件往往只关注binning的准确性而忽视了计算效率,因此很多binning软件要么慢要么资源消耗高,不过Meta-BAT 和 Canopy 算是资源消耗比较低的。


这里推荐CONCOCT软件 ( Clustering cONtigs with COverage and ComposiTion ,软件下载地址:https://github.com/BinPro/CONCOCT),2014年发表在NATURE METHODS上【PMID:25218180】,目前引用量达到105次。


当然,根据自己的研究对象和研究目的,最好预先查阅相关文献,如需与先前研究结果对比最好使用同一套binning软件,这样才能保证数据的可对比性。


常用Contig binning软件比较


   Binning 评估   


通过Binning得到很多bins后,如何知道这些bins的质量呢?其完整度,纯度如何?是否存在chimeric genome bins(bins中的序列来自两个及两个以上的菌株)。因此bins评估也是很重要的一步。一般是根据编码主要代谢过程的单拷贝基因或者核心保守基因来评估和量化完整度,细菌就有推荐的31个单拷贝基因集合。


现在binning评估方面也有相应的软件,这里推荐CheckM软件 ( 下载地址: http://ecogenomics.github.io/CheckM/ ) 【PMID: 25977477】,该软件的评估结果会给出completeness和contamination两个指标。同时也可以结合常用来检验样品污染的GC-Depth分布图来看是否存在污染,是否是chimeric genome bins。


这里如果发现通过binning得到的bins很少,或者高质量的bins很少,原因可能是样品内物种复杂度太高,或者样品内物种丰度变化模式不明显,或者是宏基因组组装效果不好。


那么,Bins很少怎么办?在上面提到的原因中,我们主要可以把控两点:


一是样品内物种丰度变化模式,可以通过加大样品量、增加重复设置等试验设计来提高;


二是组装效果 48 31403 48 15288 0 0 904 0 0:00:34 0:00:16 0:00:18 2809 48 31403 48 15288 0 0 859 0 0:00:36 0:00:17 0:00:19 2870,对于宏基因组组装效果,尤其是contig的准确性,可以在binning前做一个contig的嵌合体校正,避免一条contig含有两种不同来源的序列,可以根据mapping结果对有coverage分布差异的contig进行切分,这样消除嵌合体contig,避免对后续binning的影响。


CheckM评估流程


   Binning 后续组装   


通过binning得到bins,对bins进行评估,筛选得到好的bins后就可以进行后续的基因组组装了。值得注意的是基于genes binning得到的bins进行后续的组装,一般也是基于contigs进行reads mapping的,即genes来源的contigs。也就是在后续的单菌组装上genes binning 和 contig binning 殊途同归。


下面就具体介绍一下基于bins的单菌组装的大概步骤


1、组装 


将各个样品的双端clean reads分别比对到该bin所包含的contigs上,计算每个样品map上的比例,选取map率高的前几个样品map上的reads分别进行组装,同时也可以将map率高的这几个样品map上的reads混合在一起进行组装,然后看哪个组装效果好就选哪个做为最终的组装结果。选map率高的样品中map上的reads进行组装,是考虑到该bin在该样品中丰度高,测序深度高,测序完整性可能好,组装效果可能会好。


对于组装软件,常用的组装软件SOAPdenovo,Velvet,Ray和ABySS 等都可以,不过基于binning得到的bins进行组装,序列深度可能会比较低,可以选用适用于低深度测序的组装软件,比如Spades软件【PMID:22506599】


2、组装效果评估 



对bins重新组装得到的基因组草图,也可以进行基因组完整度的评估,当然也可以用CheckM和GC-Depth分布图。


3、物种鉴定 


对组装后的基因组草图,一般会接下来进行物种鉴定。这里简单介绍一下,可以基于NR库进行注释,对明确注释到科级别的基因组草图,可以尝试进一步细化到属级别的POCP ( percentageof conserved proteins ) 分析;对明确注释到属级别的基因组草图,可以尝试进一步细化到种级别的ANI( average nucleotide identity )分析,种内菌株的精细化鉴定还可以借助系统发育分析,比较基因组分析等方法。


由于组装出来的基因组草图很可能是未知的物种,在NCBI中并没有近缘相关的参考基因组,或者bin的基因组草图组装的太碎,都可能导致物种鉴定达不到理想的效果。


4、后续分析 


组装效果好的、完整性较高的草图,或者在数据库中可以找到近缘参考基因组的情况下,后续可以进行单菌基因组的一系列分析,如基因组组分分析、功能注释、与参考基因组的系统发育分析等等。上文我们说过,大多情况下,基因组可能组装的比较碎,物种也比较新,后续的分析困难也会相应增大,这个本文不做主要论述。



至此,相信大家对宏基因组binning已经有了大致的了解,binning是宏基因组的重点、难点和重要方向之所在,后续仍需众科研志士们携手推陈出新,发展更新之。


 


/End.



原创作品,未经授权禁止转载

欢迎转发到朋友圈!

 

扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存