TiM:rDNA拷贝数的种内变化影响微生物群落分析吗?
The following article is from 水生态健康 Author AEHG
【论文题目】Does intraspecifific variation in rDNA copy number affect analysis of microbial communities?
【期刊名称】Trends in Microbiology, 2020, in press
【全文链接】
https://doi.org/10.1016/j.tim.2020.05.019
【第一作者】Anton Lavrinienko
【通讯作者】Phillip C. Watts
【作者单位】芬兰于韦斯屈莱大学,生物与环境科学系
亮点
1、对部分核糖体RNA基因(以下简称rDNA)的扩增子测序是一种广泛应用的方法,被用于揭示微生物群落中巨大的物种多样性和宏观生态模式。
2、虽然rDNA拷贝数的种间变异可能会使扩增子序列数据进行微生物群落分析复杂化,但种内rDNA拷贝数的变异增加了复杂性的额外维度。
3、由于种内rDNA拷贝数的变异与环境变化有关,微生物群落中明显的种群统计学变化可能是由基因组对环境的响应所驱动的。
4、在微型真核生物的研究中,rDNA拷贝数的种内变异可能是一个比原核生物更大的问题,因此在解释扩增子序列数据方面是一个挑战。
摘要
核糖体RNA基因(rDNA)部分区域的扩增子测序已经被广泛用于表征微生物群落。然而,rDNA是动态的,在原核生物中,rDNA的拷贝数在种间和种内都有显著的变化,而在微型真核生物中的变化特别显著。由于rDNA拷贝数的变化是对环境变化的一种常见响应,所以rDNA拷贝数不是物种的特定属性。rDNA拷贝数的变化,特别是由外部因素所驱动的较大的种内变化的能力,使rDNA扩增子序列数据的分析 复杂。因此,我们强调需要:(i) 根据可能的种间和种内变异来解释扩增子序列数据,(ii) 研究rDNA拷贝数的潜在可塑性,将其作为一个重要的生态因子,以更好地理解微生物群落在异质环境中的构建。
术语
扩增子测序:破译扩增的DNA片段序列协同进化:多个相关基因均质化的过程,使一个物种内的DNA序列比在物种间比较时具有更高的同一性微滴式数字PCR:在20000个乳化液滴的单个液滴中提供量化核酸数量能力的方法(数字PCR)精确序列变异(ESV):表示来自reads的精准DNA序列使用,而不是将reads按相似性聚类成OTUs内转录间隔区(ITS):核糖体RNA基因之间未翻译的DNA序列标记基因分析:对表现出显著序列变异和差异的一个基因或者一些基因的DNA短片段进行测序,可用于物种鉴定宏基因组-组装基因组:一种基于具有相似性质的连续序列计算分箱(或分类)的单个分类单元的组合新一代测序技术:快速高效的测序方法,在大量平行反应中对数百万DNA片段进行测序操作分类单元(OTU):根据序列相似性将一个特定分类标记基因的序列分组(通常相似阈值为97%)PCR扩增:聚合酶链式反应,是一种对特定DNA片段指数扩增放大的方法rDNA:由核糖体RNA基因和间隔序列组成的一段基因组(通常以串联重复序列排列)参考文库:一个带注释的DNA序列集合,可用于解析注释NGS生成数据中的序列身份核糖体RNA:包括作为核糖体结构成分的RNA分子,由核糖体DNA基因编码单细胞基因组扩增:单细胞测序产生分类单元组合;它需要单细胞的物理分离、全基因组扩增和后续的测序串联排列:在串联重复产生的基因组中以串联重复形式排列的基因拷贝通用的PCR引物:短片段的DNA(引物),用于PCR中同时扩增不同分类单元用分子方法定量微生物群落
新一代测序(NGS)技术已经提供了在时空尺度上识别和计数样品中微生物分类组成的方法,可应用于对真核和原核微生物群落的全球评估,而使用基于培养的方法和/或Sanger测序是费时费力、不切实际的。然而,使用NGS来量化微生物群落也伴随着一些技术缺陷:比如与文库准备相关的偏差、选择NGS测序平台的偏差、以及/或PCR扩增过程中出现的偏差。许多这样的技术问题已经被标准规范协议和生物信息学技术的发展所解决。在这里,我们强调核糖体RNA(rRNA)基因拷贝数的种间和种内变异(图1)是如何干扰微生物群落组成分析的,特别是当重点关注真核微生物时,这些微生物的基因组在rRNA基因拷贝数上可以显示出广泛的种间和种内变异。
图1 核糖体RNA(rRNA)基因簇示意图(或者是rDNA)
(A)真核生物和(B)原核生物的rRNA基因位点的可变区域通常用来描述微生物类群以及解析它们的系统发育关系。
在大多数真菌中,rRNA基因簇包括小的核糖体亚基(SSU, 18S),其内部转录间隔区(ITS1和ITS2)位于5.8S两侧,以及大核糖体亚基(LSU, 25-28S)区域。
在细菌中,rRNA操纵子包括SSU(16S)、LSU(23S)和5S基因位点。按顺序排列的黑色竖线显示了SSU(V1-V9)和LSU(D1-D12)的可变区域,这些区段最适合通过微生物群落分析进行生物多样性评估。
部分核糖体RNA基因簇(rDNA)是量化微生物群落组成扩增子的选择
典型的微生物群落组成的NGS分析使用扩增子测序(或者是标记基因分析),解析序列的最终产物(OTUs或者ESVs),并与DNA参考库进行比较和分类注释。从基因组中提取扩增子的适当区域,取决于种间和种内序列差异程度以及“通用”PCR引物的可用性。扩增子通常来自于rRNA基因簇(rDNA)的一部分(图1),例如原核生物16S rDNA的可变区域之一,定量真核微生物群落多样性时可以使用18S或28S rDNA的可变区域或者rDNA的内部转录间隔区(ITSs)。对ESVs注释之后,对扩增序列数据进行分析的下一个基本步骤是计算属于每个ESV的序列数:这里的一个关键假设是,分配给每个ESV的reads比例反映了样本中假定分类单元的相对丰度(例如细胞或生物量)。然而,rDNA在许多物种中以串联阵列的形式排列(图1),而且该基因组区域的拷贝数可能在种间和种内出现大量变异,这使得序列丰度和细胞对应的这一假设变得复杂。
不同分类生物域间rDNA拷贝数的种间变异水平存在显著差异。原核生物通常有少于7个rDNA拷贝(细菌的中位数=5个rDNA拷贝,n=15486个基因组;古菌的中位数=1个rDNA拷贝,n=343个基因组),尽管只有一种细菌(美人鱼发光细菌)有多达21个16S rDNA拷贝。相反,真核生物的rDNA拷贝数表现出广泛的种间变异。例如,据估计,真菌中rDNA拷贝数为14–1442,在原生生物物种中为1–50万个拷贝,纤毛虫每个细胞的rDNA拷贝数非常高。事实上,rDNA拷贝数与真核基因组大小呈正相关,虽然这种联系可能不适用于纤毛虫和真菌。其他研究发现在一些海洋原生生物物种中rDNA含量和细胞大小呈正相关。为什么rRNA基因表现出种间多样性,并且常常是真核生物基因组中最丰富的区域之一,这是一个复杂的问题,与rRNA转录调控、核仁功能和其他细胞过程有关。然而,从群落生态学的角度来看,rDNA拷贝数种间差异的广泛存在限制了基于NGS方法准确分析样本中微生物类群相对比例的有效性。
理论上,根据每个基因组rDNA拷贝数的分类特异性可调整ESVs的数量,可以更好地估测rDNA扩增子数据的分类单元比例,一些软件可以对原核生物样本实施这一程序。在实践中,大多数物种的rDNA拷贝数是未知的,这种类型的生物信息校正依赖于明显的rDNA拷贝数的系统发育保护;在原核生物中,这可能只存在于较短的系统发育距离上。类似地,在同属真菌中rDNA含量往往是相似的,但经常有例外。对于微型真核生物类群,由于rDNA拷贝数在足够多的物种基因组中存在,并且不清楚rDNA拷贝数的任何系统发育保守程度,试图纠正ESVs数量是不可行的。在从扩增子数据分析微生物物种比例时,rDNA拷贝数的种间变异的影响仍是一个未解决的问题,尤其对于真核生物群落的分析。即使每个基因组rDNA拷贝数存在分类特异性数据,微生物群落组成的分子分析也可能受到种内rDNA拷贝数变异的影响。
原核生物和真核生物中rDNA拷贝数的种内变异
鉴于其基本功能,rDNA拷贝数通常受到严格调控。然而,rRNA基因代表了基因组中一个明显的动态区域,在拷贝数上显示出广泛的种内变异。在原核生物研究中,rDNA拷贝数的种内变异并没有广泛报道,虽然有些细菌能容忍rDNA拷贝数的变化,例如,在Paeniclostridium sordellii CBA7122基因组中rDNA拷贝可达到17个,它的基因组通常平均包含4个16S rDNA拷贝。相比而言,真核生物中rDNA拷贝数的种内变异是常见的。在对4876株面包酵母(Saccharomyces cerevisiae)的调查中,发现在突变体中rDNA拷贝数从少于80个拷贝到超过450个拷贝,其他真菌物种中发现了rDNA拷贝数两到四倍变异。实验室培养的纤毛虫的rDNA拷贝数也有显著变化,例如,估测Strombidium stylifer有1082到16995个拷贝(相差15倍)。因此,与原核生物相比,微型真核生物在rDNA拷贝数方面表现出实质性的、更大的种内变异。
rDNA拷贝数变异的进一步考虑是基因组内多态性的存在,尽管协同进化有减少rDNA序列差异的可能性,例如,在近50%的检测细菌和约3-5%的真菌中已经报道了基因组内rDNA多态性。在许多物种基因组内的多个rDNA拷贝之间rDNA多态性的分布基本上是未知的。使用基于OTU的聚类(而不是ESVs)来定义分类单元,可以最小化基因组内rDNA变异对使用扩增子序列数据分析微生物群落的潜在影响。
rDNA对环境变化很敏感
理解rDNA拷贝数变化的功能,是解释rDNA扩增子序列数据所获得的群落结构特征的重要组成部分。细菌中rDNA拷贝数变化的适应性意义得到了很好的研究,例如,与种间代谢差异和生长率有关,以及作为一种与栖息地生境专门化或者群落演替有关的特性。很少有研究关注自然界真核微生物群落中rDNA拷贝数的种间变异的潜在意义,尽管rDNA拷贝数可预测对DNA损伤的敏感性,可以解释实验室环境下物种对压力的响应。
在微生物群落组成分析中,尤其相关的是,rDNA拷贝数不一定是种水平性状,因为有广泛的证据表明,某些刺激可以引起微生物种内rDNA拷贝数的快速变化(表1)。相反,当暴露于杀菌剂或温度变化时,一种烟曲霉菌分离株的rDNA拷贝数是稳定的。这意味着并不是每个物种都经历了快速和/或可检测的rDNA拷贝数的可塑性变化。事实上,表1中分类多样性的缺乏突出了,需要更好地量化rDNA拷贝数在多大程度上是一种物种性状还是因响应环境因素变化。此外,还需要更好地记录引起rDNA拷贝数一般变化或特定分类群特有变化的环境因素类型。虽然rDNA拷贝数的种间变异是纠正扩增子序列数据的挑战,但环境本身会影响rDNA拷贝数,这又增加了另一层复杂性(图2),这在自然界微型真核生物群落调查中通常不被考虑。基因组内的rDNA基因型是否会因环境变异而改变其拷贝数尚不清楚,但其对任何扩增子序列数据分析的影响,取决于rDNA多态性之间的序列差异水平,以及物种定义为OTUs还是ESVs。在rDNA扩增子数据的分析,特别是在真核微生物中,应该考虑种内基因组对环境响应的可能性,以及它与物种rDNA拷贝数的潜在相互作用。这是一个重要的考虑,因为许多研究的目标是量化群落组成变化响应环境变化而发生的变化,而事实上环境变化本身可能会刺激rDNA结构的变化。
表1 原核生物和微型真核生物种内rDNA拷贝数变异和适合度相关性的研究
图2 基于环境DNA分析解释微生物群落组成的不同情景
(A)在微生物生态学中,典型的下一代测序(NGS)分析从DNA的提取和测序开始,得到属于不同物种的精确序列变异(ESVs)或操作分类单元(OTUs)的名录,并可根据rDNA序列进行物种的鉴定解析。
(B) 微生物群落的总体rDNA含量是(i)分类学组成(由taxon1、taxon2和taxon3表示)和(ii)每个基因组的rDNA拷贝数(每个分类单元内的彩盒)的函数。
(C)环境变化可能会改变物种的相对比例(一种种群统计学效应)。
(D)环境变化可能会引起每个物种的每个基因组rDNA拷贝数的变化(一种基因组效应)。
(E)环境变化可能会影响物种比例和它们的rDNA拷贝数的变化。
在每种情况下,物种(n)数量和rDNA拷贝数量(NrDNA)的比较说明了在rDNA拷贝数量存在种间和种内变异时,仅使用ESV/OTU计数数据推断物种的相对比例可能存在困难。
rDNA扩增子测序在微生物群落组成评估方面有前景吗?
rDNA是扩增子测序的一个极好靶点,因为所有生物体的基因组都有同源位点,而设计通用的PCR引物使得使用单一方法来识别不同的物种成为可能。历史上使用rDNA测序数据来解决系统发育关系和鉴定物种的一个重要必然结果是产生许多、大型和整理的rDNA序列参考数据库,为微生物ESVs/OTUs注释提供了标准化方法。环境驱动的种内rDNA拷贝数变化的潜力并不会使该位点对群落组成的评估变得冗余,但它强调了有必要更深入地考虑群落对环境的响应:种群统计学、基因组学或两者的结合(图2)。
目前,利用rDNA扩增子测序数据获得更好的分类组成比例的解决方案,强调需要更多物种的rDNA拷贝数数据。原核生物中rDNA拷贝数的种间差异可以通过rrnDB数据库进行检测。rDNA拷贝数的种内变异水平在rrnDB中没有得到解决,但可以通过将NGS读取数据映射到已组装的基因组和/或使用长读长测序技术来更好地组装rDNA操纵子来评估关键物种(如具有医学重要性的物种)。然而,考虑到原核生物种间和种内rDNA拷贝数变异水平相对较低(rrnDB中15829个记录中约有50%的rDNA拷贝数变异数据),通常每个基因组有等于或小于4个拷贝,这种努力或许不能作为改进原核生物群落组成分析的一般策略。
考虑到rDNA拷贝数的广泛差异,使用rDNA扩增子序列数据定量真核微生物群落的分类组成具有挑战性。开发一种生物信息学解决方案来解释真核生物中rDNA拷贝数变化的前景似乎很不明朗。动物有rDNA拷贝数的数据库,而微型真核生物缺乏rDNA拷贝数数据。开发一个微型真核生物rDNA拷贝数的资源是很困难的,主要原因有:(i)原生生物物种的多样性极高,(ii)分离、培养许多物种的困难,(iii)我们对驱动rDNA拷贝数变化的环境因素未知,(iv) rDNA拷贝数变异没有系统发育保守性的可能性。利用明显的细胞大小-rDNA基因拷贝数关系来调整序列数,以更好地反映某些原生生物物种的丰度,可能会在分析中引入更多的噪声。主要原因有:(i)这种关系的内在变化和(ii)种内rDNA含量变异的可能性。解决环境DNA样本中群落组成的另一种方法是使用单拷贝基因位点作为扩增子测序的靶点,尽管要确定一组可靠的基因位点需要付出大量的努力,这些基因片段应(i)具有适当程度的序列差异来进行分类注释,(ii)具有足够保守的区域,可以设计出具有适当扩增子长度的通用引物。关键菌株的丰度可以用定量PCR或者微滴数字PCR定量,但是这些方法对于整个群落的分析是不实际的。宏基因组测序提供了rDNA扩增子分析的替代方法,因为reads可以被映射到宏基因组,而宏基因组的分类鉴定是通过一组保守基因位点确定的。宏基因组数据可能是一个生物的rDNA拷贝数信息有用的来源,因为直接来源环境样本,绕过了培养步骤。也就是说,在定量rDNA拷贝数变化中,重复基因组区域(如rDNA)的组装困难限制了宏基因组-组装基因组(MAGs)或单扩增基因组(SAGs)的应用。长读长测序技术可以通过提高装配的连续性,甚至完成基因组来克服这个问题。在未来的研究中,一种结合了短读长测序和长读长测序的联用方法可能会从宏基因组中产生更完整的基因组,从而使自然系统中微生物的rDNA拷贝数增添到数据库中。然而,尽管NGS技术和生物信息学技术迅速发展,但是作为测定许多样品中群落组成或量化rDNA含量的方法时,宏基因组测序目前过于耗费资源(例如,耗时和昂贵)。因此,使用基于rRNA的扩增子测序来量化群落结构变化的研究,需要根据可能的种间和种内响应来解释它们的数据。
结束语
长期投资开发标准实验室规程和大型管理的rDNA数据库的一个必然结果是,rDNA扩增子测序仍然是量化微生物群落组成的一种简单而经济的方法。与原核生物相比,自然系统中微型真核生物的基因组中rDNA的结构和动态变化研究较少,真核生物基因组中rDNA拷贝数可能存在更大的种间和种内变异。这种rDNA拷贝数的变异,特别是在种内发生较大变化的能力,使rDNA扩增子测序数据的分析变得复杂,但它不是一个令人讨厌的参数,而是一个积极的挑战(可能具有生物学意义和环境意义),或许可充分利用微生物生态学中基于性状的研究方法。例如,在原核生物中,对rDNA拷贝数的分析往往超出了其作为条形码位点的用途,而是将rDNA的结构作为与生态策略相关的一个重要性状来考察。对自然微型真核生物群落的分析也将受益于识别物种的响应,无论它们是否改变其相对丰度和/或改变其rDNA拷贝数以应对环境的变化。这种物种的分离和培养将允许使用实验室实验和qPCR分析来验证rDNA变化在真核生物群落变化中的作用。将这些方法与NGS调查整合运用,将为理解微生物群落如何应对环境变化提供关键的见解。
未解决问题
1、原核生物核糖体RNA基因位点(rDNA)拷贝数种内变异的能力是什么,特别是能从自然系统中分离出来的非实验室模式物种?
2、是否有可靠的证据表明,在微型真核生物中,rDNA拷贝数的种内变异普遍存在?
3、rDNA拷贝数的种内变异水平是否有可靠的预测因子,如物种的生活史、生态性状、系统发育关系或基因组大小?
4、是否存在一个阈值,当种内rDNA拷贝数的变化开始严重影响基于rDNA的微生物群落分析结果?
5、rDNA拷贝数的种内变异最重要的环境驱动因素是什么?
6、什么类型的外部刺激影响许多物种的rDNA拷贝数,什么刺激是物种特异性的?
7、哪些物种对rDNA拷贝数的变化更敏感或更不敏感?
8、rDNA拷贝数和/或rDNA拷贝数变化的能力如何通过影响竞争结果或入侵成功来调节群落结构?
9、当拷贝数发生变化时,rRNA操纵子的所有成分是否都以同样的方式被放大?例如,非转录区域(如ITS)是否比转录区域(如18S或28S rRNA基因位点)具有更大的拷贝数变化能力?
10、rDNA拷贝数对环境变化是否有可预测的响应(如增加或减少百分比)?
翻译:薛媛媛
校对:金磊、莫媛媛
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”