其他
干货| 你所要知道的宏基因组关联分析知识都在这里
本综述总结了疾病相关生物学过程中微生物的作用,并详细介绍了宏基因组关联分析(MWAS)方法以及它在关联微生物与疾病表型中的研究成果。
2.宏基因组测序和组装为确保样品间的比较有意义,首先应保证足够测序数据量,因为被检测到的基因数会随着测序数据量的增加而增加,直到饱和。与从肠粘膜、口腔、皮肤、阴道和胎盘这些部位采集的样品相比,粪便样品宿主污染比较少,不超过总数据量的1%。经过质控,测序得到的序列(reads)被重新组装成更长的序列(contigs),这些contigs共同组成宏基因组。
3.微生物参考基因集通过对组装后的contigs进行基因预测,并去除样品间高度相似的基因序列,得到非冗余基因集。基因的丰度、分类和功能都是基于这个参考基因集而被量化,从而进行微生物与疾病之间的关系研究。因此,建立一个高质量的参考基因集是MWAS的基础。
4.基于宏基因组数据的分类不同样品中来自相同微生物基因组的一类基因应该具有相同的丰度变化模式,可根据这一原理对宏基因组数据集中的基因进行聚类,将物种分辨率提高到菌株水平。基于不同的相关系数和算法,这些聚类方法包括建立MLG(metagenomic linkage groups)、MGC(metagenomic clusters)或MGS(metagenomic species)。在物种注释时,基于保守的单拷贝基因和基因组的菌株特异性区域进行比对非常有效。例如,宏基因组操作分类单元法(mOTU)就是基于十个保守的单拷贝基因进行物种注释,因此,比利用16S rDNA在物种比对上更准确。
5.MWAS对微生物组的分析是基于整体的概念,采取降维的思想,将多维因素下数据的差异展示在二维坐标上。一般通过聚类分析、主坐标分析(PCoA)、主成分分析(PCA)、一致性分析、因子分析和判别分析来实现降维。
(1)微生物多样性分析很多疾病研究都是基于微生物群落的相似性来区分不同的样品。然而,度量标准,如统计学模型的选择对结果的影响很少受到重视。对于一组特征多样化的样品,例如,来源于不同人群的皮肤样品,即使通过统计学模型能够揭示原始数据的差异,但很有可能这种差异与生物学上的差异不一致。另外,从微生物复杂的潜在作用关系中提取出与研究相关的网络至关重要。比如鉴定出克罗恩病患者体内有益和有害的微生物相互作用关系。但这种方法存在两个问题:第一,通过多项分布得到的个别微生物的富集会产生很多负相关关系,从而引起网络拓扑结构的偏好性;第二,分类数据非常稀少,某个特定微生物在大部分样品中没有富集。在物种注释方面,宏基因组学比扩增子测序更精确。不过,通过寡核苷酸配型技术(oligotyping)对16S rDNA测序数据进行再分析,能够提高物种鉴定的分辨率。然而,不是分辨率越高分类结果就越准确,比如16S rDNA分析中分类到种水平的OTU在区分胖人与瘦人时的准确性反而有所降低。
(2)功能分析宏基因组学通过对特定环境中所有的DNA片段进行测序,故能够提供更完整的微生物群落信息以及很多更强大的分析。比如对物种的鉴定到菌株水平或单核苷酸多态性(SNPs),基于KEGG(Kyoto Encyclopedia of Genes and Genomes)、COG (Clusters of Orthologous Groups of Proteins)、GO (Gene Ontology)和EggNOG (Evolutionary Genealogy of Genes: Non-supervised Orthologous Groups)等数据库对DNA序列进行功能聚类。
结合人类宏基因组与代谢组学数据在区分不同疾病特征方面很有优势(图2),除了能够提高物种鉴定的分辨率,也有助于揭示某现象的潜在机理,比如解释粪菌移植艰难梭菌如何改变小鼠胆汁酸代谢产物的研究。宏蛋白质组学也可以鉴定新的生物标记物,已有报道称乳酸脱氢酶、精氨酸脱亚胺酶以及参与胞外多糖合成、铁代谢和免疫应答过程中的酶,能够作为健康人口腔环境中的标记物。结合宏基因组学、代谢组学和蛋白质组学已经揭示出微生物如何应对特定的疾病状态,比如IBD,并找到参与丁酸盐和胆汁酸代谢过程中的特定物种(例如Faecalibacterium、prausnitzii)、蛋白和代谢产物,这些均可作为区分克罗恩病引起的回肠炎症、结肠炎症以及健康人肠道的生物标记物。
Nat Rev Microbiol. 2016 Aug;14(8):508-22.
目前的几个用于鉴定微生物与疾病因果关系的研究方法均存在优势与缺陷。纵向研究,比如CHILD(Canadian Healthy Infant Longitudinal Development)出生队列研究,能够检测微生物的变化在疾病发生之前还是之后,然而这项研究非常昂贵,且需要大量的人群样本。干预研究可以通过药物管理或其它干预方式来引起微生物和疾病表型的改变,这种方法非常有效,但存在伦理问题。比如粪菌移植就面临很多障碍,尤其在美国。另外,人群样本很难采集,并存在很多隐私问题,特别是有些样本被用于很多不同的研究。动物模型虽然在探究疾病发生机理方面有很大的应用价值,但这些机理与人类疾病之间的关系还有待明确。
越来越多的研究表明微生物的代谢物能够直接影响人体健康,例如 SCFAs(短链脂肪酸)对IBD发生、发展的影响。MassBank、METLIN、MetaboLights和HMDB(the Human Metabolome Database,人类代谢组数据库)等数据库依次出现,旨在储存和传播质谱分析获得的数据,使得更多代谢物被注释。无菌动物的使用在鉴定宿主微生物所产生的初级代谢物中具有重要作用,但很多代谢物在人类健康中的作用还有待研究。另外,微生物的致病要素可能是编码特定代谢物的基因,而非致病物种的核心基因(图2)。因此,微生物相关疾病的研究也可以从研究这些基因的角度出发。
值得一提的是,除了宏基因组和代谢组学数据,宏转录组、环境蛋白质组可通过研究疾病人群微生物中显著富集的RNAs和蛋白质进一步为微生物-疾病之间的关系提供依据。人体肠道菌群在对药物功效和毒性的调节中发挥重要作用。个体微生物的差异使得个体服药后所引起的代谢不同从而导致个体间有效药物剂量和副作用的不同。在服用伊立替康治疗结肠癌的病人中,40%病人的治疗疗效因微生物相关的药物毒性而降低。研究发现,这种药物毒性产生与一种微生物的β-葡萄糖醛酸酶相关,目前通过抑制这种酶来调节微生物活性的抑制剂正处于临床实验阶段。因此,为全面理解人体微生物组在健康和疾病中的作用,多组学工具的应用非常重要。
与在物种分类水平相比,健康人和疾病人群的分类依据在功能水平更明确。在肠道的缺氧环境中,抗氧化应激能力的增强标志着肠道菌群失衡,同时也表示好氧细菌的增加或者宿主免疫系统被激活。另一个肠道菌群失调的标志是硫酸盐或亚硫酸盐向硫氰化物的转换。从某种程度上来说,短链脂肪酸丁酸盐和丙酸盐等代谢物是肠道上皮细胞能量的主要来源,能够帮助维持一个健康的肠道环境,如MWAS参与的II型糖尿病、肥胖和结肠癌肠道菌群研究。
未来基于MWAS技术对微生物组在相关疾病中作用的研究会越来越深入,科学家们希望能够发展一个微生物全球定位系统来对疾病人群进行分层,指导精准医疗,从而维护人类健康(图3)。