NAR:宏基因组网络分析工具MetagenoNets
MetagenoNets:微生物相关网络的综合推断和整合见解
MetagenoNets: comprehensive inference and meta-insights for microbial correlation networks
Nucleic Acids Research [IF:11.147]
2020-04-27 Web Server
DOI: https://doi.org/10.1093/nar/gkaa254
第一作者:Sunil Nagpal, Rashmi Singh, Deepak Yadav
通讯作者:Sharmila S Mande(sharmila.mande@tcs.com)
作者单位:TCS研究部生物科学研发部,印度马哈拉施特拉邦(Bio-Sciences R&D Division, TCS Research, Pune, Maharashtra 411013, India)
摘 要
微生物关联网络通常用于理解和比较微生物组数据集中的群落动态。然而,要推断此类网络的微生物相关性并获得有意义的生物学见解,就需要冗长的数据管理工作流程,选择适当的方法,进行统计计算,然后通过不同的流程进行适当的可视化、报告和比较。随着通常与微生物组研究相关的多组“元数据”和“组学”功能概况的增加,复杂性进一步增加。这不仅需要分类网络,而且需要集成的双向网络。网络推理算法的多种选择进一步增加了执行基于相关性的微生物组相互作用研究所需的工作量。我们介绍了MetagenoNets,这是一个基于Web的应用程序,它接受多环境微生物的丰度和功能配置文件,智能地分隔“连续和分类”的元数据,并允许对分类,集成(组间)和分类的推理和可视化双向网络。MetagenoNets的模块化结构可确保在直观且交互式的个性化仪表板驱动的框架中进行逻辑分析(推理,集成,探索和比较)。动态选择过滤,标准化,数据转换和相关算法可确保最终用户获得微生物网络分析的一站式解决方案。MetagenoNets可从 https://web.rniapps.net/metagenonets 免费使用。
背景
由于存在于各种混杂因素或环境条件相互作用下的多种微生物,微生物生态系统本质上是复杂的。宏基因组学是对从环境样品中获取的基因组材料的研究,其目标是微生物DNA破译收集到的样品的分类学和功能属性,随着下一代测序技术的出现,该方法获得了极大的发展。获得有关各种微生物组合物的结构或组成方面的见解始终始终是大多数宏基因组学研究的主要目标之一。然而,微生物组研究人员感兴趣的另一个问题与微生物群落动态有关,即在所研究的宏基因组学环境中各种微生物如何相互关联或相关。即使有多种策略可用于挖掘微生物与微生物的关联,例如基于证据的关系挖掘和功能驱动的关联,一种常用的微生物相互作用挖掘方法旨在探测在环境中检测到的微生物的发生(丰度)分布之间的相关性,这样的网络也被称为共现网络(occurrence networks),并经常在宏基因组研究中使用)。然而。鉴于微生物生态系统的复杂性以及与网络/图论方法相关的技术方面,研究人员在进行有意义的网络分析时经常面临多重挑战。这些挑战可以分为三类:
冗长的微生物网络分析工作流程
Lengthy workflow for microbial network analysis
网络推理的典型工作流程通常涉及(a)大量数据过滤以去除虚假或不相关的特征,(b)从多种数据归一化和转换策略中进行选择,以考虑样本间偏差,混淆因素,组成等。(c)在多种相关推断方法中进行选择以得出网络文件(相关矩阵,邻接矩阵,边列表等)。(d)使用图论算法来计算网络特征(例如全球网络属性,局部中心度量等)使用所述网络文件,并且(e)使用可视化工具查看网络。
宏基因组数据带来了额外的复杂性
Meta-data introduces additional complexity
与宏基因组学研究相关的综合元数据的可用性为推断和探测微生物关联网络的问题增加了另一层复杂性。对于给定的环境,可以有多个级别的元数据组或类别(例如,地理上的环境可以将国家作为组)。这就需要为每个这样的组分别处理网络。此外,还经常收集连续的元数据(如BMI,年龄),因此研究人员也有兴趣探索微生物丰度与此类连续数据点(或协变量)的相关性。
组间数据进一步增加了复杂性
Inter-omic data further increases complexity
宏基因组学研究通常具有一个或多个“相关的”组学内丰度特征。例如,随机宏基因组学测序研究不仅可以为研究人员提供微生物的丰度概况,还可以为各种功能单元(如酶,GO,COG,基因等)提供丰度。对同一组样品的相关组学研究(如转录组图谱)也可以成为紧密相关的组学数据。16S研究的推断功能是与微生物丰度数据集相关的组间图谱的另一个示例。此类二级数据集的可用性通常导致需要挖掘具有此类组间单元(如功能,基因等)的微生物的相关性。这种关联的结果通常以“组间集成网络”和“双向网络”的形式可视化。因此,期望为每个元数据类别(和相应的组)实现相同的过程是复杂且乏味的。
例如,对于从健康个体以及受疾病影响的各个身体部位采集的样本人群,以下与典型微生物群落动力学研究有关的问题可能具有相关性:
a. 健康和受影响个体特有的微生物共生模式是什么?
b. 健康个体和受影响个体的身体部位特有的关联模式是什么?这些网络如何在交互和各种网络属性方面进行比较?
c. 在所有/任何类别的网络中,某些微生物的出现与年龄或BMI或体重或个体的任何其他“连续”特征之间是否存在相关性?
d. 给定样品的代谢特征、微生物或一组微生物的出现与目标代谢物或一组代谢物的分布之间是否有关联?
这些问题中有许多使研究人员兴奋不已,要找到答案,需要共同努力。在当前的最新状态下,对微生物相关网络的典型研究要求依赖于独立的通用软件、插件、本地安装的程序以及高级编程知识。数量有限的可用Web应用程序要么太专门于其他研究领域,要么提供的功能很少。此外,当前缺乏允许组间关联网络分析和有意义的可视化来解决此类问题的网络服务器。表1提供了当前最新状态下网络生物学领域(包括专门用于微生物组研究的工具)的各种工具的范围和特征的全面比较。
表1.比较当前网络生物学领域中各种工具(包括专门用于微生物组研究的工具)的范围和关键特征
Table 1.
Comparison of the scope and key features of various tools in the network biology space (including those specifically used for microbiome research) in the current state of the art. Links to access the tools have been provided in the last column of the table
我们介绍了MetagenoNets,这是一个基于Web的模块化框架,旨在简化推理和分析相关驱动的微生物关联网络的过程。MetagenoNets的以下功能预计将在微生物组网络分析领域带来巨大的附加值:
接受小到大的微生物特征表(发生率或丰度分布图)以及多级元数据。提供辅助功能表(如功能配置文件)可以为集成分析提供更深入的见解。
a. 提供常用的数据标准化策略和转换方法。
b. 通过流行度和基于事件的过滤器来减少特征。
c. 研究人员经常使用的相关性驱动网络推断方法的可用性。
d. 将元数据智能分类为分类和连续数据类型。
e. 提供分类,集成和双向网络的生成和可视化。
f. 所有网络,网络属性和相关性值的交互式可视化。
g. 通过交互式维恩图进行分类网络的组成比较。
h. 独立注册的个性化仪表板系统,可实现隐私,可追溯性,协作性。
数据格式,输入参数和方法
DATA FORMAT, INPUT PARAMETERS AND METHODS
丰度数据 Abundance data
MetagenoNets接受两种类型的丰度数据集:(i)主要输入数据;(ii)辅助输入数据。主要输入数据本质上是一个(制表符或逗号)定界的多元丰度表,表示从随机测序宏基因组学研究或从16S研究中使用的各种基于新颖或基于参考的分类学分类器中获得的各种操作生物分类单位(OTU)的丰度。。BIOM文件也可以提交。必须向MetagenoNets提供主要的输入数据集。辅助输入数据(也是多元丰度表)(或BIOM文件)是可选的输入数据类型。该表可能包含主要输入数据中提供的样品的组间特征(如途径丰度,代谢物丰度等)。
元数据 Meta-data
MetagenoNets接受两种类型的元数据,(i)主要元数据,(ii)节点元数据。主元数据是(制表符或逗号)定界的文件,其中包含多列示例信息。代表各种环境类别(例如疾病状态,地理等)的元数据文件的每一列包含对应于总体中所有样本的各种子类别的名称或协变量的数量(例如BMI或年龄)。节点元数据是可选的,包含与主要输入数据中存在的特征有关的元信息(例如,不同微生物属的门属关系)。该元数据信息用于动态定制网络节点的颜色。对于丰富的BIOM文件类型,将自动从上传的输入BIOM文件中提取元数据。
过滤参数 Filtration parameters
MetagenoNets为最终用户提供了通过普遍性和基于事件的过滤标准过滤稀疏特征的规定。流行率是指样本中必须存在给定特征的最小丰度,而发生率是指在流行度阈值下必须存在给定特征的最小样本数。这些参数可以在开发个人仪表板(即分析工作区,如下所述)之前和之后进行调整。
标准和转换方法 Normalization and transformation methods
MetagenoNets提供了用于微生物组数据集的大多数流行的数据归一化和转换方法。“总和比例缩放”(Total Sum Scaling,TSS),“累积和比例缩放”(Cumulative Sum Scaling,CSS)和四分位数归一化(Quartile normalization)构成了一组归一化技术,“相对对数表达式”(Relative Log Expression,RLE,在edgeR包中实现),“M值的均方根” (Trimmed Mean of M values,TMM)和“中心对数比率”(Centered-Log Ratio,CLR)是可供最终用户使用的流行转换方法。可以动态选择更改归一化或转换方法的选择,从而可以灵活地在单个工作空间或个人仪表板上检验各种策略(无需重新上传数据)。值得注意的是,这些方法仅适用于主要输入数据。
相关推理算法 Correlation inference algorithms
以前,研究人员依靠经典的相关指标(如Spearman或Pearson相关系数)来评估微生物/ OTU之间的相关关联。在意识到微生物组数据集的组成特性之后,不仅推荐使用CCREPE/ReBoot,SPARCC,CCLasso和NAMAP之类的算法,而且建议将其用于有意义的分析。这些计算和统计密集型算法中的每一个在安装,数据准备和工作流程方面都有其自身的挑战。除了经典的相关度量,MetagenoNets还配备了上述算法,并且还包括其他经典的基于Spearman / Pearson相关方法的自举变量(bootstrapped variants)。最终用户可以动态选择统计显著性(P值,q值),迭代阈值和其他算法调整参数。
数据上传和任务管理系统
UPLOAD PROCESS AND TASK MANAGEMENT SYSTEM
MetagenoNets遵循基于小部件的顺序任务提交工作流。
步骤1与最终用户可用的所有类型的数据上传有关。考虑到免注册框架,必须在此步骤中提供易于识别的“任务标签”。此作业标签映射到特定于用户启动的任务的唯一且个性化的(八个字符)仪表板标识符。可以通过MetagenoNets的工作历史页面进行访问。提供实时状态终端以跟踪提交中的任何错误。
步骤2提供了用户上传的数据统计信息的摘要。值得注意的是,MetagenoNets会自动推断提供的元数据文件中的分类元数据类型和连续元数据类型。统计摘要提供与所有输入类别以及元数据有关的定量信息。
步骤3允许最终用户提供数据过滤,归一化/转换参数的初始选择,这些参数可以应用于开发个人仪表盘的主要输入数据(即功能部件或OTU丰度配置文件)。
步骤4提供了所有输入/选择的全局摘要,并寻求最终用户的批准以开发个人仪表板(即分析工作区)。一旦获得批准,仪表板将立即开发,并且用户可以选择访问仪表板。
使用作业标签和相应的仪表板标识符同时更新作业历史页面,以供以后访问工作区。作业历史记录部分中提供的作业搜索窗口小部件还允许用户使用远程协作者共享的唯一标识符访问任何仪表板。
个性化面板和结果
PERSONAL DASHBOARD AND RESULTS
MetagenoNets的模块
Modules of MetagenoNets
MetagenoNets中的四个模块,分别指定用于一组特定的分析和可视化,在称为仪表板的个人工作区框架中提供。这些模块包括:(i)分类网络,(ii)集成网络,(iii)Venn图和(iv)属性。
分类网络模块
Categorical networks module
该模块允许推断和可视化各种类别特定的网络,其中类别是从MetagenoNets检测到的类别元数据类别中自动得出的。例如,对于与“健康状况”相关的类别,可能会显示“疾病”和“健康”类别。不仅可以使用各种算法(和关联的参数)动态推断网络,而且还可以使用交互式和可定制的网络图和相关图表(相关矩阵的热图)对每个感兴趣的类别进行可视化。在可视化中包含各种集中度量和节点元数据隶属关系的选项进一步增加了该模块的整体效用(图1A)。该模块的结果可以高分辨率图像和可重复使用的文本数据(边列表,相关矩阵,json格式文件等)的形式下载。
图1. 由MetagenoNets的不同模块生成的各种可视化的摘要
A summary of various visualizations generated by different modules of MetagenoNets.
(A)每组元数据类别(即疾病状况)的分类网络和相应的相关图。结节根据其门所属关系着色,并根据其程度确定大小。
(B)整合的二分网络和sankey图,探查微生物的发生与支链氨基酸(BCAA)的丰度、脂多糖生物合成(LPS)和甲基赤藓糖醇磷酸途径1功能之间的相关性。
(C)节点和边组成维恩图绘制了疾病状况元数据类别中的所有网络组。
(D)使用分组箱图对每个组的网络集中度度量进行比较。在网络的两个组(类别)中都比较了度中心度和聚类系数。
整合网络模块
Integrated networks module
该模块允许对集成和双向网络进行推理和可视化。整合网络表示混合特征类型(例如分类群或微生物),功能(例如代谢产物)和连续元数据类(例如年龄)之间的相关性,因此允许特征内类型关联以及特征间类型关联。另一方面,双向网络仅允许特征间类型的相关性挖掘。MetagenoNets允许最终用户使用具有搜索功能的小部件来选择功能(或辅助功能)以及连续的元数据类,以探查所搜索功能与主要功能集(分类)的相关性。除了继承分类网络模块的所有功能之外,MetagenoNets的该模块还允许通过直观的Sankey图可视化双向网络,其中,分类单元沿左轴对齐,而协变量和函数沿右轴对齐(图1B)。
维恩图模块
Venn diagram module
该模块旨在探索给定类别的元数据的相关网络之间的构成比较。组成比较是指识别相同或排他节点的集合以及相关网络类别之间的边缘。这是通过提供节和边组成维恩图的自动生成来实现的。用户可以选择任何感兴趣的元数据类别,并在该类别的所有网络类别中探查相交或互斥的节点和边缘(图1C)。该模块中还提供了类,网络算法和其他参数的动态选择。
属性模块
Properties module
探索和比较与各种网络相关的中心性度量是网络生物学中一种合理且经常遵循的方法。属性模块允许探索流行的中心性度量(centrality measures),即度(degree),聚类系数(clustering coefficient),紧密度(closeness),介数(betweenness),离心率(eccentricity)和核数(coreness)。该模块提供两种类型的结果:
(i)选定网络的所有节点的中心性度量(centrality measures)的列表,具有搜索,排序,过滤和导出结果的功能;
(ii)趋势线嵌入式分组箱图视图,用于全局比较所选类别的元数据中所有类别的网络中的所选中心性度量(图1D)。像所有其他模块一样,该模块中也提供了动态选择类,网络算法和相关参数的功能。
还提供了一个故障排除模块,用于根据MetagenoNets的要求格式化数据。除了清除数据中是否存在特殊字符,NA(或缺失)值外,该模块还允许从各种类型的BIOM文件中提取丰度数据和元数据。
演示和案例研究
DEMOS AND CASE STUDY
在MetagenoNets服务器上的 https://web.rniapps.net/metagenonets/demos.php 上托管了四个准备执行的演示。对应于仪表板ID:1a52c9c2 的演示之一与该用例有关,该用例旨在研究包括克罗恩病(CD)和溃疡性结肠炎(UC)在内的炎症性肠病(IBD)中的微生物(组间)关联模式。与宏基因组研究相对应的分类和功能概况(可从MetagenoNets演示页面下载)是从与HMP2有关的炎症性肠病多组学数据库(https://ibdmdb.org/)获得的。
我们考虑了与研究中所有受试者相对应的零日样本(76 IBD:48 CD,28 UC;24 非IBD)。该研究作者先前采用的Spearman相关系数用于关联挖掘。与非IBD类别相比,与IBD样本有关的分类网络表明网络密度明显增加。关于微生物的门属关系的节点元数据作图表明,IBD样品中属于拟杆菌门的高度结点富集,而属于菌门菌和放线菌的结节数减少(图1A)。以前有报道称,属于厚壁菌门和放线菌门的成员会产生有益的代谢产物,如SCFA,有助于维持结肠健康和肠道内腔完整性。同样,据报道,较高的拟杆菌门可能与各种代谢紊乱有关(36)。此外,我们使用了“整合网络”模块的搜索小部件,选择了据报道富含IBD样品类别的有害途径(脂多糖生物合成途径或LPS)和富含非IBD类别的有益途径(支链氨基酸生物合成途径或BCAA),以推断出与这些功能相关的重要微生物,以及此类关联在不同类别的网络之间如何变化(图1B)。可以注意到,虽然LPS是低度全身性炎症的已知标志,但先前的研究报道[37],已知BCAA可以促进肠道健康。通过集成网络模块生成的二分网络和Sankey图表明,尽管在非IBD样本中任何微生物和LPS之间都没有显著相关性,但发现大肠杆菌与革兰氏阴性细菌呈正相关。LPS在IBD类别中。此外,虽然在非IBD样品中发现BCAA生物合成与大多数共生和有益细菌菌株呈正相关,但观察到这种相关性消失并转移到IBD类别的致病菌株中。正如作者报告的那样,在非IBD中甲基赤藓糖醇磷酸酯(MEP)和腐臭菌之间存在正相关性,这是腐臭菌的过度转录功能(36,37)。为分类网络和整合网络生成的相关图表明了上述相关性的强度(图1B)。
使用维恩图模块比较每个网络类别的节点和边缘组成,结果表明,大多数节点在IBD网络和非IBD网络之间是通用的,而边维恩图表明存在特定于疾病状况的排他性边缘。这肯定了,尽管IBD和非IBD特定分类网络之间的节点集几乎相似,但根据疾病状况,它们的相互关联却发生了显著变化或营养不良(图1C)。此外,通过属性模块获得的IBD和非IBD网络类别的平均聚类系数也表明,与非IBD相比,IBD中出现了紧密聚集的群落。还从属性表中确定了网络中每个类别的主要参与者,其中观察到Alistipes shahii在IBD网络中具有最高的程度和紧密度,而Dorea formicigenerans在非IBD网络中则具有最高的程度和紧密度(图1D)。
实施方式 IMPLEMENTATION
研究人员可以从 https://web.rniapps.net/metagenonets 免费访问MetagenoNets。它的后端主要基于Python和C ++。数据可视化基于Cytoscape.js,jVenn,D3.js及其内部自定义,以提供更好的用户体验。服务器连接使用PHP建立,前端设计基于HTML,CSS和Javascript。该平台已经过Mozilla Firefox,Chrome,Opera和Safari的检验。补充表S1提供对MetagenoNets中使用的各种算法的出版物/源代码的描述和参考。
未来发展方向
FUTURE DIRECTIONS
使用统计检验(如Kruskal-Wallis和Wilcoxon检验)和标记特征检测算法(如基于分类和回归的方法)进行特征约简是微生物组研究人员所采用的常见策略。这样的特征缩减策略在使用统计上相关的主要特征和次要特征来生成整合网络方面特别有用。当前,MetagenoNets仅采用基于标准发生和流行的特征过滤方法,并依赖于相关的主要和辅助输入数据集的可用性。MetagenoNets的未来版本计划包括上述功能减少策略的实用程序。此外,考虑到基于排序的降维(在主要特征集上)的普遍使用以及对组间相关推论的协惯性分析和过程分析,MetagenoNets的未来版本也将实现这些方法。MetagenoNets的许多功能是现有用户群不断反馈和要求的结果,我们希望该工具也将继续超越计划的开发策略。
讨论 DISCUSSION
网络分析通常用于微生物组研究。但是,研究人员需要遵循冗长的工作流程来执行简单的相关分析和可视化。使用辅助数据集或元数据中的协变量进行组间关联挖掘的需求,进一步使推断相关性和生成有意义的可视化过程变得更加复杂。我们已经开发了MetagenoNets(基于Web的应用程序),以减少进行此类分析所需的时间和精力。该工具中包含多种算法和数据管理方法,使研究人员能够探索和采用适合其数据(及相关元数据)性质的适当策略。另外,在模块化工作空间的框架中提供了多种交互式可视化技术和算法的实时选择,确保了最终用户可以在逻辑上解决微生物相关性分析的问题。尽管组间相关分析是微生物网络分析中非常需要的方法,但在该领域很少有人使用。MetagenoNets已经进行了自动化集成和双向网络的推理和合适的可视化的初步尝试。MetagenoNets的未来版本将着重扩大组间关联挖掘的范围,除了扩展使用微生物组数据集的微生物关联挖掘的一般范围。
数据可用性 DATA AVAILABILITY
MetagenoNets应用程序可从http://web.rniapps.net/metagenonets免费获得。
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”