史上最全的肠道菌群研究数据库,建议收藏!|微生物专题
我们在进行科学研究的时候,时常会期望能有一本“字典”可以供我们查询各类不同的信息,以便我们能快速得到想要的答案。在这种愿景下,目前行业内有各种各样的数据库应运而生,帮助我们提高科研效率,减少手动翻阅查找文献的工作量。以下为你介绍几款我们亲证非常好用的数据库。
微生物组和代谢组研究手段已广泛应用于人类疾病的研究,包括肥胖、高血压、内风湿性关节炎、心血管疾病、阿尔兹海默症等。人类的饮食习惯、服用的药物和遗传信息改变等都可能通过改变肠道菌群产生的小分子代谢物进一步影响人类的健康和疾病的发生。有文献报道微生物来源的代谢物可以作为疾病诊断和预防的生物标记物。但是宿主的微生物环境中的代谢物来源是非常复杂的,基于目前的研究资料,我们很难区分出代谢产物来自于宿主还是来自于微生物。常见的研究策略就是通过菌群和代谢物进行相关性分析,然后再进行后期的文献检索和生物实验进行验证。2022年3月21日由浙江大学医学院附属儿童医院国家儿童健康与疾病临床研究中心倪艳团队研究发表了一款可以供我们直接进行代谢物溯源的数据库——MetOrigin数据库。MetOrigin不仅能够快速识别微生物来源代谢物及其代谢功能,还有助于发现与其密切相关的关键微生物。这个数据库的产生填补了该领域生物信息学分析的空白,为广大科学研究者提供了诸多帮助。
网站网址::http://metorigin.met-bioinformatics.cn/
MetOrigin整合了7个代谢物数据库,包括京都基因和基因组百科全书(KEGG,https://www.kegg.jp/)、人类代谢物组数据库(HMDB,https://hmdb.ca/)、BIGG(http://bigg.ucsd.edu/)和ChEBI(https://ngdc.cncb.ac.cn/databasecommons/database/id/364)、食品数据库(FoodDB,https://foodb.ca/)、药物数据库(DrugBank,https://go.drugbank.com/)以及毒素和毒素靶标数据库(T3DB,http://www.t3db.ca/)。目前,从7个代谢物数据库中收集了共314915个“非冗余”代谢物。其中191031种代谢物包含了来源信息,包括宿主(哺乳动物)、微生物群(古生菌、真菌、细菌)、共代谢(宿主和微生物群共享)、食品(食品和植物)、药物和环境(毒素和污染物)。
如果想快速得到某一代谢物参与的反应和相关的微生物可以直接点击首页的Guest进入分析页面,选择Quick Search。输入关注的代谢物的C号,选择对应的代谢物ID类型(KEGGID/HMDBID/Metabolite),最后点击Search。
检索结果分为两部分,第一部分为代谢反应(Metabolic reactions),第二部分为相关的微生物(Related microbes),包括了关于这个通路或反应的所有各个分类层级的物种信息。
除此之外,MetOrigin还可以对微生物和代谢物组数据进行整合分析,它是一个可视化交互式的应用软件。基于研究目的,还提供了两种分析模式,其中第一种是简单MetOrigin分析(Simple MetOrigin Analysis,简称SMOA)。第二种模式是深度MetOrigin分析(Deep MetOrigin Analysis,简称DMOA)。两种分析模式均可以提供一些可视化的图形展示。
具体的操作指南见网址:
http://metorigin.met-bioinformatics.cn/app_direct/metorigin/Tutorial/MetOrigin_Tutorial_ENG.html
2. 人类肠道微生物菌群数据库——GMrepo[2]
GMrepo 是由华中科技大学陈卫华教授团队开发的一个专门针对人类肠道菌群数据快速检索分析的数据库。该数据库一共收录了253个项目,包括了58,903个样本 ,涵盖92种表型的肠道菌群数据集。用户可以直接查询和重新利用这些人类肠道微生物数据。同时还支持表型包括年龄、性别、国家、BMI和近期抗生素使用情况等的特定查询,用户可以通过 GMrepo 获得预先计算好的物种丰度、表型内和表型间的流行度以及菌株共现网络等信息。
网站网址:
https://gmrepo.humangut.info/home
如果您需要检索某一疾病的相关信息,可直接在首页的Phenotypes-All phenotypes的检索栏中检索疾病名称。
基于检索结果点击疾病名称可获得与该疾病相关的信息,包括疾病简介、与该疾病相关的项目/样本(run)的数量,以及最重要的相关的种水平物种信息和属水平物种信息。
如果想查看与某一物种相关数据,直接点击物种名称进入,就可以看到该物种在特定疾病中的详细信息:
除此之外,还可以看到该物种下疾病组与健康组的统计分析结果,点击Edit chart可直接进入 plotly对图片进行在线编辑下载。
如果您想下载这些数据自己进行分析绘图,可参照以下两种方法:
方法1:在数据库“Help”页面的“Download data from GMrepo”部分
(https://evolgeniusteam.github.io/gmrepodocumentation/usage/downloaddatafromgmrepo/)中提供了GMrepo所有数据的下载链接。
方法2 :数据库提供的API接口(可支持R、Perl、Python等编程语言,优先推荐R语言)可用于下载相关数据,API接口使用手册请见:https://github.com/evolgeniusteam/GMrepoProgrammableAccess/blob/master/programmable-access/R.md 。手册中“Get relative species/genus abundances for a project”板块内容详细解释了如何下载特定项目以及特定表型的物种丰度数据和相关信息。以R为例详细步骤:
1. 点击疾病名称获得该疾病的UniqueID,点击物种获得物种的taxid。
2. 进入R.md,根据Get relative species/genus abundances for a project所示的脚本进行数据下载。注意:不同的疾病和物种需要每次更换不同的mesh_id(疾病ID)和ncbi_taxon_id(物种ID)。
3. 下载的数据可以使用以下命令导出与该疾病相关特定物种的相对丰度
(relative_abundance列)。
write.table(data[["abundance_and_meta_data"]],"abundance.xlsx",sep="\t",quote=F,row.names = F)
4. 如果想获得该物种健康组的相对丰度,前面的操作换成健康的mesh_id(疾病ID)重复即可。
除此之外,该数据还支持根据特定条件查找数据库中所有符合条件的样本。
假如我们选择感染新冠病毒的BMI在18.5-24.9之间的通过质控的扩增子数据:
点击Search,如要下载原始数据可以点击download unique run ids of the search results 按钮,下载所有的 run id,再调用 fastq-dump 或 prefetch 即可下载:
cat <run_id_file.txt> | xargs -n 1 fastq-dump -p -f -O <target_directory>
或prefetch -O <target_directory> -f no --option-file <run_id_file.txt>。
GMrepo数据库的“Help”页面
(https://evolgeniusteam.github.io/gmrepodocumentation/)有关于该数据库详细的介绍,可根据自己的需求进行查看。
肠道微生物群的变化与人类健康息息相关,包括疾病和癌症,甚至心理健康。基于高通量测序技术的最新发展,如基于16S核糖体RNA基因扩增和以宏基因组学技术为中心的方法,实现了对肠道微生物组的统计分析和人类健康相关微生物的鉴定。gutMEGA(gut MEtaGenome Atlas)数据库由中山大学肿瘤防治中心的研究团队收集和建立,收录了迄今为止已发表的肠道微生物宏基因组数据。该数据库共收集了6457个分类单元的59132个定量事件,共有776个不同条件,涉及7个不同水平(界、门、纲、目、科、属、种)。
数据库网址:http://gutmega.omicsbio.info/
进入网站,假如您要检索患类风湿性关节炎(Rheumatoid arthritis)患者的宏基因组数据,可选择按照Condition进行检索,还可选择使用物种Taxon进行检索。
除选择所有层级all levels外,还可以指定分类层级。设置好后点击submit即可。
可以从检索结果看到,共检索到375个条目,我们除了可以通过Condition和Taxon level进一步筛选外,还可以通过设定Log2Ratio阈值进行筛选,设置好筛选阈值后点击Filter即可。
筛选完成后点击Download即可下载刚刚筛选的结果。
除此之外,网站还支持浏览(Browse),同时提供了Condition、Taxonomy和Sample三种浏览方式。
例如选择R-Rheumatoid arthritis / Normal就可以预览类风湿性关节炎患者与健康人之间比较结果。
例如选择stool粪便样本,即可浏览粪便样本中所有条件下的比对结果。
此外,该网站是提供了高级搜索功能,可以和excel一样叠加不同的搜索条件进行检索。
最后,这个数据库为用户提供了下载模块,可以从中下载物种注释数据库信息和收录的项目信息。
哈尔滨医科大学团队开发了一个名为gutMGene 的人工校正的数据库,是以从论文中收集肠道菌群、菌群代谢物和目标基因之间经过实验验证的关系构建的数据库资源。
该数据库记录了人类来源的332种肠道菌群、207种菌群相关代谢物、223个基因之间的1331种关联和小鼠来源的209种肠道菌群、149种菌群相关代谢物、554个基因之间的2349种关联。其中每个条目都包含了菌群-代谢物-基因相互关联的具体信息,此外还有实验技术和平台、参考文献等信息。
网站网址:http://bio-annotation.cn/gutmgene/home.dhtml
网址为用户提供可检索功能, 可在主页的Search页面对指定的物种、微生物、底物、代谢物和基因进行检索。
同时,网站也为用户提供了浏览功能,见首页-Browse,其网页右侧还提供了具体的查看方法以及检索结果下载的方法。检索结果中微生物、底物、代谢物、基因和PMID的标识符可以链接到NCBI分类数据库、PubChem、HMDB、ChEBI和Pubmed对这些实体进行详细的描述。点击每个条目的detail还能获得完整信息,点击network还能看到与此相关的代谢物、微生物和基因的网络图。
此外,Submit模块还支持用户提交有关数据库中为记录的重要关联的可溯源介绍。Resource页面可以下载有关小鼠和人的肠道微生物与代谢物或基因的所有数据和相关网络。
gutMDisorder数据库记录了从文献中收集的肠道微生物群与疾病或干预措施之间实验验证关联。包括人类579种肠道微生物,与123种疾病和77种干预措施之间的2263种关联;小鼠273种肠道微生物,与33种疾病和151种干预措施之间的930种关联。
数据库网址:http://bio-annotation.cn/gutMDisorder/
6. 菌群-活性物质互作数据库——MASI[6]
MASI数据库收录了肠道菌群与临床药物、营养膳食、环境物质及中草药和疾病等关联性信息,为基于肠道微生物的疾病发病机制及诊疗相关研究提供极大便利。该数据库整合了Pubmed文献中1,051种临床药物、103种营养膳食、119种中草药、46种益生菌和142种环境物质与806个微生物物种及56种疾病关联性信息,整理了4134条肠道微生物影响药物信息,7081条药物影响肠道微生物信息,309条膳食影响肠道微生物信息,784条肠道微生物与疾病关系,以及259个基于18种疾病及健康人群的肠道微生物景观图。
网站网址:http://www.aiddlab.com/MASI/about.html
7. 模式菌株基因组数据库——gcType[7]
gcType数据库收录了目前所有公共来源的模式微生物物种和基因组数据,还发布了大量自测模式微生物基因组数据,是目前国内外模式微生物基因组数据最为丰富的平台。是一个集数据搜索下载,新种鉴定,基因组拼接与注释等为于一体的在线分析工具,为全球各个保藏中心和广大分类学家提供一个分类学研究的利器。截止2022年4月,已收录了18791个已有效发表的物种,80564个模式物种,16292个模式物种的基因组以及3336个通过GCM测序平台测序的基因组。
网站网址:https://gctype.wdcm.org/
8. 将微生物群与疾病联系起来的数据库——Disbiome[8]
Disbiome 数据库是由比利时根特大学开发和管理的涵盖人类不同疾病中微生物组成变化的数据库。该数据库以标准化的方式收集和呈现已发表的微生物群 - 疾病信息。利用 MedDRA 分类系统对疾病进行分类,并将微生物与其NCBI 和 SILVA 分类系统关联起来。该数据库目前收录了 372种疾病、1622 个物种、10792 个实验以及 1155篇文献。
网站网址:https://disbiome.ugent.be
VMH(Virtual Metabolic Human)数据库收集了人类和肠道微生物代谢的信息,并将这些信息与数百种疾病和营养数据联系起来。数据库可以查找不同菌群的代谢产物和途径,同时可以查询与疾病有关的代谢途径,有助于生物医学相关人员饮食设计、组学数据解析和提出科学假设。该数据库整合了人类代谢、肠道菌群、疾病、营养、ReconMaps、LeighMap 六类资源,目前更新时间为 2019 年 5 月,收录 5607 个代谢物,19,313 个化学反应,3695 个人类基因,255 个遗传病,818 个微生物,632,685 个微生物基因和 8790 种食物。该数据库可实现数据查询、探索、通路图可视化和饮食方案设计 4 大功能,关键词还可链接至 KEGG、PDMAP、ChEBI 等外部 57 个数据库查看更多信息。
网站网址:https://www.vmh.life
Peryton数据库从314篇Pubmed收录的肠道微生物与疾病间相关性的高质量文献中整理了与神经退行性疾病、胃肠道疾病、心血管疾病和肿瘤等43种疾病类型,1396种肠道微生物共计7900余条相关性的信息。该数据库提供的疾病与肠道微生物间相关性信息精准检索及其可视化功能,为致力于肠道微生物的疾病发病机制及诊疗相关研究提供极大便利。
网站网址:https://dianalab.e-ce.uth.gr/peryton/
快速检索汇总:
数据库 | 网址 | 简介 |
MetOrigin | http://metorigin.met-bioinformatics.cn/ | 代谢物溯源数据库 |
GMrepo | https://gmrepo.humangut.info/home | 人类肠道微生物菌群数据库 |
gutMEGA | http://gutmega.omicsbio.info/ | 肠道微生物宏基因组数据库 |
gutMGene | http://bio-annotation.cn/gutmgene/home.dhtml | 肠道菌群和其代谢物相关靶基因数据库 |
gutMDisorder | http://bio-annotation.cn/gutMDisorder/ | 疾病/干预措施对于肠道菌群失调数据库 |
MASI | http://www.aiddlab.com/MASI/about.html | 菌群-活性物质互作数据库 |
gcType | https://gctype.wdcm.org/ | 模式菌株基因组数据库 |
Disbiome | https://disbiome.ugent.be | 将微生物群与疾病联系起来的数据库 |
VMH | https://www.vmh.life | 人类虚拟代谢数据库 |
Peryton | https://dianalab.e-ce.uth.gr/peryton/ | 有实验支持的肠道微生物与疾病相关性信息数据库 |
[1] Yu, Gang, Xu, Cuifang, Zhang, Danni, et al. 2022. “ MetOrigin: Discriminating the Origins of Microbial Metabolites for Integrative Analysis of the Gut Microbiome and Metabolome.” iMeta. 1, e10.
[2] Sicheng Wu, Chuqing Sun, Yanze Li, et al. GMrepo: a database of curated and consistently annotated human gut metagenomes, Nucleic Acids Research, Volume 48, Issue D1, 08 January 2020, Pages D545–D553.
[3] Zhang Q, Yu K, Li S,et al. gutMEGA: a database of the human gut MEtaGenome Atlas. Brief Bioinform. 2021 May 20;22(3):bbaa082.
[4] Cheng L, Qi C, Yang H, et al. gutMGene: a comprehensive database for target genes of gut microbes and microbial metabolites. Nucleic Acids Res. 2022 Jan 7;50(D1):D795-D800.
[5] Cheng L, Qi C, Zhuang H, et al. gutMDisorder: a comprehensive database for dysbiosis of the gut microbiota in disorders and interventions. Nucleic Acids Res. 2020 Jan 8;48(D1):D554-D560.
[6] Cheng L, Qi C, Zhuang H, Fu T, Zhang X. gutMDisorder: a comprehensive database for dysbiosis of the gut microbiota in disorders and interventions. Nucleic Acids Res. 2020 Jan 8;48(D1):D554-D560.
[7] Shi W, Sun Q, Fan G, et al. gcType: a high-quality type strain genome database for microbial phylogenetic and functional research. Nucleic Acids Res. 2021 Jan 8;49(D1):D694-D705.
[8] Janssens Y, Nielandt J, Bronselaer A, et al.Disbiome database: linking the microbiome to disease. BMC Microbiol. 2018 Jun 4;18(1):50.
[9] Noronha A, Modamio J, Jarosz Y, et al. The Virtual Metabolic Human database: integrating human and gut microbiome metabolism with nutrition and disease. Nucleic Acids Res. 2019 Jan 8;47(D1):D614-D624.
[10] Skoufos G, Kardaras F S, Alexiou A, et al. Peryton: a manual collection of experimentally supported microbe-disease associations[J]. Nucleic acids research, 2021, 49(D1): D1328-D1333.
相关阅读一步一图详解最新的SRA数据上传方法(内含常见报错解决方法) | 微生物专题
除了SRA,数据上传国内的GSA也是极好的(详尽版操作指南)
Environmental Pollution:微污染物会对地下水微生物群产生怎样的影响|微生物专题
揭开镉污染稻田中不同水稻品种的内生细菌群落结构 | 微生物专题
所见即所得,绘图高规格联川云平台,让科研更自由