MicroPhenoDB量化关联宏基因组与病原微生物、核心基因和人类疾病表型
The following article is from GPBees Author 李伟忠
近日,GPB在线发表了中山大学李伟忠教授团队题为“MicroPhenoDB Associates Metagenomic Data with Pathogenic Microbes, Microbial Core Genes, and Human Disease Phenotypes”的数据库文章,我们的“要文译荐”栏目很高兴邀请到李教授亲自为大家系统介绍微生物与人类疾病表型关联数据库的研究、构建和应用情况。
要点介绍
研究问题:
宏基因组数据与病原微生物、微生物核心基因和疾病表型关联与量化,以及构建关联关系的数据库平台。
研究方法:
研究人员通过人工审编和计算方法系统整理集成病原微生物、微生物核心基因和人类疾病表型的关联数据,以及毒力因子基因和抗生素耐药性基因的相关信息;通过赋予不同研究证据的不同权重优化评分模型,以量化微生物与人类疾病的相关性。
主要成果1:
对微生物-疾病表型关联性的数据集进行整合和标准化注释,获得人类疾病表型与微生物关联性的高质量数据集。
主要成果2:
通过改进评分模型对微生物-疾病关联进行定量描述,以科学的量化分值评估微生物与疾病表型关联性强弱。
主要成果3:
数据库平台提供用户友好界面和应用程序接口(application programming interface,API)网络应用,以完成在线数据浏览、搜索和可视化分析服务,其序列检索能够快速识别宏基因组样品中存在的病原微生物,避免了宏基因组数据常规处理的繁杂步骤。
主要成果4:
利用MicroPhenoDB提供的数据和分析工具,作者完成了多个微生物与疾病表型相关的数据分析案例。
数据库链接:
http://www.liwzlab.cn/microphenodb和http://lilab2.sysu.edu.cn/microphenodb
背景和研究对象
微生物在人类健康和疾病发生发展过程中扮演着重要的角色。很大程度上,微生物和宿主之间的相互关系并未得到深入的探索和充分的研究。伴随着高通量测序技术的发展和生物信息学工具的迭代,科学家开始逐渐理解疾病表型与微生物之间的关系,有必要建立精确可信的数据库平台,以有效利用实验和组学数据定性和定量微生物与疾病的具体关系,为科学研究和临床转化提供标准化和高质量的注释数据。为此,作者团队通过人工审编和计算生物学的方法对病原微生物的关联数据进行系统而高质量的整合和标准化注释,并整合开发序列检索工具和数据分析技术,建成了微生物-疾病表型关联数据库平台MicroPhenoDB(图1)。
图 1 MicroPhenoDB 数据库平台的数据编审、整合和注释框架
数据库简介
MicroPhenoDB数据库通过人工编审和标准化整理获得高质量的微生物-疾病表型关联数据,同时提供功能丰富的网络可视化分析服务。当前MicroPhenoDB提供5677个非冗余的微生物-疾病表型的关联数据,涉及人体22个身体部位、1781种微生物和542种疾病表型,提供了27,277个微生物核心基因与685种微生物之间的696,934条关联数据(表1),注释了细菌和病毒的4204个毒力因子基因和2522个耐药性基因。MicroPhenoDB中的关联数据、微生物、疾病表型和支持证据的数量分别是HMDAD的11.1、6.1、13.9和18.9倍。在微生物分布方面,MicroPhenoDB 含有 1497 种细菌、183 种病毒、58 种真菌和 43 种寄生虫(图2A、B);而与微生物失调相关的常见疾病,主要包括细菌感染疾病、消化系统疾病、神经系统疾病和自身免疫性疾病(图2D)。
表1 MicroPhenoDB 数据库中的数据类型和规模
图2 MicroPhenoDB 数据库中的数据内容和分布
A.从不同资源收集的关联数据的比例。B.数据库中不同微生物类型的分布统计。C.数据库中致病微生物所属的主要类别统计。D.数据库中主要疾病表型分布统计。
MicroPhenoDB核心应用案例
序列检索功能提供微生物组测序分析
微生物核心基因作为枢纽连接了宏基因组测序数据与微生物及其相关疾病。作者整理并建立了微生物核心基因、毒力因子基因和耐药基因的序列数据集,并在MicroPhenoDB中开发出序列检索应用(图3)。该应用可直接鉴别宏基因组样本中宿主病原微生物的组成,并揭示其可能导致的疾病表型,无需运行常规的宏基因组测序数据处理和组装等繁琐而耗时耗资源的步骤。此外,数据库可根据微生物毒力因子基因和耐药性基因的序列数据集进行检索,识别与毒力因子和抗生素耐药性相关的同源基因和蛋白质(图3)。作者通过试验公有的宏基因组数据集,验证了该序列检索应用在宏基因组数据中快速有效鉴别致病微生物的可行性和可靠性。
图3 MicroPhenoDB 数据库序列检索应用连接微生物、核心基因和疾病表型
区分不同呼吸道感染的临床表型
呼吸道感染疾病的临床表型相似,例如多种流感病毒和冠状病毒感染引发的临床表型(图4)。为了识别不同病毒感染导致的呼吸道常见和独特的临床症状,作者搜索MicroPhenoDB获取了63种疾病临床表型和14种呼吸道感染病毒的关联数据。分析结果表明大多数呼吸道病毒感染的临床症状相同,共同表现为干咳、头痛、发热、肌痛、呕吐、腹泻等(图4,绿色下划线标注),值得注意的是,胃肠道症状、疲劳、呼吸困难、厌食和感染性休克(图4,蓝色下划线标注)等症状是新冠病毒感染区别于其它病毒性呼吸道感染的独特症状。
图4 呼吸系统病毒感染与临床表型关联网络
基于身体部位差异的微生物关联分析
微生物疾病关联数据可以用于探索微生物变化和多个身体部位疾病之间的关联网络。例如,通过MicroPhenDB获得尿道和生殖器等身体部位的关联数据并用于网络分析。构建的关联网络图谱(图5)显示,乳酸杆菌的丰度减少与阴道炎症和细菌性阴道病有关,衣原体的丰度增加可能导致生殖器的淋巴结瘤,而支原体在生殖器官丰度的不断增加与盆腔炎、非球菌尿道炎等疾病相关。这些信息表明,微生物物种及其丰度的异常与不同身体部位的疾病相关联。
图5 生殖器部位的致病微生物与临床表型关联图谱
总结与展望
在这项研究中,作者通过人工审编和系统整合以及标准化注释的方法获得微生物-疾病关联数据,所建立的MicroPhenoDB是第一个详细描述病原微生物、核心基因和人类疾病表型之间关系的数据库平台,其数据覆盖范围和评分模型的表现均优于其它类似数据资源。此外,MicroPhenoDB实现了宏基因组序列检索的网络应用和API服务,以便在宏基因组测序数据中快速识别致病性微生物及其引发的潜在疾病表型。MicroPhenoDB将病原微生物及其核心基因和疾病表型连接在一起,其定性定量的数据分析有助于解码与人类疾病相关的微生物。
文章编译来:Guocai Yao, Wenliang Zhang, Minglei Yang, Huan Yang, Jianbo Wang, Haiyue Zhang, et al. MicroPhenoDB Associates Metagenomic Data with Pathogenic Microbes, Microbial Core Genes, and HumanDisease Phenotypes. Genomics, Proteomics & Bioinformatics 2020;https://doi.org/10.1016/j.gpb.2020.11.001. 英文全文详见: http://www.sciencedirect.com/science/article/pii/S1672022920301698
李伟忠教授团队(http://www.liwzlab.cn/)的精准医学生物信息实验室面向精准医学的需要,利用生物信息、大数据、深度学习等技术手段,主要研究生物医学大数据的分析、生物信息工具与软件平台的开发、疾病表型知识库群的构建,以及组学大数据的快速精确检索与深度智能挖掘等。姚国财和张文亮博士为该文的共同第一作者,李伟忠教授为该文独立通讯作者。该研究得到了国家科技部重点研发计划和国自然面上项目的支持。
相关阅读
Genomics, Proteomics & Bioinformatics(基因组蛋白质组与生物信息学报,简称GPB)于2003年创刊,是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,由Elsevier金色开放获取(Gold Open Access)出版。刊载来自世界范围内组学、生物信息学及相关领域的优质稿件。现为中国科学引文数据库(CSCD)和中国科技论文与引文数据库(CSTPCD)核心期刊,被SCIE、PubMed / MEDLINE、Scopus等数据库收录。2018、2019、2020连续位于中科院文献情报中心期刊分区表大类“生物1区Top"。2019年,CiteScore为10.9,位于“计算数学”、“遗传学”、“生物化学”、“分子生物学”四个学科领域Q1区;Impact Factor为7.051,位于“遗传学与遗传性”学科领域前10%。期刊由科技部等七部门联合实施的“中国科技期刊卓越行动计划”资助(2019–2023)。