学术动态 | 上海交大欧竑宇研究组发展耐药病原菌分析的多款生物信息学软件和数据库
近期,上海交通大学生命科学技术学院微生物代谢国家重点实验室邓子新团队欧竑宇研究组发展了耐药病原菌基因组分析的三款生物信息学软件和专业数据库,辅助实验人员开展对革兰阴性菌分泌蛋白、整合性接合元件和毒素-抗毒素系统的功能研究。
1. 基于深度学习的革兰阴性病原菌分泌蛋白预测软件DeepSecE
细菌利用复杂的跨膜装置将胞内合成的蛋白精准转运到胞外或靶细胞中。在革兰阴性病原菌中已报道的蛋白分泌系统包括I/II/III/IV/VI型;不同类型的分泌系统具有不同的蛋白底物分泌机制,招募并转运具有特定序列或结构特征的分泌蛋白。这些分泌的蛋白被转运到靶细胞后,影响靶细胞的正常功能,在细菌拮抗、病原菌致病以及病原菌-宿主相互作用中发挥重要作用。现有的分泌蛋白预测软件主要适用于单一类型的分泌系统,不支持同时预测一个细菌基因组编码的多种不同类型的分泌系统,其基因组规模的预测精度和运行效率也有待提高。本研究将预训练语言模型的人工智能方法应用于革兰阴性细菌五种重要分泌蛋白的多分类任务,研发了细菌I/II/III/IV/VI型分泌蛋白的预测算法DeepSecE,辅助实验人员发现革兰阴性病原菌中的新型分泌蛋白。首先,DeepSecE整合了蛋白质预训练语言模型ESM-1b和Transformer层,有效学习了细菌分泌蛋白的生物学特征,对五种类别的分泌系统在五折交叉验证和独立测试上取得了可靠的预测结果。其次,相比现有的一系列二分类预测方法,采用多分类模型的DeepSecE在降低假阳性和计算速度上表现出明显的优势。最后,DeepSecE提供了细菌I/II/III/IV/VI型分泌系统基因簇和分泌蛋白的在线预测和分析平台,帮助实验研究者在革兰阴性病原菌中预测和筛选出与已知蛋白低序列相似性的潜在新型分泌蛋白。研究论文“DeepSecE: a Deep Learning-based Framework for Multi-class Prediction of Secreted Proteins in Gram-negative Bacteria”发表在中国科协主办的综合性英文期刊《Research》(IF:11.036)上。生命科学技术学院硕士生张昱朦为该论文的第一作者,生命科学技术学院欧竑宇教授和澳大利亚蒙纳士大学生物医学发现研究所宋江宁副教授为该论文的共同通讯作者。
图1. 基于深度学习的DeepSecE模型能够捕捉革兰阴性细菌I/II/III/IV/VI型分泌蛋白的生物学特征进而做出准确的预测。(A) DeepSecE利用预训练的蛋白质语言模型ESM-1b和分泌蛋白特异的Transformer层来学习分泌效应蛋白的特征表示。(B) 训练数据中的分泌蛋白(正样本)和非分泌蛋白(负样本)在UMAP空间的投影。(C, E) 交叉验证和独立测试的ROC曲线。(D, F) 交叉验证和独立测试的分类混淆矩阵,矩阵中对角线上数字代表每个类别的预测敏感度。
2. 细菌整合性接合元件数据库ICEberg3和识别软件ICEfinder2
整合性接合元件(Integrative and Conjugative Element, ICE)是耐药病原菌中一类常见的可移动遗传元件。ICE具有位点特异整合、切出环化和接合转移等典型的自主转移特性,常携带耐药基因和毒力基因等多种功能的货物基因(cargo genes),对细菌的遗传多样性和基因组进化具有重要作用。本研究对整合性接合元件数据库ICEberg进行了三个方面的重要更新。(1) ICEberg3系统地收录了三千多个ICEs的数据。通过文本实体识别和语义提取,广泛地收集了散布于文献和公共数据库的异质数据,定义和编审了ICE长度、G+C含量、插入位点、家族分类、宿主菌、受体菌、货物基因和实验文献等基本数据项,并对ICE的模块化信息进行了直观的可视化。(2) ICEberg3提出了一个新的ICE功能分类框架。根据其携带的货物基因将ICE的功能分为六大类别,包括耐药、毒力、重金属抗性、防御系统、化合物降解和共生固氮等,便于对特定功能的ICE进行针对性的检索和比较。(3) 升级后的ICE识别工具ICEfinder2可分析宏基因组长序列中ICE。基于人类微生物组计划HMP的2405个人体微生物组样本数据,ICEfinder2识别到宏基因组序列中的1386个ICEs,包括来源于口腔的844个,胃肠道的499个,泌尿生殖道的26个,鼻腔的11个和皮肤的6个,有助于探讨ICE介导的耐药基因和细菌防御系统在微生物群落中的水平转移。研究论文“ICEberg 3.0: functional categorization and analysis of the integrative and conjugative elements in bacteria”发表在分子生物学知名刊物《Nucleic Acids Research》(IF:14.9)上。生命科学技术学院博士生王萌和刘贵天为该论文的并列第一作者,欧竑宇教授为通讯作者。
图2.整合性接合元件数据库ICEberg3收录了从人类微生物组计划宏基因组序列中预测到的1386个ICEs。本图展示不同人体部位、ICE宿主菌、ICE携带的耐药基因和防御系统之间的关系,图中数值表示ICEfinder2从相应人体部位的宏基因组序列中识别到的ICE数量。
3. 细菌毒素-抗毒素系统数据库TADB3和识别工具TAfinder2
细菌毒素-抗毒素系统(Toxin-antitoxin system, TA)由稳定的毒素蛋白(或RNA)和不稳定的抗毒素蛋白(或RNA)组成,通常是由一个操纵子中两个结构基因编码的。毒素对细菌生长具有抑制作用,而抗毒素能中和毒素的毒性;根据抗毒素中和毒素的机制,目前已知的TA系统可分为八大类型(I-VIII型)。本研究对细菌毒素-抗毒素系统数据库TADB进行了三方面的重要更新。(1) TADB3系统地收录了TA实验数据。通过文本挖掘和语义提取,整理了500多对经实验验证的TA系统,定义和审编了基因座位、操纵子结构、家族归类、毒素作用靶位点、蛋白质结构、宿主菌和文献等基本数据项。(2) 升级后TAfinder2软件可预测I-VIII型的TA系统。在NCBI GenBank收录的34000多个完全测序的原核生物基因组中,TAfinder2以严格的参数预测到超过20万对高置信度的TA系统,为实验人员提供了高质量的TA数据集。(3) ICE与可移动遗传元件的关联分析。TADB3梳理了69019对TA系统与60898个可移动遗传元件之间存在的位置关联,并采用交互式网络图进行可视化展示,为实验研究TA系统和移动元件的功能关联提供参考。研究论文“TADB 3.0: an updated database of bacterial toxin-antitoxin loci and associated mobile genetic elements”发表在分子生物学知名刊物《Nucleic Acids Research》(IF:14.9)上。生命科学技术学院博士生关家浩为该论文的第一作者,欧竑宇教授为通讯作者。
图3.细菌毒素-抗毒素系统数据库TADB 3收录的TA系统与可移动遗传元件MGE之间的关联分析。左图展示各种类型TA系统与MGE存在位置关联的比例;右图列出了各类型TA系统与MGE关联的数量、与MGE相关的TA系统的数量以及TA系统的总数。如果一个TA系统与多个MGE相关,或者一个MGE与多个TA系统相关,则二者之间的关联会统计多次。
这三项工作为耐药病原菌研究提供了新的基因组分析工具和参考数据集。欧竑宇研究组长期从事病原菌耐药移动元件的实验研究和计算分析,在以上“干”实验的支持下,该研究组近期在“湿”实验方面也取得两项新的进展:(1) 发现了肺炎克雷伯菌乙酰基转移酶类毒素-抗毒素系统KacAT在碳青霉烯类抗菌药物压力下的转录机制:在美罗培南胁迫下,蛋白酶Lon的转录增强进而降解抗毒素KacA,导致胞内抗毒素KacA和毒素KacT的浓度比降低,促使KacAT复合物从kacAT启动子区域解离,进而解除KacAT复合物对kacAT操纵子转录的阻遏作用(Li, et al., Journal of Antimicrobial Chemotherapy, 2023, 78:1066-1075)。(2) 与中国科学院上海免疫与感染研究所晁彦杰课题组合作发现了肺炎克雷伯菌对碳青霉烯耐药质粒的调控机制:IncFII质粒携带的碳青霉烯酶基因blaKPC和IV分泌系统tra操纵子的转录受到染色体编码的CpxR因子的正向调控(Liu, et al., Emerging Microbes & Infections, 2023, 12:2256427)。
这些“干-湿”实验的研究工作得到了国家自然科学基金(32070572)、国家重点研发项目(2018YFE0102400)和上海市科学技术委员会科技创新计划(19JC1413000)的资助。
论文链接:
https://spj.science.org/doi/10.34133/research.0258
https://doi.org/10.1093/nar/gkad935
https://doi.org/10.1093/nar/gkad962(点击“阅读原文”获取原文)
来源 | 欧竑宇研究组
责编 | 冯硕