NAR | 吴昊团队开发用于多物种的启动子预测模型
撰文︱吴昊,张鹏宇责编︱方以一,王思珍编辑︱杨彬薇
启动子负责调控转录的起始过程,并对不同物种的基因表达起重要作用。在原核生物中,启动子参与许多生物过程,例如大多数基因的转录、热休克反应、固氮、鞭毛的表达等。在真核生物中,启动子区域或下游启动子元件控制着转录开始的确切位置。此外,启动子通过三维染色质结构与它们的远端调控元件合作,从而影响生长发育、肿瘤发生和时空基因表达等。因此,启动子的精确鉴定对于研究基因表达和疾病发生及治疗具有重要意义。
尽管目前已有一些预测启动子的计算方法被提出,但由于启动子结构及其结合复杂性在不同物种中有所不同,因此当前大多数启动子预测方法无法在多个物种上同时保持优秀的性能。因此,开发一款可以应用于多个物种的启动子检测计算模型意义重大。此外,先前尚未有工作探索影响启动子形成的重要基序,这为进一步研究启动子带来了诸多不便。因此,解释模型预测以确定启动子区域中重要的转录因子结合位点(transcription factor binding site,TFBS)基序为探索基因表达和疾病治疗提供了可能。
2022年9月26日,山东大学软件学院吴昊副教授课题组在Nucleic Acids Research上发表题为“iPro-WAEL: a comprehensive and robust framework for identifying promoters in multiple species”的研究。该研究提出了一种新的预测模型,在无需重调参数的前提下即可准确预测多个物种的启动子。同时,该研究探索了影响启动子形成的TFBS基序,为生物学家未来探索不同生物的基因表达,挖掘基因和疾病间的关系以及促进疾病发生机理研究及疾病诊断和治疗提供新的研究方向。
图1 iPro-WAEL的流程图
(图源:Zhang P, et al., Nucleic Acids Res, 2022)
随后,作者通过结合多种序列特征和自然语言处理技术,分别构建了随机森林模型和卷积神经网络。然后使用顺序最小二乘规划算法,通过最小化两个模型在权重集(用以模型自动学习权重的数据集)上的交叉熵损失,自动地给两个模型分配相应的权重以获得最终的预测结果。七个物种的十三个数据集的对比结果(图2)显示,作者提出的iPro-WAEL具有更优秀的性能和鲁棒性。此外,作者同样展示了模型在人类数据集跨细胞系预测方面的优秀性能,表明不同细胞系中启动子之间序列结构存在潜在的相似性。同时,鉴于先前研究表明增强子和启动子的序列结构相似[1,2],作者也评估了该模型区分增强子和启动子的能力。结果同样证明了iPro- WAEL的优异性能和鲁棒性。
图2 不同模型的性能对比
(图源:Zhang P, et al., Nucleic Acids Res, 2022)
图3 启动子区域中最重要的基序
(图源:Zhang P, et al., Nucleic Acids Res, 2022)
然而,不可否认的是原核生物和真核生物的启动子结构差异更大,因此它们之间交叉验证的性能难以令人满意。尽管该研究尚未解决原核和真核生物启动子之间的相互预测问题,但该研究利用集成学习中设置权重的思想为后续进一步解决该问题提供了思想借鉴。
原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac824/6717829
通讯作者:吴昊副教授
(照片提供自:山东大学软件学院吴昊团队)
往期文章精选
【1】Nat Immunol︱何维/张建民/吕威团队合作发现慢性鼻窦炎新机制和治疗新靶点
【2】Adv Sci︱张坤/刘军杰团队开发一种粒子内双散射声遗传学增敏剂用于增强ICB和CAR-T疗法实体瘤治疗
【3】Commun Med︱侯志远团队评估全球新冠疫苗接受度和接种率:系统综述和Meta分析
【4】专家点评 Redox Biol︱Nrf1是维护细胞线粒体稳态而不可或缺的一个氧化还原决定因子
【5】Sci Adv︱西湖大学李旭团队揭示Notch通路信号整合传递及转录复合物活性调节的分子机制
【6】APSB︱清华大学王建伟团队揭示衰老相关克隆性造血分子的机制——DNMT3A突变
【7】Pharmacol Res | 黄晓颖/赵承光团队研究发现GPR37有望成为肺腺癌治疗的新靶点
【8】APS︱杨德华/王明伟团队高通量筛选发现新型PFKFB3小分子抑制剂
【9】Adv Sci︱柴人杰团队在耳蜗类器官功能性毛细胞再生方面取得重要进展
【10】NAR︱徐娟团队识别非编码区域的HLA呈递的免疫表位图谱
优质科研培训课程推荐【1】膜片钳与光遗传及钙成像技术研讨会(2022年10月15-16日 腾讯会议)【2】临床预测模型构建与论文撰写:从入门到精通实战训练营(2022年10月4-7日,腾讯会议)【3】R语言临床预测生物医学统计专题培训(10月15-16日,北京·中科院遗传与发育生物学研究所)【4】单细胞测序与空间转录组学数据分析研讨会(10月29-30日 腾讯在线会议)欢迎加入“岚翰生命科学” ”岚翰生命科学“ 诚聘副主编/编辑/运营岗位 (在线办公)参考文献(上下滑动阅读)
[1] Andersson, R. and Sandelin, A. (2020) Determinants of enhancer and promoter activities of regulatory elements. Nat. Rev. Genet., 21, 71–87.
[2] Core, L.J., Martins, A.L., Danko, C.G., Waters, C.T., Siepel, A. and Lis, J.T. (2014) Analysis of nascent RNA identifies a unified architecture of initiation regions at mammalian promoters and enhancers. Nat. Genet., 46, 1311–1320.
[3] Kulakovskiy, I.V., Vorontsov, I.E., Yevshin, I.S., Sharipov, R.N., Fedorova, A.D., Rumynskiy, E.I., Medvedeva, Y.A., Magana-Mora, A., Bajic, V.B., Papatsenko, D.A., et al. (2018) HOCOMOCO: Towards a complete collection of transcription factor binding models for human and mouse via large-scale ChIP-Seq analysis. Nucleic Acids Res., 46, D252–D259.
[4] Bonev, B. and Cavalli, G. (2016) Organization and function of the 3D genome. Nat. Rev. Genet., 17, 661–678.
[5] Weintraub, A.S., Li, C.H., Zamudio, A. V., Sigova, A.A., Hannett, N.M., Day, D.S., Abraham, B.J., Cohen, M.A., Nabet, B., Buckley, D.L., et al. (2017) YY1 Is a Structural Regulator of Enhancer-Promoter Loops. Cell, 171, 1573-1588.e28.
[6] Bailey, S.D., Zhang, X., Desai, K., Aid, M., Corradin, O., Cowper-Sallari, R., Akhtar-Zaidi, B., Scacheri, P.C., Haibe-Kains, B. and Lupien, M. (2015) ZNF143 provides sequence specificity to secure chromatin interactions at gene promoters. Nat. Commun., 2.
[7] Nolis, I.K., McKay, D.J., Mantouvalou, E., Lomvardas, S., Merika, M. and Thanos, D. (2009) Transcription factors mediate long-range enhancer-promoter interactions. Proc. Natl. Acad. Sci. U. S. A., 106, 20222–20227.
本文完