查看原文
其他

NAR | 吴昊团队开发用于多物种的启动子预测模型

吴昊,张鹏宇 岚翰生命科学 2023-03-10

撰文︱吴昊张鹏宇责编︱方以一,王思珍编辑︱杨彬薇

启动子负责调控转录的起始过程,并对不同物种的基因表达起重要作用。在原核生物中,启动子参与许多生物过程,例如大多数基因的转录、热休克反应、固氮、鞭毛的表达等。在真核生物中,启动子区域或下游启动子元件控制着转录开始的确切位置。此外,启动子通过三维染色质结构与它们的远端调控元件合作,从而影响生长发育、肿瘤发生和时空基因表达等。因此,启动子的精确鉴定对于研究基因表达和疾病发生及治疗具有重要意义。


尽管目前已有一些预测启动子的计算方法被提出,但由于启动子结构及其结合复杂性在不同物种中有所不同,因此当前大多数启动子预测方法无法在多个物种上同时保持优秀的性能。因此,开发一款可以应用于多个物种的启动子检测计算模型意义重大。此外,先前尚未有工作探索影响启动子形成的重要基序,这为进一步研究启动子带来了诸多不便。因此,解释模型预测以确定启动子区域中重要的转录因子结合位点(transcription factor binding site,TFBS)基序为探索基因表达和疾病治疗提供了可能。


2022年9月26日,山东大学软件学院吴昊副教授课题组在Nucleic Acids Research上发表题为“iPro-WAEL: a comprehensive and robust framework for identifying promoters in multiple species”的研究。该研究提出了一种新的预测模型,在无需重调参数的前提下即可准确预测多个物种的启动子。同时,该研究探索了影响启动子形成的TFBS基序,为生物学家未来探索不同生物的基因表达,挖掘基因和疾病间的关系以及促进疾病发生机理研究及疾病诊断和治疗提供新的研究方向。



作者首先以更严谨的标准提出一种新的数据集生成和处理方法。不同于先前研究中从非启动子区域的随机基因组坐标获取负例样本,作者通过滑动窗口,从正例样本上下游的非启动子区域中选择与该样本相似度最高的序列作为负例样本。这是为了使负例样本和正例样本更难区分,从而使训练模型具有更强的鲁棒性(图1)。该方法有望在未来广泛应用于序列数据的生成和处理上。

图1 iPro-WAEL的流程图

(图源:Zhang Pet al., Nucleic Acids Res, 2022)


随后,作者通过结合多种序列特征和自然语言处理技术,分别构建了随机森林模型和卷积神经网络。然后使用顺序最小二乘规划算法,通过最小化两个模型在权重集(用以模型自动学习权重的数据集)上的交叉熵损失,自动地给两个模型分配相应的权重以获得最终的预测结果。七个物种的十三个数据集的对比结果(图2)显示,作者提出的iPro-WAEL具有更优秀的性能和鲁棒性。此外,作者同样展示了模型在人类数据集跨细胞系预测方面的优秀性能,表明不同细胞系中启动子之间序列结构存在潜在的相似性。同时,鉴于先前研究表明增强子和启动子的序列结构相似[1,2],作者也评估了该模型区分增强子和启动子的能力。结果同样证明了iPro- WAEL的优异性能和鲁棒性。


图2 不同模型的性能对比

(图源:Zhang Pet al., Nucleic Acids Res, 2022)


最后,作者解释了预测模型的特征重要性。通过结合三种特征重要性分数,赋予每个子序列片段相应的重要性分数。随后,使用HOCOMOCO[3]人类数据集提供的数百个基序位置权重矩阵(PWM),计算出与每个子序列片段匹配分数最高(即P-value最小)的基序,并将相应子序列片段的重要性分数赋予该基序。最后,对所有的基序按照其重要性分数进行排序,探索了对于启动子最重要的TFBS基序(图3)。其中一些重要的基序印证了早前的一些发现,例如CTCF[4], YY1[5], ZNF143 [6], SP1[7]等。但同样有一些重要而尚未得到深入研究的基序对启动子预测起着重要的影响,这些基序的发现可能为探索生物的基因表达,挖掘基因和疾病间的关系以及促进疾病发生机理研究及疾病诊断和治疗提供新的研究思路。


图3 启动子区域中最重要的基序

(图源:Zhang P, et al., Nucleic Acids Res, 2022)


文章结论与讨论,启发与展望综上所述,该研究基于加权平均算法以及传统序列特征和自然语言处理技术,提出了一种鲁棒的启动子预测框架,可以有效避免利用注释方法识别启动子费时且代价昂贵的问题。此外,该研究结果证明了使用一个细胞系训练的模型在预测其他细胞系中的启动子时,模型仍具有令人满意的性能,这表明来自不同细胞系的启动子可能在基序水平上是相似的,并且在某些方面相关。最后,该研究设计了一种估计启动子区域中潜在的重要 转录因子结合位点基序检测方法。通过探索这些基序进一步研究分析启动子是一个有趣的研究方向,这可能为未来探索不同生物的基因表达,挖掘基因和疾病间的关系以及促进疾病发生机理研究及疾病诊断和治疗提供新的借鉴和参考。此外,通过分析基序的重要性探索不同细胞系和不同物种的启动子之间的差异和关联也是一个有趣的研究方向,将为分析细胞特异性和物种特异性提供一种新的思路。
然而,不可否认的是原核生物和真核生物的启动子结构差异更大,因此它们之间交叉验证的性能难以令人满意。尽管该研究尚未解决原核和真核生物启动子之间的相互预测问题,但该研究利用集成学习中设置权重的思想为后续进一步解决该问题提供了思想借鉴。
原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac824/6717829

通讯作者:吴昊副教授

(照片提供自:山东大学软件学院吴昊团队)


作者简介吴昊山东大学软件学院副教授,中国计算机学会高级会员和CCF专委委员,山东生物信息学学会理事。长期致力于复杂疾病通路、三维基因组结构及相关调控元件预测和单细胞多组学数据集成及下游分析等相关研究,Nucleic Acids Research、Briefings in BioinformaticsBioinformatics等国内外顶级学术期刊发表研究论文30余篇。


往期文章精选

【1】Nat Immunol︱何维/张建民/吕威团队合作发现慢性鼻窦炎新机制和治疗新靶点

【2】Adv Sci︱张坤/刘军杰团队开发一种粒子内双散射声遗传学增敏剂用于增强ICB和CAR-T疗法实体瘤治疗

【3】Commun Med︱侯志远团队评估全球新冠疫苗接受度和接种率:系统综述和Meta分析

【4】专家点评 Redox Biol︱Nrf1是维护细胞线粒体稳态而不可或缺的一个氧化还原决定因子

【5】Sci Adv︱西湖大学李旭团队揭示Notch通路信号整合传递及转录复合物活性调节的分子机制

【6】APSB︱清华大学王建伟团队揭示衰老相关克隆性造血分子的机制——DNMT3A突变

【7】Pharmacol Res | 黄晓颖/赵承光团队研究发现GPR37有望成为肺腺癌治疗的新靶点

【8】APS︱杨德华/王明伟团队高通量筛选发现新型PFKFB3小分子抑制剂

【9】Adv Sci︱柴人杰团队在耳蜗类器官功能性毛细胞再生方面取得重要进展

【10】NAR︱徐娟团队识别非编码区域的HLA呈递的免疫表位图谱

优质科研培训课程推荐【1】膜片钳与光遗传及钙成像技术研讨会(2022年10月15-16日 腾讯会议)【2】临床预测模型构建与论文撰写:从入门到精通实战训练营(2022年10月4-7日,腾讯会议)【3】R语言临床预测生物医学统计专题培训(10月15-16日,北京·中科院遗传与发育生物学研究所)【4】单细胞测序与空间转录组学数据分析研讨会(10月29-30日 腾讯在线会议)欢迎加入“岚翰生命科学” ”岚翰生命科学“ 诚聘副主编/编辑/运营岗位 (在线办公)
参考文献(上下滑动阅读) 

[1] Andersson, R. and Sandelin, A. (2020) Determinants of enhancer and promoter activities of regulatory elements. Nat. Rev. Genet., 21, 71–87.

[2] Core, L.J., Martins, A.L., Danko, C.G., Waters, C.T., Siepel, A. and Lis, J.T. (2014) Analysis of nascent RNA identifies a unified architecture of initiation regions at mammalian promoters and enhancers. Nat. Genet., 46, 1311–1320.

[3] Kulakovskiy, I.V., Vorontsov, I.E., Yevshin, I.S., Sharipov, R.N., Fedorova, A.D., Rumynskiy, E.I., Medvedeva, Y.A., Magana-Mora, A., Bajic, V.B., Papatsenko, D.A., et al. (2018) HOCOMOCO: Towards a complete collection of transcription factor binding models for human and mouse via large-scale ChIP-Seq analysis. Nucleic Acids Res., 46, D252–D259.

[4] Bonev, B. and Cavalli, G. (2016) Organization and function of the 3D genome. Nat. Rev. Genet., 17, 661–678.

[5] Weintraub, A.S., Li, C.H., Zamudio, A. V., Sigova, A.A., Hannett, N.M., Day, D.S., Abraham, B.J., Cohen, M.A., Nabet, B., Buckley, D.L., et al. (2017) YY1 Is a Structural Regulator of Enhancer-Promoter Loops. Cell, 171, 1573-1588.e28.

[6] Bailey, S.D., Zhang, X., Desai, K., Aid, M., Corradin, O., Cowper-Sallari, R., Akhtar-Zaidi, B., Scacheri, P.C., Haibe-Kains, B. and Lupien, M. (2015) ZNF143 provides sequence specificity to secure chromatin interactions at gene promoters. Nat. Commun., 2.

[7] Nolis, I.K., McKay, D.J., Mantouvalou, E., Lomvardas, S., Merika, M. and Thanos, D. (2009) Transcription factors mediate long-range enhancer-promoter interactions. Proc. Natl. Acad. Sci. U. S. A., 106, 20222–20227.


本文完

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存