经典力作|蒋华良-基于蛋白质序列预测蛋白的相互作用(干货)
编者按:总是会有人说,周杰伦的经典歌曲是《稻香》,《双节棍》等;刘德华的《忘情水》,《来生缘》等,这些歌曲都是百听不厌,常听常新的,而且听起来的感觉都是不一样的。但是,怎么评价学术界的经典文章或者是成名作呢?有的人认为,发的影响因子越高越好,这样就是经典文章。但是,iNature认为,作为经典文章,肯定使用的人很多,而且看的人也是拍手叫绝,所以我们是根据总引用量,来客观的评价一篇文章。今天就推出蒋华良最高引用量的一篇文章(非综述类),以飨读者。
iNature:蛋白质 - 蛋白质相互作用(PPI)是大多数生物过程的核心。尽管已经致力于开发预测PPI和蛋白质相互作用网络的方法,但是大多数现有方法的应用是有限的,因为它们需要关于蛋白质同源性或蛋白质伴侣的相互作用标记的信息。在本工作中,蒋华良研究组提出了一种仅使用蛋白质序列信息的PPI预测方法。该方法是基于机器学习,结合kernel函数和用于描述氨基酸的联合三元组特征而开发的。使用16,000多种不同的PPI对来构建通用模型。我们的方法的预测能力优于其他基于序列的PPI预测方法,因为它能够预测PPI网络。已经通过我们的方法有效地确认了不同类型的PPI网络,这表明即使只有序列信息,该方法可以应用于任何新发现的具有未知生物相对性的蛋白质的网络的探索。另外,这种补充实验信息可以提高该方法的预测能力。
细胞运作的分子基础主要受蛋白质之间不同类型的相互作用的影响。因此,功能基因组学的一个主要目标是确定整个生物体的蛋白质相互作用网络【1】。然而,只有最近才有可能通过使用微阵列和蛋白质组学方法将传统的蛋白质研究同孤立的结合与蛋白质相互作用网络的分析相结合【2,3】。这种研究是非常重要的,因为复杂系统的许多功能似乎更加靠它们的相互作用,而不是其各自组成部分的特征来确定【4】。例如,代谢途径,信号级联和转录控制过程涉及复杂的交互网络【5】。最近,相互作用网络已经开始受到科学界的关心,因为有必要通过系统生物学解决生物系统的一般原理【6】。
蛋白-蛋白相互作用类型
此外,蛋白质相互作用网络的研究已经被药物发现中潜在的实际应用推动,因为它可能对人类疾病的机制提供了深刻的见解。这项研究可能会改变药物发现的发展,因为基于蛋白质相互作用网络发现的药物,可能会特异性调节疾病相关途径,而不是简单地抑制或激活个体靶蛋白的功能【7,8】。因此,确定准确的细胞蛋白质相互作用网络,实验方法并结合计算方法已成为功能基因组学和蛋白质组学努力的主要主题【9】。
蛋白-蛋白作用网络
已经开发了一系列令人印象深刻的实验技术,用于蛋白质 - 蛋白质相互作用(PPI)的系统分析,包括基于酵母双杂交的方法【10】,质谱【11】和蛋白质芯片【12】和混合方法【13】。已经开发了几种结合反应检测方法,基于一种蛋白质与另一种蛋白质的结合引起各种生物物理变化的假设【14】。这些技术最近在几种物种中鉴定了数百种潜在的相互作用的蛋白质和复合物,如酵母【15】,果蝇【16】和幽门螺杆菌【17】。 Ulrich 等人 【18】提出了大规模双杂交地图,> 3000个推定人类PPIs。这些数据将作为关于个体蛋白质合作伙伴的重要信息来源,并提供人类细胞分子组织的初步了解。
机器学习
然而,用实验方法获得的当前PPI,仅涵盖完整PPI网络的一部分【19】。因此,预测PPI的计算方法具有重要作用【20】。已经开发了许多用于预测PPI的计算方法。基于基因组信息的计算方法,如系统发育谱,通过考虑一组基因组中给定基因存在或不存在的模式来预测PPI【21,22】。这些方法的主要限制是它们只能应用于完全测序的基因组,这是排除缺乏给定基因的前提条件。类似地,它们不能与大多数生物体常见的必需蛋白质一起使用【23】。
CD9作用网络预测
根据其相应的基因相邻性,两种蛋白质之间功能关系的预测是另一种流行的方法。这种方法直接适用于细菌【24】。 Park 等人【25】就进化相关结构域之间的相互作用而言,试图通过观察蛋白质结构域之间的相互作用来发现蛋白质相互作用的伙伴关系。 Sprinzak和Margalit【26】提出了另一种间接相互作用预测方法,通过蛋白质分类从蛋白质序列挖掘与相互作用,而不是域相互作用信息相关的特征。然而,这些方法不是普遍的,因为这些方法的准确性和可靠性取决于蛋白质同源性或蛋白质伴侣的相互作用标记的信息。
Ras-Raf-Mek-Erk-Elk-Srf途径
实际上,“序列指定结构”是公理的,其产生了一个假设,即单独的氨基酸序列的知识可能足以估计特定生物学功能的两种蛋白质之间的相互作用倾向【27】 。因此,仅基于序列信息的PPI的预测是计算和实验范畴的理想方法。这种方法的优点使它更普遍。然而,这是计算生物学的一个主要挑战,只有少数几个团体参与了这种预测方法的开发。 Joel和David【28】致力于通过使用具有几种理化指标的机器学习方法来解决这个问题。 Loris【29】开发了一种分类器的融合技术来预测PPI。然而,这些方法并不强大和可靠,因为它们没有充分考虑序列中残基的局部环境。此外,预测模型是基于有限的PPI对(<3,000对)构建的,但具有数百种变体。因此,一方面,它们容易遇到过度拟合的问题,数据依赖性的结果;另一方面,这些方法尚未被用于预测大量蛋白质中的PPI网络。
Wnt-相关途径的Crosstalk
在本工作中,基于支持向量机(SVM)结合kernel函数和联合三元组特征抽象的机器学习方法被开发用于仅基于蛋白质的一级序列来预测PPI。为了减少过度配套的问题,使用了16,000个PPI对来生成预测模型。我们的方法的预测结果比最近公布的基于序列的PPI预测模型更为可靠【28,29】。值得注意的是,通过这种方法已经有效地确认了不同程度的PPI网络,表明即使只有序列信息,这种基于序列的方法可以应用于探索新发现的具有未知生物学功能的蛋白质的网络。
延伸阅读
原文链接
http://www.pnas.org/content/104/11/4337.long
猜你喜欢
中科院生命医学部候选人|刘耀光-技术的革新者及水稻不育的探路人
Science|真会玩,非编码RNA也能调节代谢过程(曹雪涛重磅成果,推荐)
参考文献
1. Chen L, Wu LY, Wang Y, Zhang XS (2006) Proteins 62:833–837.
2. Sachs K, Perez O, Pe’er D, Lauffenburger DA, Nolan GP (2005) Science
308:523–529.
3. Plavec I, Sirenko O, Privat S, Wang Y, Dajee M, Melrose J, Nakao B, Hytopoulos E, Berg EL, Butcher EC (2004) Proc Natl Acad Sci USA 101:1223–1228.
4. Pawson T (2004) Cell 116:191–203.
5. Alberts B, Bray D, Lewis J, Raff M, Roberts K, Watson JD (1989) Molecular
Biology of the Cell (Garland, New York), 2nd Ed.
6. Ge H, Walhout AJ, Vidal M (2003) Trends Genet 19:551–560.
7. Ryan DP, Matthews JM (2005) Curr Opin Struct Biol 15:441–446.
8. John MP, Srdjan A, Robert RB, Cindy LC, Yew-Seng JH, Vladimir K, Shuping
L, Tahmina M, Mike P, Paul BR, et al. (2004) Int J Mass Spectrom 238:119–130.
9. Vittoria C, Alessandro F, Amos M, Alessandro V (2005) Phys A Stat Mech Appl 352:1–27.
10. Fields S, Song OK (1989) Nature 340:245–246.
11. Gavin AC, Bo¨sche M, Krause R, Grandi P, Marzioch M, Bauer A, Schultz J,
Rick JM, Michon AM, Cruciat CM, et al. (2002) Nature 415:141–147.
12. Heng Z, Metin B, Rhonda B, David H, Antonic C, Paul B, Ning L, Ronald J,
Scott B, Thomas H, et al. (2001) Science 293:2101–2105.
13. Tong AHY, Becky D, Giuliano N, Gary DB, Barbara B, Luisa C, Marie E, Silvia F, Bryce N, Serena P, et al. (2002) Science 295:321–324.
14. Lakey JH, Raggett EM (1998) Curr Opin Struct Biol 8:119–123.
15. Peter U, Loic G, Gerard C, Traci AM, Richard SJ, James RK, Daniel L,
Vaibhav N, Maithreyan S, Pascale P, et al. (2000) Nature 403:623–631.
16. Sarah EB, Xin XT, Kathleen SM (2006) Mol Cell Proteomics 5:824–834.
17. Jean CR, Luc S, Hilde DR, Veronique B, Celine R, Stephane S, Gerlinde L,
Fabien P, Jerome W, Vincent S, et al. (2001) Nature 409:211–215.
18. Ulrich S, Uwe W, Maciej L, Christian H, Felix HB, Heike G, Martin S, Martina
Z, Anke S, Susanne K, et al. (2005) Cell 122:957–968.
19. Han JD, Dupuy D, Bertin N, Cusick ME, Vidal M (2005) Nat Biotechnol
23:839–844.
20. Wodak SJ, Mendez R (2004) Curr Opin Struct Biol 14:242–249.
21. Thomas D, Berend S, Martijn H, Peer B (1998) Trends Biochem Sci 23:324–328.
22. Matteo P, Edward MM, Michael JT, David E, Todd OY (1999) Biochemistry
96:4285–4288.
23. Valencia A, Pazos F (2002) Curr Opin Struct Biol 12:368–373.
24. Wojcik J, Boneca IG, Legrain P (2002) J Mol Biol 323:763–770.
25. Park J, Lappe M, Teichmann SA (2001) J Mol Biol 307:929–938.
26. Sprinzak E, Margalit H (2001) J Mol Biol 311:681–692.
27. Christian BA (1973) Science 81:223–230.
28. Joel RB, David AG (2001) Bioinformatics 17:455–460.
29. Loris N (2005) Neurocomputing 68:289–296.
温馨提示:iNature是介绍一流的,最前沿的科研成果,提供专业的完整的同行解析;另外也会介绍全世界知名的实验室及业界大师;同时为公众提供一个了解生命科学及科研过程的平台。扫描或长按下方二维码可关注“Plant_ihuman”,了解科学领域最新研究进展。另外,iNature公众号也开通了“爱科学爱自然”头条号,欢迎大家关注。
投稿、合作、转载以及招聘信息发布等事宜请联系liupan@sibs.ac.cn 或微信号“13701829856”。