Nature重磅:100个物种的蛋白质全景图,高通量蛋白组技术最新力作!
深度学习的算法为质谱数据的匹配搜库提供了新的思路和应用,而这项关于100个物种、超过200万个肽段的大规模分析非常适合于发展深度学习算法。作者开发了一个long short-term memory (LSTM)的深度学习模型来准确预测色谱保留时间,并实现皮尔逊相关性0.990。为了验证该模型的可靠性,研究人员应用质谱仪对均变杆菌、巨大芽孢杆菌或产气肠杆菌三个未知蛋白组的物种进行分析,结果显示其能够符合绝大多数(约88%)的蛋白质组数据,表明这个算法是成功和准确的。
与基因组学和转录组学不同,蛋白质组数据可以直接估计基因表达的最终产物。接下来,研究人人员进一步探究蛋白质在不同生物体内是如何分布的。跨物种分析中,作者专门挑选了高丰度的蛋白进行分析(因为这些蛋白功能较为保守和基础),其中真核生物有1546个蛋白质,细菌中有306个,古菌中有262个。随后,研究人员把相应蛋白质和肽段信息同各种数据源的数据相关联,产生一个多于800万个节点的网络结构图和多于5380万的作用关系。进一步的分析发现,某些种类的蛋白质只在特定的生命分支中占优势,比如与光合作用相关的蛋白质只存在于光合自养生物体中,如植物、藻类、原生动物或蓝藻细菌(100个生物体中的13个)。
通过对生命分类学的取样,研究人员创建了一套高覆盖率蛋白质组质谱数据。非标(label-free)定量使我们能够推断出共同的和专门的生物功能,并将它们与所有分类层次的近亲和远亲进行比较。蛋白组与基因组、代谢组和其他数据的整合,以及将机器学习方法纳入特定物种库,将把系统生物学的视角从模式生物体扩展到整个生命树。
此项研究结果为整个进化范围内生物的功能组织研究提供了一个重要的信息。在所有检测到的蛋白质中,有38.4%的蛋白是没有功能注释的,其中还包括不少高丰度的蛋白。发现这些“dark proteome”的功能,将是非常吸引人的新研究方向。此外,蛋白质修饰也是蛋白质组的重要层面,本文中虽然没有对修饰进行特殊富集,但仍然尝试从有限信息中进行搜索和展示了部分的修饰位点。未来通过富集的手段进行更大规模的修饰组分析,将是全蛋白质组图谱研究的另一个重要方向。
本文由景杰学术团队报道,欢迎转发到朋友圈。如有转载、投稿、等其他合作需求,请文章下方留言,或添加微信ptm-market咨询。