Nat Biotechnol | 蛋白质组深度测序新方法发表,为全面绘制蛋白质多样性图谱奠定基础
人类蛋白质组图谱为超过90%的蛋白质编码基因提供了其蛋白质翻译证据,然而,人类基因组约20,000个蛋白质编码基因中由于选择性剪接事件的存在,其蛋白质组多样性显著增加;此外,单氨基酸多态性(SAP)和翻译后修饰也进一步增加了蛋白质组的复杂性,而精确检测蛋白质多样性对于理解生物学功能至关重要。但由于目前蛋白质组学技术的局限性,常用的鸟枪法蛋白质组学检测方法是通过部分肽段序列来确定整个蛋白质的,其序列覆盖率不足以完全表征样品中存在的所有蛋白质状态。
近期,威斯康星大学麦迪逊分校、马克斯-普朗克生物化学研究所等机构的科学家在Nature Biotechnology上发表题为“Global detection of human variants and isoforms by deep proteome sequencing”的文章。
研究人员使用了6种不同的蛋白酶消化6种人类细胞系蛋白质,碎片化后进行液相色谱分离和串联质谱分析,从17,717个蛋白质编码基因或蛋白质组中识别了100万条特异性肽段,其序列覆盖度中位数达到80%,大大提高了鸟枪法蛋白质组学对单个蛋白的序列覆盖度,为全面绘制蛋白质多样性图谱奠定了基础。
研究方案设计
该研究使用了6种蛋白酶消化6种不同的人类细胞系蛋白质、经过3种串联质谱片段化方法,获得高深度人类蛋白质组氨基酸碎片,接着采用液相色谱法进行深度分馏,最后以纳流LC与四极杆-Orbitrap-线性离子阱混合MS系统质谱仪进行串联质谱分析。本研究收集了约2,000万张高分辨率MS谱图和约1.64亿张MS/MS谱图,合并后的数据能够识别17,717种独特的蛋白质,总体中位序列覆盖率为79.2%。
图1 深度蛋白质组测序工作流程
主要研究成果
1. 深度蛋白质组分析结果概览
研究团队采用多种蛋白酶消化后,每种细胞系平均鉴定出539,325个unique肽段,对应约16,000种蛋白质。从胰蛋白酶酶切的蛋白质组中鉴定到17,631个蛋白,序列覆盖度中位数56.5%,使用组合酶切可增加已鉴定蛋白质的数量到17,717个,序列覆盖度中位数提高到79.2%,其中有790个蛋白实现序列全覆盖。
此外,添加胰蛋白酶以外的酶可使已鉴定的蛋白质总数略有增加,但会导致检测到的非冗余氨基酸大幅增加。因而该研究通过不同酶组合的结果确定了最佳的多蛋白酶组合,所有组合都包含胰蛋白酶。同时发现无论在哪种消化酶作用下,跨膜蛋白的序列覆盖度均普遍低于非跨膜蛋白。
图2 深度蛋白质组学分析结果概览
2. 蛋白质组从头组装
本研究利用来自6种不同蛋白酶的数据产生了许多具有部分重叠的肽段,使蛋白质从头组装成为可能。其中从头组装的一个很好的例子是蛋白酶体亚基alpha 6型,它由全序列覆盖表示。结果显示,从头组装的中位序列覆盖率为18%,而参考组装的序列覆盖率为79.2%。组装好的scaffolds有33-358个氨基酸,中位长度为45,平均2个scaffolds被映射到每个蛋白质。这些结果显示从头组装表现与参考组装相比仍然存在较大差距,但却证明了使用多种蛋白酶消化的蛋白质组重叠肽从头组装蛋白质组的可行性。
图3 蛋白质组从头组装结果展示
3. 大多数假设的SAP在蛋白质组中得到证实
SAP是蛋白质序列的变异,通常由单核苷酸多态性(SNP)引起,导致基因组序列中的密码子发生非同义变化。这里评估了深度蛋白质组学数据是否具有确定这些SNP被翻译成SAP的能力。该研究使用MaxQuant模块搜索SAP,从该分析中,观察到单个细胞系中多达2,179个SAP的蛋白质水平证据。此外,与仅使用胰蛋白酶时相比,多酶数据导致识别出的SAP翻倍。
为了评估这些含有SAP肽段的鉴定质量,对有和没有SAP(分别为突变肽和参考肽)的所有肽光谱匹配进行了相关分析。图4b展示了使用基于机器学习的工具DeepMass对观察到和预测的MS/MS谱图之间相关系数的分布用于突变肽和参考肽之间的比较。参考肽和突变肽的分布相似,从而增加了这些肽光谱匹配的可信度。图4c显示了作为细胞系函数变异的存在以及它们是否在蛋白质水平上被检测到。研究发现主要有两种类型的SAP——细胞系特异性(在蓝色矩形内突出显示)和跨细胞系保守SAP(在绿色矩形内突出显示)。通过富集分析发现仅在转录组水平发现的 SAP对应的蛋白质与膜蛋白家族相关(图4d),这支持了之前的结论即此类蛋白质的肽段不太适合MS分析。
为了测试在蛋白质水平上未检测到的一些突变,利用SIFT和PolyPhen-2工具,通过将突变分类为良性或有害来预测氨基酸突变如何改变蛋白质结构和功能。如图4e、f所示,两种算法在未检测到的SAP组的有害突变部分都预测到了显著的变化。这些数据证实,至少一部分未检测到的变异可能来自突变诱导的蛋白质不稳定性。
图4 SAP蛋白质的鉴定
4. 选择性剪接的蛋白质水平证据
多种人体器官和细胞系的RNA-seq分析表明,超过95%的多外显子基因产生选择性剪接的转录物,本研究通过使用高覆盖率数据评估了在蛋白质组中检测到的可变剪接转录本变体的比例。结果显示,约30%的已鉴定肽段跨越连接序列是由蛋白编码外显子剪接形成的,并且需要使用其他蛋白酶来检测剪接亚型。该研究还确认了在鸟枪法蛋白质组中仅使用胰蛋白酶检测剪接连接序列的局限性。在具有RNA-seq表达证据的6,145个剪接事件中,1,141个(18.6%)在蛋白质水平上被检测到。
图5 检测到的外显子跳跃AS事件的特性
总 结
该研究表明,虽然使用多种酶只能适度提高蛋白质鉴定率,但这种策略大大提高了蛋白质覆盖率,且覆盖率的增加通常来自胰蛋白酶切割位点次优的蛋白质区域,例如跨膜结构域和剪接点。此外随着覆盖率的增加,也可以实现直接从蛋白质组数据中完成从头组装。另外,由于大多数鸟枪MS实验中的肽覆盖率较低,之前在蛋白质组学水平上基本上检测不到转录本水平普遍存在的选择性剪接,这不仅限制了区分蛋白质亚型的能力,而且限制了对剪接如何影响蛋白质组的了解。该研究表明转录组检测到的相对高表达基因中,有64%的剪接事件确实被翻译并存在于蛋白质水平。鉴于蛋白质表达的高度动态性和检测差异表达剪接体存在的挑战,即使在最高水平的肽段覆盖率下也并非所有的外显子拼接点都能被覆盖,因此预计64%这个数字可能是被低估的。
科技君点睛
本研究提供了蛋白质水平的基因组和转录组序列变异表达的全局视图,生成的数据代表了迄今为止收集到的最深度的蛋白质组学图谱,并已编入deep-sequencing.app在线资源中。这些方法和资源为全面绘制蛋白质多样性图谱奠定了基础,有望促进未来的研究工作。
华大基因质谱平台作为国内外蛋白质组检测技术的领跑者,具有严格的质控体系和丰富的项目经验,从高通量数据到高效率分析全覆盖,助力数据深度挖掘。标记定量类产品iTRAQ、IBT、TMT蛋白定量可满足不同样本量需求,最多可同时对18例样品进行蛋白定量,降低批次效应。非标记定量DIA技术可大范围筛选关键蛋白质,实现大队列的深度分析。
同时,华大基因可提供空间蛋白质组、单细胞蛋白质组、微量蛋白质组、宏蛋白组等特殊样品蛋白质组服务以满足广大科研用户的不同需求。欢迎咨询!
欲知更多详情,
请联系华大科技当地销售代表↓↓↓
热线电话:400-706-6615
邮箱:info@genomics.cn
原文链接(点击文末“阅读原文”即可查看):
https://www.nature.com/articles/s41587-023-01714-x
供稿:张霞
编辑:市场部
近期热文
了解更多产品服务及资讯,关注我们!
↓↓↓点击“阅读原文”查看文献