癌症基因组图谱(TCGA)和癌症细胞系百科全书(CCLE)是癌症研究的基础资源,为来自33种癌症类型的约11,000个患者样本和来自不同谱系的约1,000个癌细胞系提供了广泛的分子和表型数据。虽然来自这些队列的DNA和RNA数据已被广泛表征,但与之平行的大规模蛋白质表达数据仍然有限,这在全面理解人类癌症分子基础和开发精准医学策略方面存在明显不足,因为蛋白质是各种生物过程中的基本功能单位,并且是直接的药物靶点。
反相蛋白微阵列(RPPAs)是一种基于抗体的高通量功能性蛋白质组学方法,初期研究者利用RPPAs平台,为TCGA患者肿瘤和CCLE细胞系生成了高质量的蛋白质表达数据,这些数据集为肿瘤亚型分类、不同肿瘤背景下的癌症信号传导、耐药机制、新生物标志物和治疗策略提供了深刻见解。然而,早期研究工作评估的蛋白质标记物数量相对较少(约200个),这导致许多癌症相关途径未被充分研究。
为提高TCGA和CCLE队列的实用性,MD安德森癌症中心粱晗团队及合作者使用更新的RPPA平台完成了对约8000个TCGA肿瘤样本和约900个CCLE细胞系的第二阶段表征。这项工作大幅增加了分析的蛋白质数量,达到约500种(即RPPA500),涵盖了几乎所有已知的癌症特征以及大部分临床标志物和治疗靶点。研究团队将该数据集与其他分子和表型数据进行综合分析,证明了基于RPPA的蛋白质表达谱在转化研究中的独特价值。该项工作以“A protein expression atlas on tissue samples and cell lines from cancer patients provides insights into tumor heterogeneity and dependencies”为题发表在Nature Cancer上。研究团队使用更新的RPPA平台从约8000个TCGA患者肿瘤样本和约900个CCLE细胞系样本中生成了定量蛋白质表达数据,覆盖了约500个高质量蛋白质标记物。RPPA500数据集是涵盖了32种癌症类型的7828个TCGA患者样本和24个谱系的878个CCLE细胞系样本的大型癌症研究数据库。更新后的数据集包含447个蛋白质标记(357个总蛋白和90个翻译后修饰(PTM)蛋白),针对关键的致癌途径和治疗性生物标志物。与第一阶段相比,第二阶段的蛋白质集有15个新的标志性集合,且对于两阶段都涵盖的60%的标志性集合。RPPA500中平均每个集合评估的蛋白质数量显著增加,这种扩展极大地提高了解释癌症机制和产生临床相关假设的能力。为评估RPPA500数据质量,研究团队将其蛋白质水平与mRNA表达及基于质谱的蛋白质表达进行比较,发现与基于质谱(MS)的蛋白质和mRNA表达相比,RPPA500数据有良好相关性和一致性。PTM蛋白平均相关性低,与mRNA和基于MS的总蛋白的相关性分别为0.23和0.24,这表明PTM蛋白水平不能通过mRNA和总蛋白表达水平准确推断。以上分析揭示了RPPA数据的高质量及其在不同平台和阶段的一致性(图 1)。图1. TCGA和CCLE样本升级版RPPA资源概述基于TCGA样本的RPPA500数据,研究者进行了无监督聚类分析,并在32种癌症类型中鉴定出十个聚类。大多数聚类由单一的癌症类型或来自相同组织起源的癌症类型主导。此外,来自不同组织部位但相似器官系统的肿瘤倾向于聚集,这些模式通常与基于基因表达数据的聚类模式一致,突出了谱系效应在蛋白质表达中占主导地位。特别地,一些癌症类型被分成多个聚类,呈现出不同的总体生存模式。随后,研究团队进一步分析了与RPPA聚类相关的分子驱动因素,确定了几个显著的基因-聚类对,其中K1和K8与多种驱动基因改变(TP53和PIK3CA突变;PTEN 缺失)相关,但模式相反(图2a,b,c,d)。以上结果表明RPPA数据为表征肿瘤间异质性、识别相关临床模式和癌症驱动因素提供了独特的视角。蛋白质谱数据比mRNA表达更能直接反映蛋白质活性。通过共表达分析并使用RPPA和mRNA数据确定潜在的相互作用对,这些对进一步映射到STRING数据库中注释的物理蛋白质-蛋白质相互作用(PPI),最终共鉴定了136,832个PPI:59,695个由RPPA和mRNA共同确定,而50,269个仅由RPPA确定,这表明RPPA数据在检测PPI方面更敏感。相比于mRNA,RPPA推断的PPI出现在更多的癌症类型中,这表明基于RPPA的PPI更稳健(图2e,f,g)。RPPA数据为评估驱动事件对蛋白质-mRNA耦合的影响提供了机会,证实驱动基因拷贝数扩增增加顺式蛋白质-mRNA耦合,缺失则降低顺式耦合。通过TP53、c-ABL等案例分析,发现RPPA在阐明突变功能效应方面比mRNA更强大(图2h)。图2. 不同TCGA癌症类型中RPPA蛋白表达的总体模式研究团队对CCLE的RPPA500数据进行了无监督聚类分析,确定了十个RPPA聚类,与TCGA的RPPA聚类相似,CCLE的RPPA聚类主要由癌症谱系驱动。通过监督分析鉴定了39个谱系特异性蛋白质(图3a,b,c),这些蛋白质在不同的谱系中表达水平各异,突出了RPPA500蛋白质标记物在揭示肿瘤特异性特征、亚型分类和生物标志物方面的潜在应用价值。此外,基因依赖性与其蛋白质和mRNA水平之间相关性良好(图 3d),并且基于RPPA的蛋白质标记物能更敏感地检测融合事件的功能后果。图3. 不同CCLE癌症谱系中RPPA蛋白表达的总体模式体细胞突变是癌症发展和临床标志物中的主要驱动事件来源,但区分驱动突变和乘客突变仍具挑战。研究团队通过对野生型和突变型细胞系的癌基因突变进行差异表达分析,确定了BRAF突变和磷酸化MEK蛋白水平这一突出对,发现pMEK有望作为达拉非尼敏感性预测标志物以对BRAF突变患者进行分层(图4)。合成致死是一种重要的癌症治疗策略,研究者开发了一种基于RPPA的方法,通过整合CCLE和TCGA样本来识别合成致死对。研究评估了125种癌细胞系中的2025种临床相关的两种药物组合的疗效,发现在52个合成致死对中,有48个表现出协同作用,4个无协同作用,并进一步证实以RPPA蛋白质为中心的分析可有效地识别合成致死性(图5)。以上发现为理解PKAA在EGFR耐药性中的作用提供了新见解,或有助于开发新的治疗策略。图5. 基于CCLE和TCGA样本RPPA500数据的合成致死系统鉴定转移是癌症的重要特征和相关死亡的主要原因,已有研究生成了人类癌细胞系的转移图谱MetMap。为了从RPPA蛋白质表达角度更好地理解转移,研究团队分析了RPPA蛋白质标记物与MetMap转移潜力评分之间的相关性。与原代细胞系相比,促转移的RPPA标记在转移细胞系中表达增加,而抗转移标记在这些细胞中表达降低。使用TCGA RPPA500数据集对确定的蛋白质标记进行患者生存分析,结果表明,促转移蛋白标记与患者生存率的降低显著相关,而抗转移蛋白标记则与提高生存率相关(图6)。最后,研究者利用Pharos数据库检查了促转移蛋白质标记物的临床开发阶段,发现超过一半的标记处于Tchem(38%)和Tclin(18%)阶段,突出了研究结果的潜在临床实用性,为人类癌症转移的关键蛋白质和途径提供了全面视图,为预测患者转移和开发抗转移疗法奠定基础。综上所述,该研究通RPPA技术对TCGA和CCLE样本进行蛋白质表达谱分析的研究,生成了涵盖447种临床相关蛋白质的高质量数据。这些蛋白质表达谱有助于深入了解肿瘤间异质性和癌症依赖性,为阐明体细胞突变的功能效应提供更敏感的信息。研究确定了许多与癌症相关的蛋白质相互作用对,开发了识别合成致死性对的方法,并通过实验验证了PKAA - EGFR这一合成致死对的相互作用;基于RPPA的蛋白质表达分析能够确定与肿瘤转移潜力相关的关键蛋白质和途径,为预测患者的转移和开发抗转移疗法奠定了基础。该数据集对于深入理解癌症的生物学机制、发现潜在的蛋白质生物标记物以及开发新的治疗方法具有重要价值。论文原文:
Li, J., Liu, W., Mojumdar, K. et al. A protein expression atlas on tissue samples and cell lines from cancer patients provides insights into tumor heterogeneity and dependencies. Nat Cancer (2024). https://doi.org/10.1038/s43018-024-00817-x
·END·
快点亮"在看”吧