综述 |Mass Spectrom Rev:面向癌症多组学的临床蛋白质组学
生科云网址:https://www.bioincloud.tech/
编译:微科盟-Echo,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读基于质谱(MS)的蛋白质组学技术的最新技术进步加速了其在人类肿瘤标本研究中的应用。在过去几年中,临床蛋白质组肿瘤分析联合会、国际癌症蛋白质组联合会和其他组织已经生成了基于MS的蛋白质组分析数据,并结合了数千种人类肿瘤的多组学数据。公共的蛋白质组数据集可以由其他研究人员重新检查,并考虑到与原始研究不同的问题。在这篇综述中,我们阐明了蛋白质组学在研究癌症中的重要作用,并解析了先前研究及其相关数据集对改善临床环境中癌症诊断和治疗的潜力。我们还探索了癌症细胞系模型中公开的蛋白质组学和多组学数据,进而揭示了根据这些数据如何确定癌症亚群的治疗策略。
论文ID
原名:Clinical proteomics towards multiomics in cancer译名:面向癌症多组学的临床蛋白质组学
期刊:Mass Spectrometry ReviewsIF:9.011发表时间:2022.12通讯作者:Chad J. Creighton通讯作者单位:贝勒医学院
主要内容
1. 介绍
蛋白质组学技术主要基于液相色谱-串联质谱(LC-MS/MS),广泛应用于人类疾病的研究。基于MS的蛋白质组学技术在多个方面的最新技术进步,包括样品制备、肽段分离、MS检测和数据分析,加速了其在研究人类样本中的应用。例如,在过去几年里,国家癌症研究所倡议的临床蛋白质组肿瘤分析联合会(CPTAC)对迄今为止1600多个人类肿瘤进行了基于MS的蛋白质组分析。基于抗体的蛋白质组学技术,包括酶联免疫吸附试验(ELISA)和反相蛋白微阵列(RPPA)也被大量使用。然而,基于抗体的技术针对的是定义蛋白质的特征,RPPA平台通常针对200-300个蛋白质特征,包括总蛋白质水平或翻译后修饰(PTM)。相比之下,基于MS的蛋白质组学更加全面,捕获了约10000-15000个总蛋白质特征和30000-50000个磷酸化特征。除了测量总蛋白质和蛋白质磷酸化水平,基于MS的蛋白质组学还可以量化其他PTM,如乙酰化、泛素化和糖基化。
多组学涉及在多个分子复杂性水平上对细胞进行全面的分析,包括基因组、表观基因组、转录组、蛋白质组和代谢组。在特定组学水平上发生的分子变化通常反映在其他组学水平。癌症是一种以基因组中广泛的体细胞改变为特征的疾病。癌症中的体细胞基因组改变包括小突变、基因组重排和拷贝数变异。这些体细胞改变影响基因表达,进而影响驱动致癌过程的信号通路。许多复杂因素影响蛋白质表达,包括选择性剪接、突变、转录产物降解、蛋白质-蛋白质相互作用、泛素化和其他PTM。没有两种来自不同患者的癌症在分子变化方面是相同的,不同的信号通路可能在不同的肿瘤中以不同的方式改变。需要更深入地了解癌症中的途径是如何被解除管制的,以及哪些途径是最有效的靶点。多组学和数据整合可以让我们更详细地了解癌症等极其复杂的疾病。
在这篇综述中,我们阐明了蛋白质组学在研究癌症中的日益重要的作用,以及先前研究及其相关数据集对改善临床环境中癌症诊断和治疗的潜力。近年来,蛋白质组学和多组学的组合数据集已被用于公共领域,其他研究人员可以重新检查这些数据集,并考虑到与原始研究不同的问题。在这里,我们还探索了癌症细胞系模型中公开可用的多组学数据,以显示此类数据如何有助于确定癌症亚群的治疗策略。虽然我们这里的重点是癌症,但我们探索的许多概念和方法原则上可以应用于其他疾病的研究和治疗。
2. 蛋白质组学在临床上的应用
在癌症的研究中,基于体液的生物标志物检测是以非侵入性方式了解、认知癌症的重要手段。此类生物标志物将有助于疾病早期阶段的检测,这对提高患者生存率至关重要。癌症生物标志物也可用于监测复发癌症、患者预后和预测治疗反应。常用的临床生物标志物包括卵巢癌中的癌抗原125(CA-125)和前列腺癌中的前列腺特异性抗原(PSA)。然而,这些生物标志物在特异性和敏感性方面受到限制,这使其在临床环境中的应用变得复杂。多种生物标志物的联合使用可能会提高单个生物标志物敏感性和特异性的局限性。临床生物标志物在几种癌症类型中仍有待发现。蛋白质组学可以作为发现生物标志物的平台,可以通过验证队列中的其他蛋白质检测方法进行验证。
个性化和精确医学方法代表了在临床环境中应用蛋白质组学的另一方面的潜力。精准医学寻求识别特定患者肿瘤治疗反应的预测性标志物,以便选择最适合特定肿瘤的治疗方法。许多精确医学方法利用基因面板分析来检测来自癌症患者的肿瘤或液体活检样本中的体细胞DNA突变或基因融合。在基因组水平之外,特定基因对于测量信使RNA(mRNA)或蛋白质水平的表达尤其重要,包括ER(雌激素受体)、PR(孕激素受体)和HER2(ERBB2)用于乳腺癌和PDL1用于免疫治疗,这些基因可以通过免疫组织化学(IHC)或基因层面分析来测量。原则上,RPPA将能够在非常少量的组织样本中量化多种磷酸化蛋白和探针通路活性,这可能使RPPA成为适合患者定制治疗或精准医学的平台。基于MS的蛋白质组学目前可能被认为成本太高,无法直接应用于个性化医学,因为需要快速冷冻肿瘤样本。然而,基于MS的蛋白质组学可能被用作发现IHC或RPPA的蛋白质靶点的工具,特别是当与其他组学平台结合时。基于MS的蛋白质组学也可以支持在诊断试剂盒中开发基于血清或尿液的蛋白质生物标记物,以便容易地分发给患者。
蛋白质组学在临床环境中的应用面临挑战,其中一些挑战已在上文中提到。迄今为止,只有有限数量的基于蛋白质组学的生物标志物候选物最终转化为临床。一个使基于流体的生物标志物发现和验证复杂化的问题是蛋白质浓度的动态范围,这可能使许多平台难以检测丰度较低的蛋白质。生物标志物验证研究需要足够的样本,质量控制措施必须得到保证。在临床中,缺乏高度敏感性和特异性的生物标志物的实用性是复杂的。然而,这些挑战可以通过多种努力和技术进步来克服。
蛋白质组分析方法作为一种工具在研究中得到了越来越多的应用。公共领域中的蛋白质组学数据集代表了一种资源,可以从中挖掘用于精确医学的其他生物标志物。从历史上看,转录组分析比蛋白质组分析更常用于人类肿瘤标本和细胞系模型。与蛋白质所代表的广泛多样的化学不同,mRNA的共同化学促进了mRNA全球分析平台的开发,从25年前的DNA微阵列开始,后来过渡到RNA测序,这些mRNA分析平台可以很容易地在其他机构实施。相比之下,蛋白质组学通常在技术层面上更具挑战性,需要具备适当专业知识的专门实验室。两个主要的蛋白质组学平台,基于MS和RPPA,在癌症研究中使用最多。RPPA针对的是一组预定义的200-300个蛋白质特征,这组特征可能基于抗体可用性和先前确定的蛋白质与疾病的相关性。相比之下,基于MS的蛋白质组学可以分析数以万计的蛋白质。
图1突出了基于MS和RPPA蛋白质组平台之间关于可用蛋白质特征的相似性和差异。对于大量癌症细胞系,基于MS和RPPA的蛋白质组学数据已经形成并公开。在细胞系RPPA数据集上表示的154个独特基因的总蛋白特征中,142个在基于MS的数据集中表示(图1A)。基于MS的数据集表示RPPA数据集中未表示的9865个总蛋白特征。然而,仅在RPPA数据集中表示的12种蛋白质包括一些对某些癌症类型的研究特别感兴趣的蛋白质。然而,其他基于MS的乳腺肿瘤蛋白质组数据集确实包括ER和PR。类似地,使用基于MS的蛋白质组学可以检测到数千个磷酸蛋白特征,而RPPA平台无法表示这些特征。另一方面,RPPA代表基于MS的蛋白质组学可能不经常检测到的特别感兴趣的特定磷酸蛋白,包括PI3K/AKT/mTOR途径的典型途径成员。当通过各自的数据平台评估相同细胞样本中的相对蛋白质水平时,基于MS的蛋白质组学结果与RPPA的结果广泛相关(图1B)。然而,对于许多总蛋白特征,相关性水平虽然在统计学上显著,但似乎并不特别强,这可能涉及技术因素。
在最近基于MS的蛋白质组学技术取得进展之前,将蛋白质组学与其他组学平台结合在一起的癌症数据集的可用性非常有限。具有专业知识的个人实验室可以开展研究,即使在技术和可用资源方面存在局限性,也可以从基本研究的角度得出感兴趣的结果。例如,G.Chen等人的一项研究使用定量二维聚丙烯酰胺凝胶电泳分析来鉴定90例肺腺癌中682个蛋白质。在研究时,这些蛋白质组学数据的生成是非常挑战性的。在2003年的研究中,682个蛋白质中的大多数都没有按名称进行鉴定,因为鉴定步骤需要耗费大量人力。然而,作者使用质谱法鉴定了46种生存相关蛋白中的33种,对蛋白和mRNA数据的联合分析揭示了糖酵解途径的11种成分与患者的不良生存相关。上述研究代表了涉及蛋白质组学和转录组学数据集的丰富资源。然而,这些数据目前在公共领域尚不可用,因为该研究早于基于MS的蛋白质组学数据的标准数据库。
在临床蛋白质组肿瘤分析联合会牵头研究的蛋白质组学之前,癌症基因组图谱(TCGA)借助其他多组学平台生成RPPA蛋白质组学数据,其包括了32种组织病理学类型的、10000多个人类肿瘤相关数据。针对起源组织定义的个体癌症类型的研究发现了显著突变的基因、多组学平台支持的分子亚型和调控的途径。使用TCGA数据,人类肿瘤的多组分类可以揭示一致的分子亚型,RPPA数据的结果与其他数据平台的结果一致。泛癌亚型,如使用多种基于组织的癌症类型的数据定义的,在很大程度上属于现有的组织病理学分类。然而,在我们的研究中,使用替代分析方法,首先去除组织类型特异性分子差异,我们观察到跨10000个TCGA肿瘤的起源组织的泛癌亚型。我们在TCGA数据中确定了10种主要的泛癌亚型,其中相应的RPPA数据是帮助确定每个亚型的潜在途径的关键。在另一项使用TCGA数据的泛癌研究中,我们全面研究了PI3K/Akt/mTOR通路。对于我们的PI3K/Akt/mTOR研究,RPPA蛋白质组学平台非常适合,因为它包含了基于MS的蛋白质组学可能经常错过的磷酸化水平的经典途径成员。通过RPPA数据,我们能够显示DNA水平上的途径突变如何通过磷酸化在蛋白质水平上分析。
虽然RPPA数据集是TCGA研究的一个非常重要的组成部分,但RPPA平台仅代表使用基于MS的方法分析的蛋白质的一部分。CPTAC、国际癌症蛋白质组联合会(ICPC)和其他机构最近进行的蛋白质组学研究产生了基于MS的蛋白质组数据,并结合了同一组肿瘤的多组学数据。CPTAC和ICPC研究人员对各种基于组织的癌症类型进行了单独研究,将蛋白质组与基因组结合起来,通常称为蛋白质基因组学。表1列出了人类肿瘤蛋白基因组特征的选定研究的样本和数据可用性,每个研究涉及100-200个特定癌症类型的肿瘤。对于大多数肿瘤,在蛋白质水平、转录组水平、体细胞突变水平和体细胞CNA水平都有分析数据。我们通过对蛋白质水平的肿瘤与正常相邻组织的比较,进而对体细胞突变和蛋白质组拷贝数变异的功能后果进行分类,并定义肿瘤分子亚型和相关途径以及免疫细胞浸润。对于每种癌症类型,蛋白质和mRNA之间的总体相关性非常高,大多数蛋白质与mRNA具有统计上显著的相关性。
表1. 人类肿瘤蛋白基因组特征选定研究的数据展示随着越来越多的蛋白基因组学数据进入公共领域,有机会将来自个体研究的数据结合起来进行泛癌分子研究。一个结合了大量肿瘤蛋白质组学特征的泛癌队列将允许蛋白质基因组分析来识别肿瘤谱系中的共性、差异。联合性研究可以利用相对大量的肿瘤标本,标本数量的增加有助于提高统计能力和执行分析的能力。我们早期基于泛癌MS的蛋白质组学研究将532种癌症分类为10种基于蛋白质组的泛癌亚型,代表六种基于组织的类型。大多数这些基于蛋白质组的亚型反映在先前定义的基于转录组的亚类型中,但具有蛋白质组特有的其他亚型,包括以补体蛋白为特征的基于免疫的亚型和涉及高尔基体、血红蛋白复合物和内质网相关蛋白的三种其他亚型。在随后的一项研究中,我们为794名患者的七种癌症类型中的每一种定义了与较高肿瘤等级相关的差异表达蛋白和mRNA。我们假设这些等级相关的蛋白质组学相关物有助于鉴定功能性基因靶点,我们可以在子宫内膜癌细胞中体外确认MAP3K2、MASTL和TTK蛋白。
部分由于数据发布的时间安排,我们的第一项泛癌蛋白质组肿瘤亚型研究主要关注CPTAC肿瘤的蛋白质组数据,而我们的第二项检查肿瘤等级相关性的研究包括蛋白质和mRNA数据,但没有CPTAC癌症的体细胞DNA水平数据。自从我们的前两项蛋白质组学研究以来,发表了越来越多的研究,使更多的肿瘤样本图谱在公共领域中可用。在最近的一项研究中,我们收集了来自14种癌症类型和17项研究的2002年原发性肿瘤的基于MS的蛋白质组学数据的数据集。与我们的其他研究一样,我们将样本中每个蛋白质特征的表达值归一化为每个单独数据集中中值的标准偏差。通过标准化每种癌症类型和每种蛋白质组数据集内的表达,无论是组织优势差异还是实验室间批量效应都不会改变下游分析结果。2002年的肿瘤研究可以将先前报道的亚型相关和分级相关发现扩展到其他癌症类型。当将基因组与蛋白质组数据整合时,我们发现癌症相关途径的体细胞改变反映在癌症蛋白质组中,涉及通路中基因的体细胞改变的肿瘤倾向于显示更高水平的基于蛋白质的特征评分。
除我们的研究外,其他研究也使用公开的数据集进行了泛癌蛋白质组分析。正如上述研究所证明的,泛癌分子研究可以解决分子亚型以外的问题,其中新的亚型可能不会在短期内直接改变临床实践,但仍可能对肿瘤生物学产生长期影响。此外,我们将这些公共蛋白质组学数据集与UALCAN数据门户整合,允许用户查询感兴趣的蛋白质,以获得与级别或阶段的关联(http://ualcan.path.uab.edu/)。在我们最近的研究中,纳入UALCAN的基于MS的蛋白质组学数据涉及2002年的大部分人类肿瘤。常用的CBioPortal还包括CPTAC研究的MS蛋白质组数据。UALCAN和CBioPortal都有助于蛋白质搜索,因为分子生物学家和临床医生科学家通常从他们想要在公共分子数据集中查询的感兴趣基因开始。
整合来自个体研究的组学数据以开展泛癌蛋白质组学研究存在挑战和机遇。出版物需要提供原始数据集和经处理的基因逐个样本表达数据表。原始数据集可以通过PRIDE或蛋白质数据共享(PDC)等存储库提供(https://pdc.cancer.gov/),作者必须确保其他人可以轻松访问。对于大多数研究人员来说,重新处理原始数据以生成此表是不现实的。我们之前的泛癌蛋白质组学研究将每个个体数据集归一化,以便我们消除数据集之间的差异。同时,当数据集代表不同的癌症类型时,这将消除起源组织或组织病理学的差异。对于一些研究,可能需要保持这种差异不变。理想情况下,不同类型的肿瘤样本应由单个实验室统一处理,生成数据以捕获癌症类型特异性表达差异,也可能由实验室处理来自各种已发表研究的原始MS数据,从而将这些数据统一为不涉及技术批次效应的单个数据集。
癌症细胞系历来被广泛用作临床前模型系统,以获得机制和治疗见解。大多数细胞系都经历了多次传代,其分子状态可能与它们起源的原始癌症的分子状态相去甚远。体外生长的细胞缺乏体内肿瘤微环境,这在疾病中起着关键作用。这些缺点导致了更复杂的癌症模型系统的发展。另一方面,细胞系培养物在实验室环境中相对容易生长,至少在初步阶段仍被认为是一种有用的工具。与细胞系相反,来自人类肿瘤的数据代表了癌细胞和非癌细胞的混合体,在这种混合体中,有时对两者进行去卷积是一种挑战。此外,还有许多关于癌细胞系的可用数据,包括多组学数据,这是一种有用的资源。
已经有两项主要举措在多个分子数据水平上表征细胞系:癌症细胞系百科全书(CCLE)项目和癌症药物敏感性基因组学(GDSC)项目。这些举措中的每一项都涉及1000多个癌细胞系。CCLE数据包括基于RPPA和MS的平台和CRISPR敲除的蛋白质组学数据。另一方面,GDSC拥有更广泛的药物敏感性数据。在这里,我们对来自癌细胞系的蛋白质组数据进行了综合分析,以突出分子数据类型之间的关系。与人类肿瘤中报道的一样,癌细胞系中相对mRNA和蛋白质丰度水平广泛相关,但大多数基因的相关性并不特别紧密(图2A)。在癌症中,CNA广泛影响mRNA和蛋白质表达,尽管许多具有CNA mRNA相关性的基因没有显示相应的CNA蛋白质相关性(图2B)。mRNA和蛋白质之间相关性高或低的基因倾向于富集特定基因类别(图2B&C)。例如,参与细胞粘附、脂肪酸代谢和适应性免疫反应的基因往往在细胞系中的蛋白质和mRNA之间高度相关,而参与核糖体或氧化磷酸化的基因往往不太相关。
CRISPR基因敲除筛选可以在全球范围内确定哪些基因对体外细胞增殖至关重要。对于不同的癌症,不同的基因可能是必不可少的。在这篇综述中,我获得了在CCLE上进行的CRISPR分析的数据集,并使用Chronos算法进行了分析。特定细胞系中给定基因的基于DepMap算法的得分较低,表明该基因功能在该细胞系中是必不可少的。图3A展示了509个基因,其蛋白质水平具有显著相关性与基于DepMap的评分。大多数与基因依赖性的蛋白质相关性同样反映在mRNA水平上(图3A)。在表达与基因依赖性相关的基因中,相当一部分也显示了基因拷贝和基因依赖性之间的相关性(图3A)。这些关系包括典型致癌基因,如ERBB2(Her2),其中基因复制扩增导致对ERBB2敲除最敏感的细胞系中的基因过度表达(图3B)。
大多数临床批准的药物仅对人类癌症部分有效。药物半抑制浓度(IC50)是一种定量测量,表明特定癌症细胞系中药物浓度在体外抑制50%的细胞增殖达到的具体值。特定细胞系中给定药物的低IC50值表明细胞系对药物敏感;高IC50值表明细胞系对药物具有耐药性。GDSC已经为近1000个癌细胞系中的500多种药物生成了IC50数据。这些数据可用于确定药物反应的分子相关性。例如,GDSC IC50数据可与细胞系分子数据相结合,以确定药物再利用的候选对象。大多数药物都有一个或多个相关的靶基因。这些靶基因可以通过设计被药物直接靶向,或者可以代表药物可能干扰的过程。
图4A表示GDSC中666个基因靶点:药物IC50关系,显示了药物IC50值与基因靶点表达之间的相关模式,还展示了药物IC50值与基因靶向依赖水平之间的相关性。IC50和基因靶表达之间的负相关表明具有较高基因表达的细胞系倾向于对药物敏感,而IC50和基于DepMap的评分之间的正相关表明最容易被基因靶敲除的细胞系趋向于药物敏感。正如对这些靶基因的预期,与相关药物IC50的最具统计学意义的表达相关性往往是负的,而涉及依赖性基因得分的最具统计意义的相关性往往是正的(图4B)。由于某些药物的样本数量有限,缺乏预期的观察相关性可能代表假阴性。与mRNA数据相比,具有可用的基于MS的蛋白质组数据的细胞系更少,这在观察蛋白质缺乏相关性时也可能是一个问题。从最初的666个基因靶点、药物IC50关系来看,60个分组显示出药物IC50值与mRNA水平、基于MS的蛋白质水平和DepMap评分之间的显著相关性(图4B)。例如,这一亚群中的基因和药物,涉及BCL2、EGFR(HER1)、ERBB2(HER2)、PI3K和FGFR,在生物学和癌基因成瘾的理解方面是有意义的。
图4. 药物敏感性与癌细胞系中其基因靶标表达的相关性
(A)对于666个基因靶标与药物IC50的关系来说,每种关系都涉及了靶向特定基因的药物,热图表示基因靶标mRNA表达与药物IC50值之间、基因靶标蛋白的表达与药物IC 50值之间、基因靶向依赖的水平与药物IC50值之间的Pearson相关性。IC50和基因靶标表达之间的负相关现象表明,基因表达较高的细胞系往往对药物更加敏感。IC50和基于DepMap评分之间的正相关现象表明,最容易被基因靶敲除的细胞系更趋向于对药物的敏感。虽然许多药物只是在一小部分的细胞系进行了评估和论证,但是该结果涉及了963个同时具有mRNA和IC50数据的癌症细胞系,293个同时具有基于MS的蛋白质组学和IC50数据的细胞系,以及576个同时含有DepMap和IC50信息的细胞系。666基因靶点与药物的关系是基于GDSC1数据集得来的;(B)从a部分所示的666基因靶标与药物IC50关系中可以看出,60显示的是药物IC50值与mRNA水平、基于MS的蛋白质水平和DepMap评分之间的显著相关性。60个基因靶点与药物IC50的关系按照名称列出,P值是双侧检测得出的,Pearson相关性基于对数变换值得出。mRNA表示信使RNA。
总结
https://analyticalsciencejournals.onlinelibrary.wiley.com/doi/full/10.1002/mas.21827?saml_referrer
----------微科盟更多推荐----------
科研 |BMC Microbiol:iTRAQ蛋白质组学分析揭示耐辐射奇球菌对12C6+重离子辐照的响应
综述(IF:13.068)|J Intern Med:肾脏疾病及其诊断的复杂性—胱抑素C、选择性肾小球低滤过综合征和蛋白质组调节
如果需要原文pdf,请扫描文末二维码领取
请关注下方公众号
了解更多蛋白质组知识