科研 |国家蛋白质科学中心:肝细胞癌细胞系的蛋白质组学分析和谱库生成(国人佳作)
生科云网址:https://www.bioincloud.tech/
编译:微科盟-Paula,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读肝癌是全世界第六大常见癌症,对肝细胞癌(HCC)细胞系建立全面的蛋白质组学分析及谱库以应用于数据非依赖性采集(data independent acquisition, DIA)量化对于研究肝癌的发生发展及潜在治疗靶点的研发具有重要意义。本文介绍了9种常用的HCC细胞系的蛋白质组,其中涵盖9208个蛋白质组,HCC谱库包含253,921个前体,168,811个肽和10,098个蛋白质组。蛋白质组学概述揭示了不同细胞系之间的异质性,以及肿瘤组织在增殖转移特征和药物靶点表达方面的相似性。HCC谱库支持对HepG2的7,637个三组蛋白组进行2小时DIA分析,以揭示其生物学变化。总之,本研究为利用LC-Orbitrap平台对HCC细胞株和DIA进行高效定量提供了重要资源,有助于进一步探索HCC的分子机制和候选治疗靶点。
论文ID
原名:Proteomic overview of hepatocellular carcinoma cell lines and generation of the spectral library译名:肝细胞癌细胞系的蛋白质组学分析和谱库生成期刊:Scientific dataIF:8.501发表时间:2022.11通讯作者:应万涛、徐平通讯作者单位:北京生命组学研究所,国家蛋白质科学中心(北京),北京蛋白质组研究中心,蛋白质组学国家重点实验室
实验设计
实验结果
肝癌是全世界第六大常见癌症,其中肝细胞癌(Hepatocellular carcinoma, HCC)约占所有原发性肝癌的90%。对HCC蛋白质组学的研究扩展了目前对其分子基础的认知。基于BCLC 0-A期肝细胞癌患者的无标记蛋白质组学数据,我们定义了三个亚型,并发现SOAT1是一个潜在的治疗靶点。Gao等人通过基于等压串联质谱标签(Tandem mass tag, TMT)的蛋白质组学方法确定了HCC患者的肿瘤特征,并确定了两种预后生物标志物——PYCR2和ADH1A4。癌细胞系是肿瘤生物学和治疗方法开发中应用最广泛的模型系统,因此,在蛋白质组水平上的清晰认识有助于我们更好地利用肝癌细胞系分析分子机制和筛选抗肿瘤药物。2014年,Megger, D.等人对HepG2、Hep3B和SK-Hep-1混合蛋白组进行了无标记分析,鉴定出2757个蛋白组和13744个肽。2020年,基于TMT的蛋白质组学分析了《Cancer cell Line Encyclopedia》中375个细胞系的蛋白质组,但未覆盖HepG2.2.15、PLC/PRF/5、MHCC97L、MHCC97H、HCCLM3和HCCLM67等常用HCC细胞系。最近,Goncalves, E.等人通过数据非依赖性采集(data independent acquisition, DIA)方法从949个细胞系中鉴定出8497个蛋白组,从Huh7中鉴定出5302个蛋白组,从Hep3B中鉴定出5589个蛋白组。然而,HCC细胞系在蛋白质组水平上是相同的还是异质的尚不明确。同时,HCC细胞系是否在蛋白质组水平上代表原发性肝癌肿瘤仍不清楚。因此,对HCC细胞系的蛋白质组学特征及其与原发性肝癌肿瘤的比较仍有必要进行系统的探索。
整体实验设计如表1、图1所示。培养9株HCC细胞株,提取总蛋白裂解物,胰酶消化成多肽。采用高pH反相肽分离法(Hp-RP)将每个细胞系的多肽预分至6个组分,采用DDA模式进行液相色谱-串联质谱(LC-MS/MS)分析(表1)。获得的原始文件通过MaxQuant 2.0.3.0版本进行数据库检索。然后进行基因本体(Gene Ontology, GO)和单样本基因富集分析(single sample gene set enrichment analysis, ssGSEA)。HCC谱库的生成:分别采用Hp-RP对HCC细胞系或肿瘤组织的肽进行混合和分离,然后采用LC-MS/MS进行分析(表1)。获得的文件通过MaxQuant2.0.3.0版本进行数据库检索,并将检索结果导入到SpectronautTM (15.2版本, Biognosys AG, Switzerland)(图1),生成谱库,该谱库可用于SpectronautTM版本15.2和DIA- NN 1.8版本进行DIA定量。
表1. 样品概述样品名称,高pH反相预分馏后的馏分数和实验重复次数1. 肝癌细胞系的蛋白质组学分析
从9个HCC细胞系的162个肽片段中,累计鉴定出9208个蛋白组(图2a),其中61.5%均在9个HCC细胞系中检测到(图2b)。这些蛋白质组对应于160,042个肽,97%的蛋白质组至少有两个独特的肽(图2c)。每个细胞系重复3次具有较高的定量重复性(每个细胞系重复3次之间的Pearson相关系数大于等于0.95,图2d)。所有HCC细胞株与其他细胞株具有相似性(Pearson相关系数大于等于0.8), MHCC97L、MHCC97H、HCCLM3、HCCLM6细胞株之间具有较高的一致性, HepG2细胞株与HepG2.2.15细胞株之间具有较高的一致性(Pearson相关系数大于等于0.9)。与Goncalves, E.等和Nusinow, D.P.等报道的数据相比,我们的蛋白质组学数据还识别出HepG2、Hep3B和Huh7中的1800、896和911个蛋白质组(图2e)。
在细胞系和人体组织中,蛋白质组和转录组之间的相关性很低。比较5种HCC细胞系(Hep3B、HepG2、Huh7、MHCC97H和GSE9709829中的PLC/PRF/5)的转录组和蛋白质组,我们也发现蛋白质组和转录组之间的一致性较差:Pearson相关系数平均值为0.34;37.2%的蛋白质组与其转录组表现出高度一致性(Pearson相关系数大于0.6),包括胆固醇代谢的两个核心分子SOAT1和NPC1,以及HCC31的重要生物标志物AFP和癌症增殖和转移相关的酪氨酸蛋白激酶SRC。但我们也发现9.4%的蛋白质组与其转录组呈负相关(Pearson相关系数小于−0.4),其中包括DOCK6(一种可以促进癌症化疗和放射抗性的分子)和YTHDF1 (m6A甲基化的关键调节因子)(图2f)。这种低相关性可能是由于蛋白质组和转录组的归一化策略不同,也可能是由多种生物学因素造成的,包括mRNA降解率、核糖体结合率、核糖体密度、密码子使用偏好性、蛋白质周转率、翻译后修饰变异、异构体间肽共享、低丰度蛋白等。蛋白质组和转录组之间存在的不一致性表明对这些细胞系进行蛋白质组分析的必要性。
2. 肝癌细胞系的蛋白质组学特征
MHCC97L、MHCC97H、HCCLM3、HCCLM6之间,以及HepG2和HepG2.2.15之间的通路ssGSEA评分一致性较高(图3a)。MHCC97L、MHCC97H、HCCLM3、HCCLM6来源于同一祖细胞系MHCC9736, HepG2.2.15则来源于HepG2,具有稳定的HBV DNA37特征。基于通路ssGSEA评分的主成分分析在由主成分1(52.4%)和主成分2(16.4%)组成的二维平面上显示:MHCC97L、MHCC97H、HCCLM3和HCCLM6几乎重叠,与主成分1的其他细胞株距离较远;Hep3B和PLC/PRF/5主成分2距离最大(图3b)。主成分1中包括肌动蛋白骨架、VEGF信号通路、局灶粘附在内的通路变化很大;主成分2中细胞周期、RNA降解和剪接体变化很大(图3c)。此外,我们发现每个细胞系都有其独特的富集通路。癌症相关通路如Wnt信号通路、细胞周期和TGF β信号通路在不同的HCC细胞系中异质性富集(图3d)。在构建细胞模型进行靶标验证之前应考虑这些异质性。
3. 癌细胞系保留了HCC组织的肿瘤特征
我们发现仅在HCC细胞系中表达的1508个蛋白组在细胞周期中富集,它们通过Rho GTPases、着丝粒、染色体和DNA修复进行信号传递,而在组织中唯一表达的1552个蛋白组在细胞外基质、补体和血液中富集,这表明培养的HCC细胞系与组织之间的一个主要差异是缺乏细胞外微环境(图4a,b)。相对于正常邻近组织(NAT), HCC细胞系和肿瘤组织的表达变化具有高度相关性(Pearson相关系数等于0.7,图4c)。详细的通路富集分析显示,所有HCC细胞株均保留了HCC的增殖和转移能力,而MCC97L、MHCC97H、HCCLM3和HCCLM6完全丧失了与肝脏代谢相关的功能,提示HCC细胞株可能是HCC中更多的肿瘤亚型(图4d)。Jiang等人发现21个候选药物靶点,其中15个在这些细胞系中被检测到,但表达特征不同:涉及增殖的药物靶点HDAC2、CDK1、CDK2、CSNK1D在9个HCC细胞系中均高表达,而GPC3仅在HepG2.2.15、Huh7和PLC/PRF/5中被检测到。涉及代谢的药物靶点ALDHA8A1、PKM、SLC16A3、NPC1和SOAT1在9种HCC细胞系中均高表达。涉及转移的药物靶点包括SRC、PLOD2和P4HA2也在所有HCC 9个细胞系中检测到,MMP14仅在HepG2和HepG2.2.15中低表达,TGFB1在HCCLM3中表达最高(图4e)。
4. HCC谱库的性质
我们生成了一个涵盖来自HCC细胞系和肿瘤组织的蛋白质组的HCC谱库,以支持DIA量化。我们计算了9株HCC细胞系不同数目(2 ~ 8)组合的覆盖蛋白组数。对于具有特定数量的组合,选择具有最大覆盖蛋白组数的组合。我们发现HCCLM3、HepG2和PLC/PRF/5三种HCC细胞系组合所覆盖的蛋白组数量可以覆盖所有9种HCC细胞系所覆盖的蛋白组的97%(图5a)。因此,将HCCLM3、HepG2和PLC/PRF/5的多肽混合并用于谱库生成。HCC肿瘤组织的肽混合物也用于谱库生成。用Figshare生成的HCC谱库包含253,921个前体,168,811个修饰肽(156,519个肽,其中150,327个肽为蛋白型)和10,098个蛋白组,其中约14.5%的蛋白组由HCC细胞系数据由依赖性采集技术(data dependent acquisition,DDA)文件提供,而17.7%的蛋白组仅由肿瘤组织的DDA文件提供(图5b)。大约94%的前体具有6个片段离子(图5c),前驱体荷态为+ 1 ~ + 7,其中的97%在+ 2 ~ + 4之间(图5d)。每个蛋白质组中具有超过2个独特肽的蛋白质组构成了谱库中蛋白质组的95%(图5e)。对翻译后修饰的统计发现,36741个肽(21.76%)在蛋白质的N端发生了氨基甲基修饰,2256个肽(1.34%)在蛋白质的N端发生了乙酰基修饰,12618个肽(7.46%)在甲硫氨酸残基上发生了氧化修饰(图5f)。与已报道的Pan human library和DPHL library相比,我们发现HCC谱库只覆盖了515个蛋白质基团和42,834个肽(图5g)。
5. HCC谱库用于DIA分析的适用性
利用HCC谱库和优化LC-MS/MS44参数的DIA- NN 1.8版本,对HepG2多肽进行2小时DIA分析,共鉴定出7637个蛋白质组和82243个多肽,其中94.2%和73.4%的蛋白质组被三次定量。同时,SpectronautTM15.2版本从相同的原始文件中鉴定出6845个蛋白质组和73599个肽,其中的95.7%和69.6%被三次定量(图6a)。采用DIA-NN 1.8版本和SpectronautTM15.2版本分析的重复实验之间具有较高的定量重现性(Pearson相关系数大于0.9,图6b)。然后我们分析了由HCCLM3驱动的实验模式,发现EMT45的主要启动CDH1信号下调,THBS146和CDH647上调,后两种蛋白的上调分别代表了DIAA - NN 1.8版本和SpectronautTM15.2版本对EMT的激活(图6c)。在TGFB1诱导上调的121个蛋白组中,有26个被Molecular Signatures Database v7.5.1标注为EMT标记成员,并进一步定义为TGFB1诱导的EMT基因集(图6c)。基于该基因集,我们使用ssGSEA算法计算了Jiang等人的队列中每个患者的TGFB1-EMT评分。S-III肿瘤患者的TGFB1-EMT评分显著高于(P<0.0001) S-I或S-II(图6d)。根据TGFB1-EMT评分,将101例患者分为TGFB1-EMT高组(n = 14)和TGFB1-EMT低组(n = 87)。TGFB1 - EMT高组5年总生存率明显低于TGFB1 - EMT低组(总生存率:64.3% (95%CI: 43.5%~95.0%) vs 84.0% (95%CI: 74.4%~94.8%),log-rank P值= 0.0048;TGFB1 - EMT高组与TGFB1 - EMT低组的HR为4.28 (95% CI: 1.43~12.8),P值= 0.0093(图6e)。这些结果提示TGFB1诱导的EMT与早期HCC患者预后不良密切相关。
https://doi.org/10.1038/s41597-022-01845-x
----------微科盟更多推荐----------
综述(IF:12.771)|J. Biomed. Sci:肿瘤免疫微环境的空间多组学分析(国人佳作)
科研(IF:66.850) |Cell:远交系褐色脂肪蛋白质组的结构定义了代谢生理学的调节因子
如果需要原文pdf,请扫描文末二维码领取
请关注下方公众号
了解更多蛋白质组知识