科研 |国家蛋白质科学中心：肝细胞癌细胞系的蛋白质组学分析和谱库生成（国人佳作）

蛋白质组 2023-06-07

点击蓝字“蛋白质组”,轻松关注不迷路

生科云网址：https://www.bioincloud.tech/

编译：微科盟-Paula，编辑：微科盟Emma、江舜尧。

微科盟原创微文，欢迎转发转载。

导读

肝癌是全世界第六大常见癌症，对肝细胞癌(HCC)细胞系建立全面的蛋白质组学分析及谱库以应用于数据非依赖性采集(data independent acquisition, DIA)量化对于研究肝癌的发生发展及潜在治疗靶点的研发具有重要意义。本文介绍了9种常用的HCC细胞系的蛋白质组，其中涵盖9208个蛋白质组，HCC谱库包含253,921个前体，168,811个肽和10,098个蛋白质组。蛋白质组学概述揭示了不同细胞系之间的异质性，以及肿瘤组织在增殖转移特征和药物靶点表达方面的相似性。HCC谱库支持对HepG2的7,637个三组蛋白组进行2小时DIA分析，以揭示其生物学变化。总之，本研究为利用LC-Orbitrap平台对HCC细胞株和DIA进行高效定量提供了重要资源，有助于进一步探索HCC的分子机制和候选治疗靶点。

论文ID

原名：Proteomic overview of hepatocellular carcinoma cell lines and generation of the spectral library译名：肝细胞癌细胞系的蛋白质组学分析和谱库生成期刊：Scientific dataIF：8.501发表时间：2022.11通讯作者：应万涛、徐平通讯作者单位：北京生命组学研究所，国家蛋白质科学中心(北京)，北京蛋白质组研究中心，蛋白质组学国家重点实验室

实验设计

实验结果

肝癌是全世界第六大常见癌症，其中肝细胞癌(Hepatocellular carcinoma, HCC)约占所有原发性肝癌的90%。对HCC蛋白质组学的研究扩展了目前对其分子基础的认知。基于BCLC 0-A期肝细胞癌患者的无标记蛋白质组学数据，我们定义了三个亚型，并发现SOAT1是一个潜在的治疗靶点。Gao等人通过基于等压串联质谱标签(Tandem mass tag, TMT)的蛋白质组学方法确定了HCC患者的肿瘤特征，并确定了两种预后生物标志物——PYCR2和ADH1A4。癌细胞系是肿瘤生物学和治疗方法开发中应用最广泛的模型系统，因此，在蛋白质组水平上的清晰认识有助于我们更好地利用肝癌细胞系分析分子机制和筛选抗肿瘤药物。2014年，Megger, D.等人对HepG2、Hep3B和SK-Hep-1混合蛋白组进行了无标记分析，鉴定出2757个蛋白组和13744个肽。2020年，基于TMT的蛋白质组学分析了《Cancer cell Line Encyclopedia》中375个细胞系的蛋白质组，但未覆盖HepG2.2.15、PLC/PRF/5、MHCC97L、MHCC97H、HCCLM3和HCCLM67等常用HCC细胞系。最近，Goncalves, E.等人通过数据非依赖性采集(data independent acquisition, DIA)方法从949个细胞系中鉴定出8497个蛋白组，从Huh7中鉴定出5302个蛋白组，从Hep3B中鉴定出5589个蛋白组。然而，HCC细胞系在蛋白质组水平上是相同的还是异质的尚不明确。同时，HCC细胞系是否在蛋白质组水平上代表原发性肝癌肿瘤仍不清楚。因此，对HCC细胞系的蛋白质组学特征及其与原发性肝癌肿瘤的比较仍有必要进行系统的探索。

整体实验设计如表1、图1所示。培养9株HCC细胞株，提取总蛋白裂解物，胰酶消化成多肽。采用高pH反相肽分离法(Hp-RP)将每个细胞系的多肽预分至6个组分，采用DDA模式进行液相色谱-串联质谱(LC-MS/MS)分析(表1)。获得的原始文件通过MaxQuant 2.0.3.0版本进行数据库检索。然后进行基因本体(Gene Ontology, GO)和单样本基因富集分析（single sample gene set enrichment analysis, ssGSEA）。HCC谱库的生成：分别采用Hp-RP对HCC细胞系或肿瘤组织的肽进行混合和分离，然后采用LC-MS/MS进行分析(表1)。获得的文件通过MaxQuant2.0.3.0版本进行数据库检索，并将检索结果导入到SpectronautTM (15.2版本, Biognosys AG, Switzerland)(图1)，生成谱库，该谱库可用于SpectronautTM版本15.2和DIA- NN 1.8版本进行DIA定量。

表1. 样品概述样品名称，高pH反相预分馏后的馏分数和实验重复次数

图1.九种HCC细胞系的蛋白质组学分析和HCC谱库生成的工作流程对9株HCC细胞株进行蛋白提取和胰蛋白酶消化。采用Hp-RP预分离多肽，采用DDA模式进行LC-MS/MS分析。利用MaxQuant 2.0.3.0版本对获得的162个原始文件进行再次检索，然后进行GO)和ssGSEA分析。为了生成HCC谱库，先将HCC细胞系混合物或肿瘤组织混合物的多肽进行预分离，然后采用DDA模式进行LC-MS/MS分析。将获得的48个原始文件通过MaxQuant 2.0.3.0版本对蛋白质数据库进行再次检索，并将检索结果导入到Spectronaut^TM15.2版本中生成HCC谱库。HCC谱库可用于Spectronaut^TM15.2版本和DIA- NN 1.8版本的DIA定量。

1. 肝癌细胞系的蛋白质组学分析

从9个HCC细胞系的162个肽片段中，累计鉴定出9208个蛋白组(图2a)，其中61.5%均在9个HCC细胞系中检测到(图2b)。这些蛋白质组对应于160,042个肽，97%的蛋白质组至少有两个独特的肽(图2c)。每个细胞系重复3次具有较高的定量重复性(每个细胞系重复3次之间的Pearson相关系数大于等于0.95，图2d)。所有HCC细胞株与其他细胞株具有相似性(Pearson相关系数大于等于0.8)， MHCC97L、MHCC97H、HCCLM3、HCCLM6细胞株之间具有较高的一致性， HepG2细胞株与HepG2.2.15细胞株之间具有较高的一致性(Pearson相关系数大于等于0.9)。与Goncalves, E.等和Nusinow, D.P.等报道的数据相比，我们的蛋白质组学数据还识别出HepG2、Hep3B和Huh7中的1800、896和911个蛋白质组(图2e)。

在细胞系和人体组织中，蛋白质组和转录组之间的相关性很低。比较5种HCC细胞系(Hep3B、HepG2、Huh7、MHCC97H和GSE9709829中的PLC/PRF/5)的转录组和蛋白质组，我们也发现蛋白质组和转录组之间的一致性较差:Pearson相关系数平均值为0.34；37.2%的蛋白质组与其转录组表现出高度一致性(Pearson相关系数大于0.6)，包括胆固醇代谢的两个核心分子SOAT1和NPC1，以及HCC31的重要生物标志物AFP和癌症增殖和转移相关的酪氨酸蛋白激酶SRC。但我们也发现9.4%的蛋白质组与其转录组呈负相关(Pearson相关系数小于−0.4)，其中包括DOCK6(一种可以促进癌症化疗和放射抗性的分子)和YTHDF1 (m⁶A甲基化的关键调节因子)(图2f)。这种低相关性可能是由于蛋白质组和转录组的归一化策略不同，也可能是由多种生物学因素造成的，包括mRNA降解率、核糖体结合率、核糖体密度、密码子使用偏好性、蛋白质周转率、翻译后修饰变异、异构体间肽共享、低丰度蛋白等。蛋白质组和转录组之间存在的不一致性表明对这些细胞系进行蛋白质组分析的必要性。

图2. 肝癌细胞系的蛋白质组分析(a) 9株HCC细胞株鉴定的蛋白组数。累积曲线在顶部以灰色显示。(b)条形图表示在不同数量的HCC细胞株中检测到的蛋白组数。(c)条形图显示具有不同多肽数量的蛋白质组的数量。(d)热图显示了9种HCC细胞系的Pearson相关系数。(e)维恩图显示了与Nusinow, D.P.等人和Gonçalves, E . 等人的报道相比，本研究中识别的蛋白质组。(f)密度图显示了5种HCC细胞系蛋白质组-转录组的相关性分布。不同的Pearson相关系数范围用不同的颜色表示。图中标注有代表性的蛋白质。

2. 肝癌细胞系的蛋白质组学特征

MHCC97L、MHCC97H、HCCLM3、HCCLM6之间，以及HepG2和HepG2.2.15之间的通路ssGSEA评分一致性较高(图3a)。MHCC97L、MHCC97H、HCCLM3、HCCLM6来源于同一祖细胞系MHCC9736, HepG2.2.15则来源于HepG2，具有稳定的HBV DNA37特征。基于通路ssGSEA评分的主成分分析在由主成分1(52.4%)和主成分2(16.4%)组成的二维平面上显示:MHCC97L、MHCC97H、HCCLM3和HCCLM6几乎重叠，与主成分1的其他细胞株距离较远；Hep3B和PLC/PRF/5主成分2距离最大(图3b)。主成分1中包括肌动蛋白骨架、VEGF信号通路、局灶粘附在内的通路变化很大；主成分2中细胞周期、RNA降解和剪接体变化很大(图3c)。此外，我们发现每个细胞系都有其独特的富集通路。癌症相关通路如Wnt信号通路、细胞周期和TGF β信号通路在不同的HCC细胞系中异质性富集(图3d)。在构建细胞模型进行靶标验证之前应考虑这些异质性。

图3. 基于蛋白质组的HCC细胞系通路概述(a) HCC细胞系通路ssGSEA评分的Pearson相关系数。(b)主成分分析结果由主成分1和主成分2组成的二维平面显示，其中9种肝癌细胞系用不同颜色表示。(c)热图为主成分1和主成分2通路改变的归一化ssGSEA评分。(d)热图显示每个HCC细胞系中唯一富集通路的归一化ssGSEA评分。

3. 癌细胞系保留了HCC组织的肿瘤特征

我们发现仅在HCC细胞系中表达的1508个蛋白组在细胞周期中富集，它们通过Rho GTPases、着丝粒、染色体和DNA修复进行信号传递，而在组织中唯一表达的1552个蛋白组在细胞外基质、补体和血液中富集，这表明培养的HCC细胞系与组织之间的一个主要差异是缺乏细胞外微环境(图4a,b)。相对于正常邻近组织(NAT)， HCC细胞系和肿瘤组织的表达变化具有高度相关性(Pearson相关系数等于0.7，图4c)。详细的通路富集分析显示，所有HCC细胞株均保留了HCC的增殖和转移能力，而MCC97L、MHCC97H、HCCLM3和HCCLM6完全丧失了与肝脏代谢相关的功能，提示HCC细胞株可能是HCC中更多的肿瘤亚型(图4d)。Jiang等人发现21个候选药物靶点，其中15个在这些细胞系中被检测到，但表达特征不同:涉及增殖的药物靶点HDAC2、CDK1、CDK2、CSNK1D在9个HCC细胞系中均高表达，而GPC3仅在HepG2.2.15、Huh7和PLC/PRF/5中被检测到。涉及代谢的药物靶点ALDHA8A1、PKM、SLC16A3、NPC1和SOAT1在9种HCC细胞系中均高表达。涉及转移的药物靶点包括SRC、PLOD2和P4HA2也在所有HCC 9个细胞系中检测到，MMP14仅在HepG2和HepG2.2.15中低表达，TGFB1在HCCLM3中表达最高(图4e)。

图4. HCC细胞系相对于肿瘤和NAT的分子特征(a)维恩图显示了仅在细胞系中(橙色)、仅在组织中(蓝色)以及在细胞系和组织中(黑色)均识别出的蛋白质组的数量。(b)仅在细胞系(橙色)或仅在组织(蓝色)中鉴定的GO蛋白富集。(c)肿瘤组织与NAT和细胞系与NAT之间log2转换折叠变化的一致性。(d)热图显示了代表性癌症相关通路中蛋白质的归一化丰度。(e)在组织和HCC细胞系中表达的药物靶点蛋白丰度。

4. HCC谱库的性质

我们生成了一个涵盖来自HCC细胞系和肿瘤组织的蛋白质组的HCC谱库，以支持DIA量化。我们计算了9株HCC细胞系不同数目(2 ~ 8)组合的覆盖蛋白组数。对于具有特定数量的组合，选择具有最大覆盖蛋白组数的组合。我们发现HCCLM3、HepG2和PLC/PRF/5三种HCC细胞系组合所覆盖的蛋白组数量可以覆盖所有9种HCC细胞系所覆盖的蛋白组的97%(图5a)。因此，将HCCLM3、HepG2和PLC/PRF/5的多肽混合并用于谱库生成。HCC肿瘤组织的肽混合物也用于谱库生成。用Figshare生成的HCC谱库包含253,921个前体，168,811个修饰肽(156,519个肽，其中150,327个肽为蛋白型)和10,098个蛋白组，其中约14.5%的蛋白组由HCC细胞系数据由依赖性采集技术(data dependent acquisition,DDA)文件提供，而17.7%的蛋白组仅由肿瘤组织的DDA文件提供(图5b)。大约94%的前体具有6个片段离子(图5c)，前驱体荷态为+ 1 ~ + 7，其中的97%在+ 2 ~ + 4之间(图5d)。每个蛋白质组中具有超过2个独特肽的蛋白质组构成了谱库中蛋白质组的95%(图5e)。对翻译后修饰的统计发现，36741个肽(21.76%)在蛋白质的N端发生了氨基甲基修饰，2256个肽(1.34%)在蛋白质的N端发生了乙酰基修饰，12618个肽(7.46%)在甲硫氨酸残基上发生了氧化修饰(图5f)。与已报道的Pan human library和DPHL library相比，我们发现HCC谱库只覆盖了515个蛋白质基团和42,834个肽(图5g)。

图5. HCC谱库概述(a) HCC细胞系不同组合蛋白组的最大识别数量。从N1到N9是不同数量的细胞系(从1到9)的组合。将三个细胞系HCCLM3、HepG2和PLC/PRF/5鉴定的蛋白数量组合起来，可以覆盖9个HCC细胞系中鉴定的97%的蛋白组，该组合在图中用红色表示。(b)从HCC细胞系(橙色)或肿瘤组织(蓝色)鉴定出的HCC谱库中蛋白质组的数量。(c)条形图以每个前体的片段数表示前体的数量。(d)条形图表示前驱体的电荷状态。(e)条形图以每个蛋白质组的多肽数表示蛋白质组数。(f)维恩图表示不同修饰肽的数量。(g)HCC谱库覆盖的蛋白组和多肽与Pan Human library和DPHL library之间的比较。只由HCC谱库覆盖的蛋白质组和多肽用红色表示

5. HCC谱库用于DIA分析的适用性

利用HCC谱库和优化LC-MS/MS44参数的DIA- NN 1.8版本，对HepG2多肽进行2小时DIA分析，共鉴定出7637个蛋白质组和82243个多肽，其中94.2%和73.4%的蛋白质组被三次定量。同时，Spectronaut^TM15.2版本从相同的原始文件中鉴定出6845个蛋白质组和73599个肽，其中的95.7%和69.6%被三次定量(图6a)。采用DIA-NN 1.8版本和Spectronaut^TM15.2版本分析的重复实验之间具有较高的定量重现性(Pearson相关系数大于0.9，图6b)。然后我们分析了由HCCLM3驱动的实验模式，发现EMT45的主要启动CDH1信号下调，THBS146和CDH647上调，后两种蛋白的上调分别代表了DIAA - NN 1.8版本和Spectronaut^TM15.2版本对EMT的激活(图6c)。在TGFB1诱导上调的121个蛋白组中，有26个被Molecular Signatures Database v7.5.1标注为EMT标记成员，并进一步定义为TGFB1诱导的EMT基因集(图6c)。基于该基因集，我们使用ssGSEA算法计算了Jiang等人的队列中每个患者的TGFB1-EMT评分。S-III肿瘤患者的TGFB1-EMT评分显著高于(P<0.0001) S-I或S-II(图6d)。根据TGFB1-EMT评分，将101例患者分为TGFB1-EMT高组(n = 14)和TGFB1-EMT低组(n = 87)。TGFB1 - EMT高组5年总生存率明显低于TGFB1 - EMT低组(总生存率:64.3% (95%CI: 43.5%~95.0%) vs 84.0% (95%CI: 74.4%~94.8%)，log-rank P值= 0.0048；TGFB1 - EMT高组与TGFB1 - EMT低组的HR为4.28 (95% CI: 1.43~12.8)，P值= 0.0093(图6e)。这些结果提示TGFB1诱导的EMT与早期HCC患者预后不良密切相关。

图6. HCC谱库在DIA定量中的表现(a)维恩图显示，在DIA- NN 1.8版本和Spectronaut^TM15.2版本的DIA定量中，鉴定出的HepG2蛋白组和多肽重叠。R1、R2、R3代表三个独立的重复实验。(b)热图显示了DIA-NN 1.8版本与Spectronaut^TM15.2版本之间蛋白质丰度的Pearson相关系数。R1、R2、R3代表三个独立的重复实验。(c)基于HCC谱库的DIA-NN 1.8版本和Spectronaut^TM15.2版本鉴定，用火山图显示HCCLM3和TGFB1诱导的HCCLM3之间不同表达的蛋白群。TGFB1刺激后上调的蛋白用绿色表示，下调的蛋白用蓝色表示。EMT相关蛋白用黑色字体标记，用红色图形标记。(d)箱线图显示早期HCC亚型中TGFB1-EMT评分的分布。在箱形图中，中间的柱状图表示中位数，方框表示四分位范围;条形延伸到1.5 ×四分位范围。(S-I,蓝色;S-II,橙色;S-III,红色)。Wilcox检验的P值标注在最上方。(e) TGFB1-EMT高组(n = 14，红色)和低组(n = 87，绿色)患者5年总生存期曲线。图中标注了log-rank检验的p值、HR及其95%置信区间(HR (95% CI))和p值。

原文链接：

https://doi.org/10.1038/s41597-022-01845-x

----------微科盟更多推荐----------

综述（IF:12.771）|J. Biomed. Sci:肿瘤免疫微环境的空间多组学分析(国人佳作)

科研（IF:66.850） |Cell：远交系褐色脂肪蛋白质组的结构定义了代谢生理学的调节因子

如果需要原文pdf，请扫描文末二维码领取

请关注下方公众号

了解更多蛋白质组知识

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

科研 |国家蛋白质科学中心：肝细胞癌细胞系的蛋白质组学分析和谱库生成（国人佳作）

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

科研 |国家蛋白质科学中心：肝细胞癌细胞系的蛋白质组学分析和谱库生成（国人佳作）

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡