科研 |复旦大学:用于颅内动脉瘤及其破裂风险分级的循环蛋白质组学(国人佳作)
编译:微科盟-三金,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读近年来,颅内动脉瘤(IA)的患病率逐年增加,其破裂的后果非常严重。本研究旨在揭示用于诊断和分类破裂和未破裂IA的特异性、敏感性和非侵入性生物标志物,以利于开发改变疾病进程的新治疗策略和疗法。我们首先根据在当前组织和血清蛋白质组分析中发现改变的蛋白及以前的研究,构建了一个广泛的IA候选生物标志物库,其中包含多达717种蛋白。使用我们提出的基于深度学习的方法(称为DeepPRM)有效设计了数百种生物标志物的质谱分析。在血清队列I (n=212)和II(n=32)中进一步定量了共113个潜在标志物。结合基于深度学习的流程,我们构建了两组生物标志物组合(P6和P8)以准确区分IA与健康对照(准确率:87.50%)或外部验证集(n=32)。这项广泛的循环生物标志物开发研究提供了有关IA生物标志物的宝贵知识。
本研究构建了一个综合的基于质谱的蛋白质组学策略,用于发现颅内动脉瘤(IA)的血清蛋白生物标志物。
·提出的工作流程集成了当前的蛋白质组研究和以前报道的研究结果,产生了一个全面的IA血清蛋白生物标志物库。
·提出了一种高效、省时的PRM检测方法(DeepPRM),以促进大规模候选蛋白的靶向定量。
·血清蛋白质组的机器学习区分IA与健康对照的准确率为87.50%,破裂IA与未破裂IA的准确率为91.67%。
论文ID
原名:Circulating proteomic panels for risk stratification of intracranialaneurysm and its rupture译名:用于颅内动脉瘤及其破裂风险分级的循环蛋白质组学期刊:EMBO Molecular MedicineIF:12.137
发表时间:2022.02通讯作者:刘晓慧 & 冷冰
通讯作者单位:复旦大学、上海市第五人民医院、上海市医学表观遗传学重点实验室、医学表观遗传学与代谢国际合作实验室、科技部复旦大学生物医学研究院;上海复旦大学华山医院
实验设计
实验结果
本研究的总体设计如图1所示。在发现阶段,通过基于LC-MS/MS的无标记定量(LFQ)分析了来自IA患者的IA组织和匹配的颞浅动脉(STA)组织的重量约0.83-2 mg的样本。将获得的STA组织作为对照组织样本(图2A)。过程中共鉴定出5915种蛋白质,其中5677种蛋白质在蛋白质FDR<1%时被定量。两组内和组间LFQ强度的可重复性和相关系数见图1A,B。与匹配的STA组织相比,IA组织中总共发现724种差异表达蛋白(DEPs),占总定量蛋白质组的12.2%。其中,IA样本中有497种蛋白(68.6%)下调,227种蛋白(31.4%)上调(图2B)。多变量主成分分析(PCA)和无监督层次聚类分析有效地将IA组与STA组区分开来,具有高置信度。此外,京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析的功能通路注释和富集分析表明,上调的蛋白在补体和凝血级联反应、细胞粘附分子(CAMs)、流体剪切力和动脉粥样硬化中过度表达,而下调的蛋白在平滑肌细胞(SMCs)收缩通路、细胞外基质(ECM)-受体相互作用通路、三羧酸(TCA)循环通路和代谢相关通路中富集(图2C和D)。其中,14种占SMC收缩途径11.7%的蛋白和10种占ECM-受体相互作用途径中12.3%的蛋白在IA组织中的表达显著降低。这些结果与之前关于激活炎症的突出特征以及抑制IA中肌肉形成、发育和收缩相关功能的报道一致。此外,通过对单个蛋白的详细分析,参与TCA循环的30种蛋白中有11种被下调,平均减少74%,而另外29种发生显著变化的蛋白也主要参与代谢相关途径,包括氨基酸、碳和乙二醇代谢途径。这些数据表明IA组织和STA组织之间的根本差异可能反映了IA的不同能量干预。对组织细胞骨架及其维持至关重要的蛋白,例如PDZ和LIM结构域蛋白1(PDLIM1),在IA组中显著下调。我们通过免疫印迹进一步验证了其在IA组织标本中的表达(图2E)。将用于蛋白质组分析的60个血清样本分为三组(NC、UR和R组),每组20名年龄和性别匹配的个体。高丰度蛋白质消耗和串联质量标签标记(TMT标记)蛋白质组学策略(图1)用于血清蛋白质组的相对定量。每组进行了两次合并的生物学重复和三个技术重复,结果共有1557种蛋白质被鉴定为蛋白质FDR<1%(图3A)。根据血清蛋白质组数据库,检测到的蛋白质浓度跨越11个数量级,从最低的4.3 pg/mL(MEGF8)到几乎50 mg/mL(HBB&ALB)(图3B)。使用所有检测到的蛋白PCA清楚地分离了NC、UR和R组(图3C)。然后,我们在三组之间进行了两次比较:首先,IA(R&UR)与NC,旨在发现IA患者血清样本中改变的蛋白。IA组共发现103个DEPs(Benjamini-Hochberg调整的P值<0.05),其中26个蛋白表达增加(>1.50倍),77个蛋白表达降低(<0.667倍);第二个是R与对照组(UR和NC),以确定预测IA破裂的潜在生物标志物,共检测到53个DEPs,包括32个上调和21个下调的蛋白(图3D)。IA失调蛋白的无监督热图聚类分析不仅显示了来自NC和IA的样本之间的蛋白质组学多样性,而且还显示了UR和R组的IA内的变化(图3E)。IA中失调蛋白的最丰富途径如图3E所示。值得注意的是,与破裂的IA呈正相关的蛋白在先天免疫系统和中性粒细胞中显著富集,这表明炎症系统异常激活(图3E)。
A,从颅内动脉瘤患者手术切除的五对IA和STA组织。B,通过绘制学生t检验(P值<0.05,双边检验)P值与log2倍数变化(IA/STA)确定IA组和STA组之间的差异表达蛋白,在火山图上表示。表达水平显著变化的蛋白由粉红色(上调)和蓝色(下调)点表示。虚线(x=±1)表示蛋白水平log2倍变化的截止值,虚线(y=2)表示-log10 t检验P值的截止值。C,与STA组组织相比,IA组织中排名靠前的通路显著改变。D,与STA组组织相比,IA组组织下调蛋白的相互作用网络。E,STA和IA之间差异表达的选定蛋白(PDLIM1)的蛋白质印迹验证。证实了与STA组织相比,IA组织中PDLIM1下调。左图显示STA和IA标本中PDLIM1表达差异的免疫印迹,使用β-tubulin作为对照。下图总结了印迹条带的半定量光密度测量。误差线表示标准偏差(每组三个生物学重复,双尾学生t检验,*P值<0.05)。
A,从一式三份TMT实验的血清蛋白中鉴定的常见和“专有”蛋白的维恩图。B,本研究根据2017年5月血浆蛋白质组数据库(http://www.plasmaproteomedatabase.org/)确定的血清蛋白浓度范围。彩色矩形将整个丰度范围分为三类,代表功能性血清蛋白(紫色)、组织渗漏蛋白(橙色)、信号蛋白(蓝色)。C,基于一式三份血清TMT数据的R、UR和NC的PCA得分图。D,比较(R&UR)与NC组或R与(NC&UR)组的学生t检验结果的火山图。表达水平显著变化的蛋白质用红色(上调)和蓝色(下调)点表示。虚线(x=±0.585) 表示蛋白质水平log2倍变化的截止值,虚线(y=1.301)表示-log10 t检验P值的截止值。E,包含UR、R和NC组的差异表达蛋白质水平树状图的多组热图。基于IA组(R&UR)与NC组或R组与对照组(NC&UR)之间差异表达蛋白富集通路。 2. IA血清候选循环生物标志物库的构建
为了充分利用先前IA研究产生的数据,我们通过将本研究的结果和文献中报道的IA生物标志物汇集在一起,组建了一个蛋白质候选生物标志物库(PCBB)。总结了2000年至2020年间在公共数据库中发表的英文文章和评论,共有446个基因或蛋白与来自不同生物标本的IA相关。结合本研究中发现的860个DEP,有1241个蛋白遴选到PCBB中,当前和之前的研究中有65个蛋白重叠。通过选择血清中可检测的蛋白进一步优化了PCBB。除了血清改变的蛋白外,我们调查发现,根据细胞成分和信号肽预测,在组织中发现的总共373个DEP和239个报告的蛋白被预测泄漏或分泌到血清中。因此,IA相关血清蛋白候选生物标志物库(SPCBB)由717种蛋白构建(图4A)。这些蛋白在血清靶向蛋白质组学分析中得到进一步验证。
A,与IA相关的重叠血清候选蛋白。B,条形图显示对应于DeepPRM和Picky方法建议肽段的蛋白数量,以及对应于DDA验证检测到的肽段的蛋白。C-D,根据P值显示肽的(UR&R)/NC(C)、R/UR(D)的log2倍变化的火山分析。满足指定统计截止标准(Mann-Whitney U-test,P-value<0.05)的蛋白以红色着色。E-F,(R&UR)组(n=72)和NC组(n=80)(E)之间的十肽相对定量(log2 L/H) (E),R(n=35)和UR组(n=37)之间的六肽相对定量(log2 L/H)(F)。对于每种蛋白,监测1-2个蛋白特征肽。监测轻肽(对应于血清中存在的内源肽)和重肽(对应于血清中掺入的合成肽)并通过Skyline获得12种肽中每一种的轻/重比。箱线图代表中位数和四分位数范围,触须线代表1-99个百分位数,异常值由空圆圈表示。 3.用于SPCBB MS分析的DeepPRM的开发
靶向分析的开发,例如平行反应监测(PRM)和选择性反应监测(SRM)分析,非常繁琐且通常需要肽选择、合成和MS分析。此外,如果没有先验知识肽的可检测性,研究人员在肽选择或合成成百上千种肽的决定方面面临困难,这要付出极其昂贵的代价。为了验证SPCBB中的数百个候选生物标志物,我们开发了DeepPRM算法,通过预测肽的可检测性和保留时间来帮助大规模检测的开发,这是MS检测开发的关键。如前所述,DeepPRM基于使用深度学习方法在给定LC-MS/MS平台上构建的仪器特定模型。为了验证DeepPRM的性能,我们首先将DeepPRM与著名的在线PRM和SRM方法设计器Picky进行了比较,Picky表明来自血清和Hela细胞消化物的给定蛋白质数据集的靶向肽及其预测的RT。通过MS采集进一步验证其所提出的肽的检测。因此,DeepPRM获得了更多具有相应RT信息的靶向肽段,DeepPRM的检测率(检测到的肽段/建议的肽段;85.23%)远大于Picky(30.70%)(图4B)。这表明我们新开发的DeepPRM提供了一种信息丰富且特别是对于大规模候选蛋白的高效靶向肽选择,这符合本研究中广泛蛋白质生物标志物验证的目标。然后,我们使用DeepPRM计算了717种SPCBB蛋白的MS分析,并提出1254 种独特的肽具有良好的可检测性(≥0.5)。其中,在血清消化混合物中进一步观察到367种肽,其中通过人工检查以高可信度检测到113种肽(对应于100种蛋白)。这些肽在队列I血清样本[n=212,在R(n=55)、UR(n=57)和NC(n=100)]和队列II血清样本[n=32,在R(n=6)、UR(n=6)和NC(n=20)]内。 4.基于DeepPRM的IA患者血清中候选生物标志物的量化
我们设置了严格的实验控制来监测批量效应引入的变化,通过设置质量控制样品和加入iRT肽以进行大规模样品分析并进行随后的统计分析。原始数据被上传到Skyline以执行PRM自动峰积分、检测干扰并提取单离子对强度。在进一步统计分析之前,我们对212个样品中肽的定量结果进行了两步标准化,以说明每批次内和批次之间仪器性能的差异性。正交偏最小二乘判别分析(OPLS-DA)基于对应于100个候选蛋白的113个肽的归一化峰面积,确定了三组NC、UR和R的显著空间分离。此外,还计算了每个特征的投影变量重要性(VIP)。为了预先选择IA和IA破裂的潜在蛋白质组学特征,我们使用Mann-Whitney U检验分析变量,这些变量揭示了IA患者(UR&R)中42种显著改变的肽(36种蛋白)和26种改变的肽(24种蛋白)清楚地区分R组和UR组(P<0.05)(图4C和D)。根据前60份血清样品的PRM定量结果,将12种稳定同位素标记的肽(表达水平发生显著变化的蛋白)加标到剩余的152份血清样品中作为参考肽。根据这些肽的相对定量,10个肽表明IA (UR&R)组和NC组之间有显著变化(P<0.001)。定量结果(log2(L/H))列于图4E。此外,对应于五种蛋白(富含亮氨酸的α-2-糖蛋白(LRG1)、纤维蛋白原α链(FGA)、纤维蛋白原β链(FGB)和纤维蛋白原γ链(FGG))的六种肽在R组比UR组(P<0.001),而免疫球蛋白kappa变量4-1(IGKV4-1)在R组中的丰度较低(P<0.001)(图4F)。 5.基于机器学习的生物标志物组合选择用于IA病例分类
我们研究了根据血清蛋白的分子特征将IA破裂或未破裂患者与健康对照区分开来的可能性。基于PRM队列I(n=212)的血清蛋白质组学数据,我们开发了一个计算流程,包括差异特征保留(DFR)、候选特征选择和最终模型构建(CFS&FMC),用于识别潜在的生物标志物组合对IA病例进行分类(图5A)。在DFR步骤中,对应于27种蛋白质的32种肽被鉴定为高度排序的DEP(倍数变化(FC)>1.2,P值<0.05和VIP>1.0)。对于与多种肽相关的蛋白,我们根据曲线下面积(AUC)和PRM原始数据选择最佳肽,以确保每个肽对应于一种蛋白质,最终产生27种剩余的肽。随后,组合数据集(队列I)被随机分为训练集和内部验证集,比例为3:1。在CFS&FMC步骤中,使用逻辑回归进行模型构建,并进行递归特征消除(RFE)和交叉验证(10倍CV,重复10次)以在基于最高平均准确度(Ac)在训练集(队列I的75%)中选择最佳生物标志物组合(图5A)。我们试图利用上述计算机学习策略,根据更经济的分子组合的显著特征对IA的不同临床结果(例如,IA与NC,或R与UR)进行分类。对于IA (R&UR)患者和健康对照的分类,我们确定了一种包含六种蛋白生物标志物的组合(P6)(图5B),包括CTSG、PDLIM1、成髓细胞蛋白(PRTN3)、髓过氧化物酶(MPO)、免疫球蛋白重链mu(IGHM)和免疫球蛋白kappa异构体3-20(IGKV3-20)。根据接受者操作特征曲线(ROC)分析,该模型的AUC为0.894(95% CI=0.836–0.937),训练集中的Ac为83.65%(图5C;表1)。然后,我们在内部验证集(队列I的25%)上测试了P6模型,得到可能的AUC为0.904(95% CI=0.792-0.968),具有区分来自IA(R & UR)组或来自健康对照组的高灵敏度和特异性(图5B;表1)。为了评估计算机学习策略的可靠性,我们编译了混淆矩阵,结果表明可以正确分类不同的样本,Ac高达86.79%(表1)。为了验证基于计算机学习的IA病例分类的Ac,我们进一步收集了一个新队列(II)的32个血清样本作为外部验证集。AUC值计算为0.929(95% CI=0.780-0.990),用于区分IA病例和NC(图5C;表1)。因此,相应的混淆矩阵结果还表明,P6在独立队列中表现出87.50%可能的Ac(图5D;表1)。最后,我们绘制了P6模型的学习曲线。训练集和内部验证集的曲线越来越平坦,准确率变得稳定并大于0.8,表明模型拟合良好。
A,数据处理和机器学习模型构建的工作流程。B-G,逻辑回归(LR)模型,用于分类IA和NC(B)或R和UR(E)。在训练、内部验证和外部验证集中,基于LR的模型在IA与NC(C)或R与UR(F)中的接收器操作特征(ROC)曲线。混淆矩阵显示了在外部验证集中对IA和NC(D)或R和UR(G)进行分类的模型性能。 表1 循环蛋白组P6在鉴别诊断IA与健康对照组和P8在IA破裂分类中的表现
6.用于分类破裂和未破裂IA的生物标志物组合
潜在的IA破裂对临床医生是一种复杂且具有挑战性的情况。为了对U和R结果进行分类,我们确定了一种八蛋白组合(P8),其中包含中间α-胰蛋白酶抑制剂重链H4 (ITIH4)、载脂蛋白A-IV(APOA4)、FGG、纤连蛋白(FN1)、LRG1、软骨寡聚基质蛋白(COMP)、IGHM和IGKV3D-20,AUC为0.913(95% CI=0.832–0.963),训练集中的Ac为 87.06%,AUC为0.874(95% CI=0.689–0.969)和内部验证集中的85.19%的Ac以区分破裂的IA患者和未破裂的IA患者(图5E和F;表1)。它还在外部验证集中产生了91.67%的优良分类Ac和0.905的高AUC值,这进一步证明了模型的稳健性(图5F和G;表1)。P8模型的学习曲线也说明该模型拟合良好。我们在另一个队列(III)中使用ELISA进一步验证了两种低丰度蛋白PRTN3(组织原始)和CTSG(血清原始),该队列包括40名R和40名UR患者以及40名健康对照,与PRM结果高度一致。总之,这些数据强烈支持血清蛋白质组学衍生平行数据在识别IA和确定其破裂方面潜在的临床价值。
讨论
https://pubmed.ncbi.nlm.nih.gov/34978375/
----------微科盟更多推荐----------
科研 |Clin. Cancer Res.:新诊断的胶质母细胞瘤患者接受舒尼替尼治疗两周后的肿瘤药物浓度和磷酸化蛋白质组学特征
科研 | 儿童急性髓系白血病蛋白质组学研究的临床意义:一项儿童肿瘤学小组研究
如果需要原文pdf,请扫描文末二维码领取
蛋白质组长期接受科研文章/经验投稿,期待与您交流更多蛋白质组学问题
(联系多组学老师即可投稿&申请入群)
请关注下方公众号
了解更多蛋白质组知识
蛋白质组仅用于学术成果分享与交流,不涉及商业利益。
也严禁他人将本公众号的内容用于商业运营。