Cell Discovery | AI人工智能结合蛋白质组学辅助甲状腺结节良恶性判别
图1 文章标题
实验样本及设计
(1)样本类型:甲状腺结节FFPE Punch样本(直径1 mm, 厚度0.5-1 mm, 重量约0.6-1.2 mg),甲状腺结节新鲜穿刺FNA样本;
(2)样本分组及数量:
Discovery set:
采集来自新加坡国家癌症中心的578名患者的579例甲状腺结节样本,包含正常甲状腺(Normal thyroid, N;n = 40)、滤泡腺瘤(Follicular thyroid adenoma, FA ;n = 137)、结节性甲状腺肿(Multinodular Goiter, MNG;n = 203)、甲状腺滤泡癌(Follicular thyroid carcinoma, FTC;n = 75)、甲状腺乳头状癌(Papillary thyroid carcinoma, PTC;n = 124);
Test sets:
回顾性测试集(Retrospective test sets):
采集来自中国3个临床中心的271例患者的288例FFPE样本,分为N(n = 16)、MNG (n = 44)、FA (n = 84)、FTC (n = 52)、PTC (n = 92);
前瞻性测试集(Prospective test sets):
来自新加坡和中国的9家临床中心, 294例FNA活检样本,包括淋巴细胞性甲状腺炎(Lymphocytic thyroiditis, L;n = 8)、MNG (n = 62)、FA (n = 23)、FTC (n = 4), PTC (n = 197);
(3)技术方法:PCT-DIA技术,本研究采用特色的压力循环技术(Pressure Cycling Technology,PCT)来处理微量的FFPE与FNA样本,在QE-HF质谱仪上实现高通量、大规模DIA数据采集,质谱数据通过DIA-NN软件搜库分析。
(4)深度学习模型构建步骤:
特征蛋白选择;
人工神经网络训练;
通过独立测试集对模型效能测试。
*本文实验设计如下图所示:
图2 实验设计流程
图3 人工智能模型样本设计
文章结果
本研究在针对大样本的DIA数据分析方面,首先,利用前期研究构建的涵盖121,960条肽段与9941个蛋白的甲状腺组织特异性多肽谱图库,通过DIA-NN(version 1.7.15)软件对579例甲状腺样本进行搜库分析。结果显示,本研究共计鉴定到6689蛋白,其中,5312个蛋白(缺失值<90%)的定量信息展示在如下的热图中。从图中可以发现甲状腺结节恶性组织样本能比良性的组织样本鉴定到的蛋白质种类更多,在多数共同鉴定到的蛋白中,同一个蛋白在恶性结节中蛋白表达丰度升高。然后,作者利用统一流形逼近和投影(Uniform Manifold Approximation and Projection, UMAP)算法对甲状腺结节不同病理类型进行降维分析,从下图中能明显看到,PTC样本能够与其余类型的样本显著区分开来;而FA与FTC表现极为相似,无论从组织病理学还是分子水平均难以鉴别。
图4 579个甲状腺FFPE样本的全局蛋白组表达情况
为建立一个基于蛋白质特征的用于区分甲状腺结节良恶性判断的AI模型,研究者首先从discovery set数据集的579例甲状腺样本中,通过遗传算法结合神经网络模型进行蛋白特征选择,之后对自主构建模型进行训练,并在独立测试集中对模型验证。
图5 机器学习模型构建流程
为方便后期研究中的靶向蛋白质组学快速检测与验证,本研究在特征选择时,将蛋白特征数控制在20个蛋白以下。特征选择过程简单地概况如下,先将发现数据集(n = 579)随机分为数据集A,包含2/3的样本(n = 386),其余样本构成数据集B(n = 193)接着通过遗传算法结合3折交叉验证从数据集A中选择蛋白特征组合。
图6 分类模型建立
(A)数据分割方法;(B)特征选择过程;(C)神经网络模型结构
通过遗传算法得到的19个蛋白组合,进一步在数据集B中验证对甲状腺良恶性结节判别的准确率,并选取准确率最高的一组作为最终的19个蛋白组合,最后通过SHapley Additive exPlanations(SHAP)算法评估19个蛋白质特征对分类器的重要性并排序。该19个蛋白作为一个整体对疾病进行评估,而不是单个蛋白发挥作用。
该方法最终筛选出的19个关键蛋白特征,其中有12种蛋白(AHSG、ANXA1、CLU、LGALS3、CALR、PEBP1、HSPB1、AK1、STAT1、MATN2、PRKDC、FN1)在过往的研究报道中显示与甲状腺癌相关,2种蛋白(TBCA、THY1)被研究与甲状腺功能相关,其余5种蛋白(SIAE, HGS, MTPN, RPL24, CORO27)未曾被报道过与甲状腺疾病相关。随后,对19种特征蛋白进行网络分析。有趣的是,在蛋白网络中,这5种未报道的蛋白中的4种蛋白(HGS, MTPN, RPL24, CORO7)可以直接或间接地与其他甲状腺疾病相关的蛋白相连接,同时,蛋白网络核心为p38 mitogen-activated protein kinase(p38-MAPK)通路,该通路是目前已知的和甲状腺癌发生发展密切的信号通路。通路富集分析结果显示,MAPK信号通路作为最显著的通路,进一步佐证了特征选择的可靠。除了经典的癌症相关的通路,我们还发现炎症相关通路被富集,并且指向STAT1、CLU、FN1这些关键蛋白。以上结果表明该方法在挖掘与甲状腺结节良恶性区分有关的潜在蛋白方面非常具备潜力。
图7 19个选定的蛋白特征描述及其生物学分析
(A)19个蛋白特征在模型中的重要性排序;(B)所选择的19个特征表达丰度排序;(C)全局蛋白质矩阵与特征蛋白矩阵的丰度分布图;(D)网络关系图;(E)通路富集与蛋白关系桑葚图。
本研究基于筛选出的19种蛋白质特征,比较了6种不同的机器学习模型与我们自主构建的模型效能,结果表明作者自主构建的模型具有最高的分类效能,本模型受试者工作特征曲线(Receiver operating characteristic curve,ROC)如下图所示,AUC高达0.93。研究利用这19个蛋白质特征构建的模型,经5折交叉验证后,随机选取463个样本(discovery set 的80%)作为训练集进行重新区分良恶性,发现集中剩下的20%样本被用来作为验证集,AUC高达0.94。
为了进一步在独立队列中对这19个蛋白特征组合的模型进行验证,研究者首先分析了来自另外的三家医院的288例甲状腺结节。为了确保严格验证,在数据采集和分析过程中实验者对诊断结果并不知情。该模型在回顾性测试集的AUC为0.94,准确性为89%。总体敏感性的84%,特异性为94%,NPV与PPV分别为85%和93%。
为扩大该模型的适用性,研究者又在FNA活检穿刺样本前瞻性队列中做了测试。研究表明,在294例样本中,AUC达0.93,准确度85%,敏感性92%,特异性71%,PPV 80%, NPV 87%。
图8 模型效能ROC曲线
此外,从下方的UMAP图中可知,可以利用这19个蛋白对良恶性甲状腺结节进行区分。其中位于中间部分的是FTC与FA,显示二者区分较为困难。
研究者针对FNA样本将构建的模型与Bethesda分类进行比较。对于不确定性结节Bethesda III和IV类的FNA样本,本研究模型AUC达0.89。以术后病理诊断为金标准,本研究中的纳入分析的FNA样本中,细胞病理学评价Bethesda II、V、VI类样本的评估准确率约为82%,而模型对这三类样本的评判准确率可达88%以上。该结果证明了模型预测的可靠性与易用性。
图10 同一个样本的病理组织类型、细胞病理Bethesda分级与模型预测效果对应关系
此外,研究者利用该模型对不同大小的结节以及不同组织病理学形态的肿瘤进行了进一步分析。研究发现,当结节≥1cm时,模型预测准确率(87.7%)高于结节<1cm时的准确率(75.8%)。研究发现,当恶性结节中有显著的淋巴细胞浸润时,会非常难被识别区分。
从下图中可得出,MNG型预测的准确度为90%,PTC型则预测准确度高达94%,乳头状癌这一类的区分判别是准确度最高的,这一类癌症通常在甲状腺癌种占到85%左右。另外,研究者更近一步地对滤泡性肿瘤的5种亚型进行了进一步判断,FA、FTC、 Hürthle cell adenoma(HCA)、HCC(Hürthle cell carcinoma)、PTC滤泡亚型(fvPTC)准确率分别为86%,76%,83%,87%和87%。FTC的准确率预测是最低的,一部分原因是由于该类样本在测试集中样本数过少所致。
图11 5种不同甲状腺类型的模型性能参数
蛋白质组学表达数据通常可以提供更多生物学信息,为进一步研究甲状腺滤泡性肿瘤及其亚型的生物学变化,研究者对不同亚型甲状腺结节进行两两配对的比较分析,共计完成8组比较,每组比较的差异蛋白数量在玫瑰图中展示。结果发现在FTC和FA之间,有14种差异蛋白;而在HCC和HCA之间无差异蛋白,揭示了其有相似的形态,同样地这2种类型在临床中,HCC和HCA的组织学区分也是一个比较大的挑战。
图12 甲状腺滤泡性肿瘤差异比较
HCA和HCC被认为是不同的实体,后者有更高的血管侵犯和转移的倾向。本研究的蛋白质组学数据,可以清晰区分不同的甲状腺肿瘤类型,即使是非常相近的FA和FTC类型。数据显示,186个蛋白中的160个线粒体蛋白持续升高,参与了多种代谢途径包括TCA循环和氧化磷酸化。fvPTC是一种形态学上非常复杂的肿瘤类型,研究者将其与FTC、经典型甲状腺乳头状癌(cPTC)进行了对比,结果显示FTC和fvPTC之间没有显著的蛋白质类型差异。但在fvPTC和cPTC的对比中,221个差异蛋白被鉴定得到。此结果显示了fvPTC可能是一种介于FTC和cPTC之间的一种肿瘤类型。
图13 甲状腺嗜酸性肿瘤与滤泡性肿瘤差异分析
原文链接:https://www.nature.com/articles/s41421-022-00442-x
编译:江燕
审校:孙耀庭,周承
本项目的临床合作单位
新加坡国家癌症中心(National Cancer Centre Singapore)Oi Lian Kon教授及团队、Narayanan Gopalakrishna Iyer教授及团队;
新加坡中央医院(Singapore General Hospital)Sathiyamoorthy Selvarajan教授及团队;
中国人民解放军总医院 田文教授;
中国医科大学附属第一医院 张浩教授及团队;
杭州市第一人民医院 罗定存教授及团队;
浙江大学医学院附属第二医院 郑树教授及团队、陈丽荣教授及团队;
浙江大学医学院附属第一医院 滕晓东教授及团队;
大连医科大学附属第二医院 赵永福教授及团队、何奕医生;
浙江大学医学院附属邵逸夫医院 朱江教授及团队;
浙江省人民医院 武晓泓教授、陈万远医生;
广东省人民医院 关海霞教授。