8+应用级别诊断模型,仅剩3席
99.9%应用级别的模型算法开发
扫码获取。
基于个性化通路和机器学习对甲状腺乳头状癌的高精度诊断
今天给大家分享的文献是去年12月19号发表在IF=8.99的一篇文章。这项研究主要构建并验证了一个自动化的、高精度的多项研究衍生的PTC诊断模型,该模型使用了个性化的生物学通路和复杂的机器学习算法。此外,还发现了PTC新的通路改变和预后特征,这可以为后续研究提供方向。
研究背景
乳头状甲状腺癌(PTC)是最常见的恶性肿瘤,它在所有癌症的总发生率中增幅最大。然而,目前的诊断方法往往会给患者带来不必要的手术负担。并且由于生物系统的复杂性增加以及样本量相对较低的维度,综合分析的运用往往受到限制。
方法部分
研究队列
本研究中使用了公共数据库的3个PTC微阵列队列作为模型的训练集和内部交叉验证集。来自GEO的切尔诺贝利队列GSE33630(n=94)和TCGA的PTC队列(n=568)作为外部验证集来验证模型的效能。
算法的构建与评估策略
该研究采用了两步方法来构建模型:(1)将个体基因水平的信息转换成通路水平的信息。(2)正则化,以选择在解释力和简约性之间取得平衡的模型。主要使用AUROC(ROC曲线)、AUPRC(PRC曲线)和Brier分数损失(平方误差)来评估模型的性能。
生存分析
用Kaplan-Meier方法和对数秩检验确定变量与OS和RFS(无复发生存率)的单变量显著性。采用Cox比例风险回归进行多因素分析,检验多个协变量对生存率的影响。Schoenfeld residuals检验是用来评估残差与时间的独立性,从而检验Cox模型中的比例风险假设,Cox 比例风险参数的显著性采用Wald检验。R包xCell用来分析64种免疫和基质细胞类型的基因表达数据,可以可靠地描绘细胞的异质性情况。
结果部分
为了构建基于个性化通路信息的PTC和正常组织的二元分类模型,作者将多个研究得到的惩罚性机器学习方法与PTC样本中的通路失调相结合(图1)。首先通过经验贝叶斯算法合并了3个研究队列,合并后的研究队列最初由基因表达水平数据组成,然后使用Pathizer算法将其转换为通路水平矩阵。Pathizer是一种用于量化通路异常程度的算法,这个方法利用Hastie和Stuetzle的算法寻找一条主曲线来降维。该算法为每个样本产生PDS(pathway deregulation score),这些PDS可以基于从主曲线的起点到个性化通路投影的靶点的距离来计算,个性化通路最终会生成每个单独样本的通路表征。
图1. 研究流程
使用来自3个队列的11726个合并基因作为输入特征,并从KEGG、PID(通路互作数据库)、BioCarta等数据库中提取通路信息,因此获得了每个通路的主曲线(图2b)和含有752行(通路特征)的PDS矩阵(图2a)。在此PDS矩阵的基础上,利用正则化回归建立了PTC的预测模型。弹性网络正则化是回归的线性组合,需要对两个超参数(α和λ)进行微调,以获得适当的弹性网络罚函数。超参数α控制岭回归和lasso惩罚之间的权衡,而λ控制惩罚的总量。作者在这里使用的是一种基于全局优化算法进行有效参数选择的方法(EPSGO)来寻找具有最小二项式偏差的α和λ的最佳值(图2c)。在正则化参数给出最小二项式偏差的值时,经EPSGO调整的弹性网络得到了具有12个非零通路失调系数的最简约预测集(图2d-e)。最终的模型在交叉验证中也证明了其良好的效能(图2f)。
图2. 模型构建
3个训练集的AUROC为0.999,AUPRC为1,Brier评分为0.013,灵敏度为100%,特异度为94.4%(表1,图3a)。作者还在外部验证集进一步验证了模型的效能,在TCGA 和GSE33630的PTC队列中,相应的指标显示出模型在其他队列也具有准确性和稳定性(图3b,表1)。
图3. 模型效能的内部和外部验证
表1. 交叉验证和外部验证的效能评估
PTC的高细胞变型(TCV)是最常见的侵袭性变异体,它具有较高的甲状腺外侵袭、淋巴结转移和远处转移率。作者使用TCGA队列的38个TCV样本作为测试集来评估算法的性能,同样,该算法显示出良好的区分正常邻近组织和TCV的能力。当作者将腺瘤纳入模型时,3个队列的总AUROC为0.986,AUPRC为0.984,Brier评分为0.053,敏感性为95.5%,特异度为90.5%。当将该算法应用于GSE27155数据集时,算法在基于留一法交叉验证(LOOCV)的AUROC为1的情况下很好地区分嗜酸性腺瘤和嗜酸细胞癌。其他临床方案也一致地显示了良好的结果(表2)。
表2.不同临床环境下模型性能的评估
该研究的机器学习算法基于回归和通路信息,它提供了更多生物学上可解释的结果。该算法在弹性网络建模中得到了12个与PTC相关的通路,总共包含579个基因。作者还对TCGA数据集进行了单变量和多变量生存分析,以评估这些基因的预后意义(图4)。在OS的多变量Cox回归分析中,4个通路的11个基因被确定为显著的、独立的预后因素(图4b)。OS最显著的预后不良因子是“STAT4介导的IL12信号”中的MAPK9基因,而OS最重要的预后良好因子是“HTLV-1感染”通路中的RANBP3。在多因素Cox分析中,MAPK9的无复发生存率也较差,这与单变量Kaplan-Meier曲线的结果一致(图4c)。
图4. 12个非零通路中预后基因的评估
由于TCGA包含了许多的多组学层,因此基于12个最终非零通路中的基因进行了多组学分析和关键基因网络分析。最高的突变类型是错义突变(图5a-c),排名靠前的突变基因是NRAS和HRAS(图5e)。CDC23和EP300的基因表达随着拷贝数变异的增加而增加(图5f)。HLA-DPA1、TNFRSF1A和ITGB2这3个基因与甲基化的相关性最强(图5g),这表明这3个基因受表观遗传机制的调控。利用MST(最小生成树)算法分析了12个通路基因在一个网络中的功能交互作用,PRKACB为正常人群的关键基因,VCAM1为PTC关键基因。
高龄是PTC的主要独立危险因素,与其他癌症不同,PTC的分期系统考虑了患者的年龄(55岁是分界线)。因此,作者探索了该算法的识别能力,主要集中在55岁以上的高危人群。最初,I期和II期被注释为早期肿瘤,III期和IV期被注释为晚期肿瘤,在此基础上,提出了两种可供选择的二分法:一种是将第一阶段单独注释为早期阶段,其余的第二、三、四阶段为晚期;另一种是仅限于第一阶段和第二阶段。在评估分类器性能时,70%的TCGA数据被划分用于训练,其余30%的数据被划分为测试数据集。结果显示,TCGA得到的通路弹性网络分类器在早期(I,II期)和晚期(III,IV期)肿瘤的主要二分阶段中显示出较高的性能(AUC=0.739),早期(阶段I)和晚期(阶段II、III、IV)的二分法获得了相似的AUC值0.705,而早期(阶段I)和晚期(阶段II)的表现值为0.733。
图5. 12个非零系数通路基因的多组谱分析
为了分析肿瘤组织和患者之间肿瘤微环境的异质性,作者对免疫浸润进行了免疫细胞图谱分析。使用基于基因特征表达的细胞类型富集工具xCell,选择3个数据集(GSE27155、GSE3678和GSE54958)作为输入值,来获得64种免疫和基质细胞类型的细胞类型富集得分(ES)。在细胞类型ES矩阵的基础上,利用正则化回归建立PTC预测模型,获得了8个非零系数预测因子,这个模型在TCGA和切尔诺贝利事故后的PTC队列的独立测试集上都显示出较高的效能(图6)。这些结果高度表明核心免疫细胞特征可以被视为甲状腺癌的普遍特征,这是第一次将细胞类型ES作为可能的机器学习预测指标。
图6. 免疫细胞分析的模型效能
参考文献
Highly accurate diagnosis of papillary thyroid carcinomas based on personalized pathways coupled with machine learning。
99.9%应用级别的模型算法
开发有难度,入手需谨慎