JACC干货解读|Olink蛋白组学联合深度机器自学习显著提高死亡风险预测有效性
The following article is from Olink Proteomics Author Shirley Zhong
机器自学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。如今,机器自学习在医学诊断领域的发展中发挥着不可或缺的角色,比如用来进行个性化的风险预测,这是为病患提供个性化医疗的前提条件。
来自德国莱比锡大学莱比锡心脏中心科研团队,在JACC杂志(IF=24.094)上发表了一篇题为「Proteomics-Enabled Deep Learning Machine Algorithms Can Enhance Prediction of Mortality」最新研究成果:此研究对基于蛋白质组学数据的机器学习(Machine Learning, ML)算法,通过对LIFE-Heart研究中具有心血管危险因素的患者队列中全因死亡率的经典和临床风险预测方法进行全方位的比较,最终发现ML驱动的多蛋白风险模型在预测心血管风险增加患者的全因死亡率方面优于回归模型和临床风险评分。
内部验证队列是2006年至2014年来自LIFE-Heart的一个有详细的心血管和生化数据的前瞻性队列研究,本研究选择了1998例纳入时无严重冠状动脉疾病的患者,排除标准为是否存在急性冠状动脉综合征、左心室功能受损、需要干预的严重瓣膜疾病,以及数据缺失或不确定。外部验证队列为PLIC研究队列,这是一项单中心、观察、横断面和前瞻性研究,在1998年至2000年期间招募志愿者,平均随访11年。本研究纳入了意大利米兰大学巴西尼医院药理学系动脉粥样硬化中心的门诊患者,在2606名受试者中随机选择了772名患者进行生物标志物检测验证。
采用Olink Cardiovascular II panel,对来自LIFE-Heart研究的1998人队列(前瞻性研究)和来自PLIC队列的772人(验证队列)的92种蛋白质进行了检测(见下图),数据结果用归一化的NPX值表示。选择Cardiovascular II panel是因为它反映了与炎症、免疫-心血管相互作用、组织和血管新生以及心脏代谢相互作用等相关的生物标志物。然后使用XGBoost和神经网络构建了基于蛋白质的死亡率预测模型,并将此模型的预测性能与经典的临床风险评分(系统性冠状动脉风险评估,弗明汉心脏病风险系数)、logistic和Cox回归模型进行比较。
机器自学习模型与验证流程图:采用全集成的方法,对多个模型和框架进行了测试,采用Olink Cardiovascular II panel检测92个蛋白Marker。为了建模,队列被分成一个训练集(70%)和一个内部测试集验证(30%),获得最佳模型。再在一个独立的验证队列上进行性能测试。
研究结论
随访期间10年和11年间,分别有前瞻性研究队列的156名患者(8%)和验证队列的68名患者(9%)出现全因死亡。在前瞻性队列和验证队列中,弗明汉心脏病风险系数评分的AUC为0.64(95%CI:0.59-0.68)和0.65(95%CI:0.58-0.74),逻辑回归的AUC为0.65(95%CI:0.57-0.73)和0.67(95%CI:0.59-0.74),Cox回归AUC为0.55(95%CI:0.51-0.59)和0.65(95%CI:0.57-0. 73),与此对应,采用蛋白质生物标志物的数据结合高级数据分析的最新机器学习技术建立的模型: XGBoost生存模型AUC为0.83(95%CI:0.79-0.87)和0.93(95%CI:0.88-0.97),神经网络模型AUC为0.87(95%CI:0.83-0.91)和0.94(95%CI:0.90-0.98)。
使用经典的回归模型和机器学习模型进行预测的结果
在本研究中,研究者还证明了不同的ML算法具有良好的外部预测价值。这为基于多维数据的个人风险预测铺平了道路。比较时间敏感模型(DeepHit)和二进制模型(XGBoost),研究人员观察到在确定时间点对死亡率的预测能力。同时深度Hit和XGBoost生存估算模型还提供了时间-事件预测,进一步突出这种复杂的ML算法的临床应用潜力。
ML算法具有潜在临床应用价值,其在个体水平上运用生物标志物进行多维定量的可行性正在增加。多重蛋白质Panel检测在临床结果预测方面很有应用前景,之前由于可解释性差,阻碍了其广泛应用。现在,随着ML技术的兴起和广泛应用,多重生物标志物的风险预测应用的可行性不断提高,Olink蛋白质组检测能产生大量相对无偏和高通量的数据,这些数据可以很容易地被新一代ML算法进行处理,并作为一个简单可视化的风险评分进行呈现,两者的结合应用会有助于临床决策。其中,基于蛋白质组学的时间敏感性死亡风险评分可为患者量身定制分级,有效提高精确治疗的潜力。作者也表示需要更大规模的前瞻性研究来将目前的发现应用于初级和次级临床干预,进一步评估其前瞻性价值。
研究者们将高质量的Olink蛋白质组学数据与先进的数据分析机器学习算法结合起来,在预测心血管风险增加患者全因死亡率方面具有更好的预测价值,AUC可以达到0.94,而目前的临床模型的AUC仅为0.67。如此显著差异的结果所采用的蛋白标志物仅占olink总蛋白Marker库的3%,这进一步表明,Olink精准无偏靶向蛋白质组具有超级巨大的潜力,可以助力先进的机器学习算法,有效提高对死亡率的预测,并加强预防医学。
无独有偶,Olink不是第一次与机器自学习联袂应用于医学诊断预测,我们在近期的推送中也为大家分享了相关的应用:诊断开发|复杂疾病蛋白标志物「预后」&「预测」二合一Panel案例分享,美国克罗恩&结肠炎基金会转化研究副总裁Andres Hurtado-Lorenzo 博士带来的诊断型生物标志物在儿科克罗恩疾病领域用于患者分层诊疗的前沿进展。
万丈高楼平地起,在这些项目中,高质量、精准Olink无偏靶向蛋白组数据都发挥着非常重要的作用,助力精准医学个性化治疗的高速发展。
所见即所得,绘图高规格联川云平台,让科研更自由