查看原文
其他

机器学习方法检测癌症基因组图谱中激活的Ras信号通路

林维茵 珠江肿瘤 2022-05-21

机器学习方法检测癌症基因组图谱中激活的Ras信号通路

Machine Learning Detects Pan-cancer Ras Pathway Activation in The Cancer Genome Atlas.



背景知识





RAS信号通路是一种很常见的细胞分子信号通路受体酪氨酸激酶(RTK)结合信号分子,形成二聚体,并发生自磷酸化而活化,活化的RTK激活RAS,由活化的RAS引起蛋白激酶的磷酸化级联反应,Ras通路因癌症类型不同经常发生变化。

RAS基因是一种原癌基因。作为原癌基因的Ras基因被激活以后就变成有致癌活性的癌基因.通常通过获得的KRAS、NRAS或HRAS基因突变或NF1基因丢失,Ras通路被激活,其表达产物Ras蛋白发生构型改变,与GDP的结合能力减弱,所以与GTP结合,又因为Ras蛋白和GTP结合后不需外界生长信号的刺激便自身活化,接着活化状态的Ras蛋白持续地激活PLC产生第二信使,造成细胞不可控制地增殖。

胰腺癌、皮肤黑色素瘤、甲状腺癌、肺腺癌和结肠癌的发生主要由Ras通路基因突变驱动。此外,Ras突变也被认为是导致肿瘤发生的早期事件,与不良的生存率和治疗抗性相关。由于Ras通路在各种肿瘤中广泛失调,研发针对该通路的特定治疗靶点是抗癌药物研发的重点之一,但Ras又很难成为治疗靶点。要改变这点,关键是能精确检测到突变的基因位点。

评估Ras通路激活最直接的方法是通过Ras的靶向测序,但该方法检测不到激活的Ras表型突变体中其它基因的未知突变,而针对这类肿瘤的检测可使更多患者有靶向治疗的机会。本文介绍应用机器学习从泛癌图谱中整合出庞大的RNA测序、拷贝数和突变数据,并将该方法应用于Ras基因检测,证实泛癌中Ras的激活。





用于预测通路行为的机器学习模型


作者整合了来自TCGA PanCanAtlas项目的Illumina RNA测序, MC3和GISTIC2.0拷贝数,以对异常RAS通路进行分类。利用这些数据,作者训练了一个弹性净惩罚逻辑回归分类器。作者的模型以RNA测序基因表达(X)为训练对象,预测基因状态(Y)。为了控制具有高突变表型和具有潜在组织特异性表达模式的肿瘤,作者在模型中加入癌症类型作为虚拟变量,并且将每个样本突变以10为底做对数来计数作为协变量。


接下让我们来看一下广泛适用的金标准:

作者将抑癌基因拷贝数减少和突变使功能缺失+癌基因拷贝数增多和突变使功能增强的基因状态定义为金标准。

为了简单化和减少大量对人工筛选的需求,作者考虑了所有的非沉默突变,包括基因的增添、缺失或目标基因剪接位点区域的突变。针对本文的具体研究重点,作者将癌基因(KRAS、NRAS、HRAS)的功能突变和拷贝数的增加与抑癌基因(NF1)的功能缺失和拷贝数减少进行了整合,作为金标准。例如,如果一个肿瘤在这些基因中有一个有害突变或拷贝数改变,作者认为该肿瘤的Ras状态等于1。 

作者制作该分类器的目的是确定某个给定样本(i),在给定样本RNA测序测量值(Xi)的情况下发生Ras事件的概率,为了达到这个目标,分类器学习一个系数向量或基因特定权重向量(w)来优化文中的惩罚逻辑函数。

上图中的w表示某基因在RAS通路中的地位。下图显示的是RAS信号通路,有些基因处于中枢位置,那么它对下游通路的影响比较大,它的权重向量w也较高。该算法学习了基因重要性评分或权重(w)的组合,通过权衡这些评分或权重,学习如何最好地分离异常肿瘤和野生型肿瘤表达模式。




检测RAS信号泛癌激活



通过使用KRAS、HRAS和NRAS突变和拷贝数增加的信息,训练分类器检测肿瘤中异常的Ras活性。这3个核心Ras基因随癌症类型不同而变动很大,KRAS突变在一些癌症中广泛存在,占胰腺癌(PAAD)的72%、结肠癌(COAD)45%、直肠腺癌(READ)42%和肺腺癌(LUAD)31%;而NRAS突变在皮肤黑色素瘤(SKCM)中常见,占31%。

接着,研究团队对这些肿瘤做表达差异分析,方法是控制肿瘤类型,比较野生型肿瘤与Ras异常肿瘤之间的基因表达差异情况。此处的fold change是基因表达的差异倍数,是用以10为底的对数进行计量的,0.3附近的差异倍数接近2倍。图中显示,0.3附近集中了较多的基因。图中红色所标记出来的基因在野生型肿瘤和异常RAS肿瘤之间的表达差异具有显著性。

为使分类器的分类代表更平衡,减少性能度量上的膨胀,作者从33种癌症类型中选择了16种类型进行训练(图中蓝色所示),图中显示了在Ras突变的多种癌症类型中,KRAS、HRAS或NRAS中的突变和拷贝数各自增加的百分比。

接着作者评估了该泛癌症分类器的性能。以中位数绝对偏差(MAD)分析前8000个最易突变表达的基因,然后随机地抽取10%的样本(n=476)创建测试集。选择的测试集与训练集具有相同比例的肿瘤类型和RAS状态。训练集包括剩下的90%的样本(n=4283),训练集内,进行5折交叉验证。使用这些肿瘤样本,作者设计出训练(training)、交叉验证(CV)和保留测试(testing)。在交叉验证和测试集中,ROC曲线下面积(AUROC) 高于84%,精确召回曲线下面积(AUPR)高于63%。从而得出,分类器表现出高性能。

此外,作者用不同的方法评估了该泛癌症分类器。将分类器用于全部9,075例样本,得到86.7% 的ROC曲线下面积(AUROC)和61.2%的精确率-召回率曲线下面积(AUPR),证明该分类器有良好的性能。

Ras分类器由自动学习的w,也就是基因权重和重要性分数构成。弹性网络罚分训练产生分类器稀疏数据,稀疏分类器系数表明哪些基因影响分类器性能,作者发现,仅有185个基因有助于分类。权重>0的基因和协变量解释为在激活Ras肿瘤中上调,而权重为负的基因是野生型Ras肿瘤特征。Ras异常与野生型肿瘤之间的差异表达分析反映下游基因情况。作者将上述提到的基因表达权重与此处的分类器稀疏数据进行了比较。对于下调的基因,作者将所有下调的基因作为零权重纳入基因表达情况中。

接着,作者使用limma Bioconductor package对活性Ras肿瘤与野生型Ras肿瘤进行差异表达分析,红点对应于标记基因。

作者将机器学习方法与Ras突变体与此处的差异表达分析进行了比较。与分类器稀疏数据所示的Ras分类器基因系数相比,发现差异表达评分与Ras分类器系数密切相关,但比稀疏分类器识别出更多的基因。




RAS信号分类器的基准分析




接下来,作者采用多种分析方法评估了Ras分类器的抗变换性。

作者通过在随机打乱的输入基因表达矩阵上训练一个空模型来评估性能指标的潜在膨胀。作者没有打乱协变量信息或y矩阵。在保持Ras基因突变比例不变的情况下,随机打乱基因的性能可以使我们了解到,在缺乏Ras激活信号的情况下,该模型将如何执行。结果发现, AUROC50%和AUPR>20%,这表明该模型在该标准上的稳健性较强。


为了评估分类器检测Ras突变和Ras拷贝数增加的性能。作者使用与上述相同的步骤训练泛癌分类器,分别预测Ras突变和Ras拷贝数的增加。这里给出的组合模型与图2中训练的模型相同。(KRAS、NRAS、HRAS)

总体来说两种性能相似,但单独突变模型比组合模型好,单独拷贝数模型表现最差。

作者还探索了不同模型间的基因权重关系。在纯复制模型中,高权重阳性基因包括C12orf11 (ASUN)、MRPS35、ERGIC2和CMAS,这些基因均位于KRAS附近的12号染色体短臂上,这可能是普通复制增益事件所带来的影响。

作者还测试了一个分类器,该分类器在从扩大的RASopathy Panel(遗传检测注册表)中删除14个基因,基因包括BRAF、CBL、HRAS、KRAS、MAP2K1、MAP2K2、NF1、NRAS、PTPN11、RAF1、SHOC2、SOS1、SPRED1和RIT1。

从图中得知,该模型对基因表达矩阵中剔除的KRAS、NRAS、HRAS和其它11种Ras致病基因的抗变换性稳定。

使用相同方法,仅使用表达数据或协变量。从结果可以得知,该模型也不受协变量信息的影响。




在细胞系中检测激活Ras信号



TCGA肿瘤数据训练的Ras分类器预测能否推广到细胞系呢?为了解该情况,在两个细胞系数据集上进行了测试。分类器首先应用到10个小气道上皮细胞RNA测序图谱(GEO:GSE9437)。对于含4个野生型和6个KRASG12V表达突变体图谱。分类器正确地区分了10个中的9个 。

接下来Ras分类器分析了癌细胞系百科全书(CCLE)737个不同细胞系对应表达和突变数据的RNA测序图谱。下图中具有KRAS,HRAS或NRAS突变的细胞系在右侧框中显示,野生型肿瘤在左侧框中指示,图中同时显示了具有BRAF突变(绿色)和野生型BRAF(金)的细胞系的评分。分类器对Ras野生型细胞系中的Ras突变(KRAS、HRAS或NRAS)打了更高分数。被预测为野生型393个细胞系中,357个被标记为野生型(阴性预测值=90.8%),但被预测为Ras突变的344个细胞系仅153个被标记为Ras突变体(精度=44.5%),即737个细胞系中有510个被正确预测,仅69.2%,精度偏低。精度低预示两种情况,要么分类器分类性能弱,尚不能推广;要么是分类器成功识别出表型突变。

回答这两种可能的方法是用未曾提供给分类器的独立信息。首先,检测BRAF基因的突变状态,BRAF是Ras基因下游典型致癌基因。如BRAF突变模拟Ras表型突变,则分类器将其预测为阴性(野生型),BRAF突变率高会降低作者所观察到的精度。与BRAF野生型细胞系相比,分类器为BRAF突变细胞系赋分明显更高。所有191个假阳性中,56个有BRAF突变,占29.3%。其余假阳性是肿瘤错误分配或肿瘤显示其它表型突变。

接下来检测CCLE药理反应数据,确定Ras分类器评分是否预测了对MEK抑制剂的敏感性。图中结果显示:Ras分类器评分与赛洛替尼(AZD6244)和PD-0325901两种MEK抑制剂敏感性高度相关。因为野生型的R2比突变型的R2大,所以这种与MEK抑制剂的相关性主要由Ras基因的野生型细胞系驱动,暗示了存在几种药物敏感细胞系,否则可能会被Ras基因的直接测序所遗漏。





其它Ras通路表型突变模拟Ras激活



此外,作者还对Ras分类器的性能进行了分类,以预测NF1在各种癌症类型中的失活。NF1是Ras的一种肿瘤抑制因子,作者假设它会有类似上述癌基因突变的下游结果,可以被Ras分类器捕获。因此,作者为NF1执行了相同的过滤数据集处理和训练泛癌症的过程,并在癌症类型分类器中进行了训练。作者将这些NF1评价与Ras分类进行了比较,发现:Ras分类器能检测NF1基因丢失,特别是在多形性胶质母细胞瘤(GBM)、低级别胶质瘤(LGG)、嗜铬细胞瘤和副神经节瘤(PCPG)等中枢神经系统肿瘤中。性能与用癌症类型和泛癌模型构建的NF1分类器相当,但其中肿瘤类型并不包含在Ras分类器的训练中(GBM+ LGG)。Ras分类器在结肠癌、卵巢浆液性囊腺癌和子宫体子宫内膜癌中检测NF1基因失活事件也得到改善。

最后,在KRAS、NRAS和HRAS野生型样本中,如有其它通路后续基因突变,Ras分类器评分增加;有KRAS、NRAS或HRAS突变的样本,通路中其它基因附加突变后,分类器得分没有改变;但其它Ras通路基因中拷贝数增加导致Ras突变样本的Ras分类器得分较低。以上结果提示Ras通路基因外的Ras基因多次突变可能增加Ras激活表型。


点评:

本文用机器学习的方法来构建了弹性网络惩罚的分类器,开创了在Ras通路研究上的一个新应用。而更可贵的是,这个分类器经TCGA的其他小组应用,在其他表达通路上也有不错的表现。或许在现阶段这种缺乏部分监督与标准化的方法无法成为主流的研究办法,但在测序分析中,它可以作为辅助办法来查漏补缺,通过模型增加数据的可读性,回避一些传统方法会引起的偏差。使研究结果更多样化,结论更可信,为将机器学习应用在生物信息学及医学上提供良好思路。

参考文献:

Way Gregory P,Sanchez-Vega Francisco,La Konnor et al. Machine Learning Detects Pan-cancer Ras Pathway Activation in The Cancer Genome Atlas.[J] .Cell Rep, 2018, 23: 172-180.e3.


编辑:林维茵 游丹铭

校审专家:曹漫明

往期回顾:

使用基于LDCT的三维深度学习模型进行端到端的肺癌筛查


专家介绍


曹漫明,南方医科大学珠江医院肿瘤科副主任医师、医学博士。广州市抗癌协会化疗专业委员会常委,广东省细胞生物学学会理事,广州市抗癌协会生物治疗专业委员会委员,广州医学会肿瘤专科分会委员,广东省医师协会肿瘤专科医师分会委员。主要从事膀胱癌、肾癌、前列腺癌等泌尿肿瘤以及乳腺癌的内科治疗,尤专长于泌尿肿瘤的综合治疗,在晚期膀胱癌、肾癌以及前列腺癌的化疗、内分泌治疗、靶向治疗和免疫治疗领域具有丰富的临床经验。门诊时间:周二下午   专家门诊专业方向:乳腺癌、泌尿系肿瘤




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存