多组学文献精读05 | TCGA中的致癌信号通路(视频)
The following article is from 珠江肿瘤 Author 易锐斌
TCGA中的致癌信号通路
Oncogenic Signaling Pathways in The Cancer Genome Atlas
(Cell, IF=36.216)
(视频讲者:张健教授团队易锐斌)
总结
本文分析了TCGA 9125个肿瘤样本,囊括了33种肿瘤类型,用到的数据类型包括:体细胞突变、DNA拷贝数变异、DNA甲基化、基因表达水平及基因融合数据。分析了十种典型通路的机制和体细胞改变模式:Hippo、Nrf2、PI3K/AKT、Myc、Notch、p53、细胞周期、TGFβ、Wnt以及RTK/RAS通路,探究通路间的互作作用,其中对RTK/RAS通路做了更详细的描述。本文还进一步分析可能的联合治疗,包括图中靶向EGFR的埃罗替尼、靶向BRAF的维罗非尼。最后本文得到的主要结果是:
1. 33种癌症类型的9125个样本中10个信号通路的改变图谱;
2. 可重复使用的、管理的驱动基因目录;
3. 57%的肿瘤在这些通路中至少有一个潜在的可操作的突变;
4. 同时发生的可操作改变提示联合治疗的可能。
结果
本文的结果主要分为5个部分,分别是:数据集的介绍,通路的确定,通路在不同肿瘤类型中的改变频率,通路间的互作模式以及针对通路改变可实施的治疗。
数据集
首先,对TCGA 泛肿瘤图谱收集的所有样本进行评估,用到的数据类型有:体细胞突变(全外显子组测序)、基因表达水平(RNA-Seq)、DNA拷贝数变异(Affymetrix SNP6阵列)和DNA甲基化(Infinium阵列)以及基因融合数据。共有9125个样本,囊括了33种不同的肿瘤类型,并且进一步分层为64个亚型(图1A,表S1)。图1A是癌症类型的分布:从内往外分别展示了不同的系统或器官、肿瘤、肿瘤的亚型以及各自样本数。每个样本的所有基因组数据和临床属性都可以通过http://www.cbioportal.org/cBioPortal数据库进行可视化。(cBioPortal数据库:其数据来源于TCGA, ICGC, GEO等数据库,整合的基因组数据类型包括体细胞突变、DNA拷贝数改变(CNAs)、mRNA和miRNA表达量、DNA甲基化、蛋白质丰度和磷蛋白丰度。cBioPortal可以通过可视化的形式展示癌症研究样本的基因组数据,也可以帮助研究人员探索样本、基因和通路之间的遗传变化,并与临床结果相结合。)
通路的定义和改变
请大家带着两个问题去思考:第一,本文如何筛选候选通路及通路基因?第二,如何去定义通路的改变,即改变的纳入和排除的标准是什么?
本文思路是,首先回顾了2017-2018年来自《中国肿瘤杂志》的全套癌症类型特异性通路图,这个通路图包含了所有被发现在单个肿瘤类型中发生基因改变的通路基因。从TCGA已发表的文章中通路的关键基因开始,重点关注癌症驱动因子(功能贡献者)或治疗靶点的通路成员。这些通路图的可视化都PathwayMapper的网站上公开可用。通过对多个TCGA研究中通路成员的合并,得到了10个经常发生基因改变的典型信号通路,并整理了10个通路的候选基因的综合列表。由此得到初步通路模板(图1B)。
本文还定义了通路成员的改变,将其归类为激活事件(包括错义突变,即热点突变,扩增,致癌基因的融合)或失活事件(包括截断突变、肿瘤抑制基因的错义或框内突变、缺失、融合、启动子高甲基化)。通过观察发现基因改变主要有两个特征:一是该基因的突变在各组肿瘤样本间反复出现,二是出现了功能的改变。根据这两个特征,接着本文把不具备这两者特征之一的基因滤除。针对统计复发性,使用的是MutSigCV软件评估(一个利用突变负荷寻找驱动基因的软件),以及使用GISTIC 2.0评估拷贝数变异。为了确定可能的功能变异,使用了热点突变算法识别线性和三维突变热点,用RESET算法评估肿瘤抑制基因启动子DNA高甲基化后的表观沉默,通过系列算法的组合,从RNA-Seq数据中调用基因融合和重组。根据OncoKB数据库的注释,突变的基因标记为肿瘤抑癌基因(TSG)或致癌基因(OG),未标记为致瘤、可能致瘤或预测致瘤的体细胞突变被认为是passenger突变,被滤除(OncoKB数据库:收集了超过400个肿瘤发生发展相关、具有临床意义的基因组变异信息,对于每个变异,提供了其对应的生物学效应、药物互作、预后和治疗意义等详细信息)。通过这一过程,没有反复突变或先前已知的致癌证据的基因被从初始通路模板中移除。再由相应的通路专家或通路分析工作组审查(图1B)。
图1
这样就得到了10个候选通路及通路基因,图2是10个通路的简化图,显示了10个通路中改变频繁的基因,包括改变频率以及每个基因的改变类型:红色表示基因致癌激活,蓝色表示抑癌失活,颜色强度表示在整个数据集内突变的平均频率。每个基因的体细胞改变类型(包括:拷贝数改变、突变、融合或表观遗传沉默)是通过每个基因方框左边的四个垂直白色小圆点来指定的)。分析的通路有:(1)细胞周期,(2)Hippo,(3) Myc,(4)Notch,(5)Nrf2, (6) PI3K,(7)RTK/RAS/ ,(8)TGFβ,(9) p53以及(10)Wnt信号通路。其他在癌症中经常改变的细胞过程,如DNA修复途径DDR的改变、表观遗传修饰、剪接等没有包括在内,主要是因为这些提供了基因组不稳定的背景。
图2
回到我们的问题:1.如何筛选候选通路及通路基因?(筛选流程在图1B,思路是从TCGA已发表的文献中通路的关键基因开始,重点关注癌症驱动因子或治疗靶点的通路成员,综合公开数据库、已发表文献、专家意见,筛选出候选通路及通路基因列表);2.如何定义通路的改变?(基于OncoKB数据库和先验知识的注释,有一个或多个基因包含一个复发或已知驱动改变的通路被认为是改变的肿瘤样本,即具备基因改变两大特征之一的被纳入:统计复发率或功能改变。并将通路成员的改变归类为激活事件或失活事件。)
由此产生的多种肿瘤类型的不同类型改变的综合数据集构成了所有后续分析的基础,包括共发生和互斥性模式的通路,以及潜在的治疗意义。
每个肿瘤类型的通路改变频率
接着,本文计算了每个肿瘤类型和亚型,在10信号通路中至少有一个改变的样本的分数。图3展示了通路改变的频率:底部:10条通路是通过改变的中位数频率来降序排列的。每条通路中颜色强度越大反映更高的改变百分比。右边:提供了每个肿瘤亚型的TMB和染色体不稳定性(CIN)。MSI-POLE亚型在结直肠癌、胃癌和子宫内膜癌中被分组。结果发现:RTK-RAS通路是突变的中位数频率最高的信号通路(占样本的46%)。该通路中突变比例最高的肿瘤亚型(按降序排列)有:黑色素瘤(SKCM, 94%改变)、基因组稳定型结肠直肠癌(CRC GS, 88%)、her2富集型乳腺癌(82%)、胰腺癌(PAAD, 78%),IDH1 -野生型胶质瘤(LGG, IDHwt, 82%),肺腺癌(LUAD, 74%),以及甲状腺癌(THCA,84%)。而在一些类型的肿瘤,如肺鳞癌(LUSC)、EBV阳性的食管胃癌(STES EBV)、非高突变子宫癌(UCEC CN高、CN低),PI3K通路突变率较高。细胞周期通路的改变在许多肿瘤类型中常见,但在葡萄膜黑色素瘤(UVM)、胸腺瘤(THYM)、睾丸癌(TGCT)和急性髓细胞白血病(AML)中很少改变。Wnt通路的改变是所有癌症类型中变化最大的。结直肠癌几乎普遍激活这一通路,而其他比如肾细胞癌和乳腺癌,基因改变频率非常低。Nrf2通路的总体改变频率最低(占样本的1%),在肺鳞癌(25%)和食管胃鳞癌(STES ESCC, 23%)中变化最频繁。
图3
由于RTK-RAS突变频率最高,接着本文关注了在RTK-RAS通路中各肿瘤类型的基因改变。图4A中:红色阴影表示激活事件的频率,蓝色阴影表示失活事件的频率,结果发现KRAS是最常改变的基因(占所有样本中9%),其次是BRAF(7%),EGFR(4%)。图4B是RTK-RAS通路成员改变频率的详细热图,右边及顶部的色条显示了不同类型改变的比例,最左边是RTK-RAS通路成员,底部是不同的肿瘤亚型,每一列所有基因的改变频率加起来可能超过该肿瘤类型的总数,这是因为一些肿瘤样本可能有多个改变。结果发现:KRAS突变在胰腺癌(PAAD, 72%)、基因组稳定的结直肠癌(69%)和肺腺癌(33%)中最常见。BRAF改变既往在黑色素瘤和甲状腺癌中被发现,在本文中分别有51%和62%的样本发生改变。EGFR改变主要见于胶质母细胞瘤(GBM,(50%)、低级别胶质瘤IDHwt(52%)、HPV阴性头颈部癌(HNSC HPV-, 13%)、肺腺癌(13%)、食管胃鳞癌(14%)。ERBB2改变最常见于乳腺癌、染色体不稳定食管胃癌(STES CIN 26%改变)和宫颈癌(CESC 23%改变)。
虽然这里描述的大多数突变都是以前都被报道过的功能改变,但本研究在SOS1中发现了相对罕见的潜在致癌改变(<1%)。SOS1编码一种参与Ras蛋白活化的鸟嘌呤核苷酸交换因子(GEF)。该基因的特定种系突变涉及努南综合征,SOS1的复发性体细胞突变最近在其他Ras通路驱动阴性的肺腺癌样本中被发现。图4C展现了反复发生或已知的SOS1功能突变,右上角不同肿瘤类型进行颜色编码,图中灰色区域表示在基因中观察到的所有其他具有未知重要性变异的突变,本文在1%的肺腺癌和子宫癌样本中发现了SOS1的周期性突变(A90V/T, N233Y/S)和其他已知的激活突变(M269I/V, G434R, R552S/K/G/M,E846K),与亚型无关。在其他几种癌症类型中也发现了较低频率的SOS1突变,这里由于空间原因并没有展示。SOS1罕见突变的识别表明,由于被分析的肿瘤样本多,所以突变很少的新基因也可以被识别,增加了本文数据的可信度及准确度。
图4
此外,本文团队单独发表了对RAS通路突变更详细的分析,包括由于RAS信号失灵导致的下游转录变化,Ras通路中的多次突变能够增加Ras野生型肿瘤中Ras的整体活性(即我们TME专题第17周学习文献 机器学习方法检测癌症基因组图谱中激活的Ras信号通路)。
介绍了RTK-RAS通路,接着看到图5:其他9个通路中最常见的基因改变频率。同样的,红色代表激活事件;蓝色代表失活事件;颜色强度越大代表突变频率越高。每个通路的最后一行total代表每个肿瘤类型该通路的总体改变频率。同样单个基因的改变频率加起来可能超过每种肿瘤类型的总数,因为一些肿瘤样本有多个改变。右边色条显示了不同体细胞改变的样本分数。结果发现:在一些通路中,突变分布在许多基因上(比如细胞周期、PI3K)。而在另一些通路中,改变主要影响少数基因(比如Myc 、Wnt 、Nrf2通路)。
图5
补充图2和补充图3提供了每个通路中每个基因改变频率的完整热图。
补充图2
补充图3
本文团队对其中几个通路也做了单独的发表,有更详细地介绍,包括:(1)PI3K通路,PI3K通路的异常主要是在PIK3CA中激活事件(在PIK3CB中较少发生)和PTEN或PIK3R1中的失活事件,其中PIK3CA和PTEN的改变最常见于头颈癌、乳腺癌、胃肠道肿瘤、妇科肿瘤;(2) TGFβ通路:在胰腺癌和胃肠道癌中具有最高的改变率,而在其他类型的肾癌和脑癌中,该途径几乎没有改变;(3) Myc通路:Myc通路改变在伴有染色体8扩增的肿瘤类型中最为常见,其中含有MYC,如乳腺癌、卵巢癌(OV)等。大家有兴趣可以在引文中找到。
通路间的互斥性和共现性改变
单个肿瘤通常有多个功能改变,可能同时有不同通路的改变,而一个通路可能又有多个靶点的改变。为了理清通路间的关系,本文主要关注两种模式:通路的互斥性与共现性。互斥模式有两种情况:第一,功能冗余,一旦一个改变发生并被选择,第二个就不会提供进一步的选择优势,第二,与合成致死率有关,细胞无法在两个改变中存活。而共现性模式表明了功能协同作用,更重要的是,可能反映针对其中一种突变的治疗的耐药性的发生。
为了探索通路或基因发生共现性和互斥性的改变,本文使用了SELECT方法(在PancanPathway GAM上运行的一种方法,可以推断出发生模式改变之间的条件选择依赖关系)。在410个被描述的改变中,确定了156对相互排斥的改变和117对同时发生的改变,再将这些受影响的通路与本文研究的10条通路匹配。图6A-B是通路内和通路间基因改变的互斥性(紫色)和共现性(绿色),星号表示显著性。图6A,结果发现:p53、细胞周期、RAS和PI3K通路中有许多互斥的通路对,这表明了一个改变就足以在功能上改变这些通路。另一方面,Hippo、RTK和Wnt通路有许多共现性改变对,表明共现性事件介导了通路的协同激活。
图6A-C
SELECT方法还确定了不同通路之间的几个重要的相互依赖关系,如补充图4,A图结果发现RTK/RAS与PI3K通路显著相互排斥,这与先验知识RTK能够激活任一通路而不需要额外的突变一致。值得注意例外的是FGF受体FGFR2和FGFR3与PI3K通路的共现性突变。B图中,p53和细胞周期通路经常同时改变,TP53突变与细胞周期大量突变存在共现性,包括CCNE1的扩增、CDKN2A的突变、RB1的缺失、CDK6和E2F3的扩增。而TP53突变与CDKN2A缺失相互排斥,后者可以影响p16,调节细胞周期,以及ARF,促进p53依赖的凋亡。同样的,图中MDM2扩增与RB1、CDKN2A缺失存在互斥。这些结果表明,p53通路和细胞周期通路经常在多种肿瘤类型中共同改变,要么通过两个互斥独立的事件(比如TP53和RB1的突变),要么通过一个能同时影响这两个通路的突变(比如CDKN2A的缺失)。
补充图4
在图6B中,可以发现PI3K和Nrf2通路的共现性最强,于是做了进一步的研究。
图6C是PI3K和Nrf2通路基因改变的共现性和互斥性,编码NRF2的NFE2L2基因的激活突变和扩增与PIK3CA的扩增显著同时发生,并倾向于与PIK3CA的突变和PIK3CB扩增同时发生。STK11的缺失与NFE2L2扩增较大程度上相互排斥,与NFE2L2的一种负调控因子KEAP1的功能缺失显著共存。接着本文进一步发现,Nrf2-PI3K通路共现性改变改变在肺肿瘤(鳞状细胞癌和腺癌)、食管癌、头颈部鳞状细胞癌和子宫癌中最常见,与亚型无关。图6D是Nrf2-PI3K通路在各肿瘤类型中的共现性频率,绿色表示PI3K和Nrf2通路均发生改变的样本百分比,降序排列。图6E是这两条通路的基因改变的细节,在图6D这些肿瘤类型中,NFE2L2和KEAP1的改变是反复发生的,几乎完全互斥,且它们常常与PIK3CA激活或STK11缺失同时发生。这与有文献报道PI3K通路的激活促进了NRF2的积累,进而介导了维持细胞增殖所需的代谢通路,并保护细胞免受活性氧的侵袭相一致。图6F是机制图,上部分是PI3K通路,下部分是Nrf2通路,通路与各自抑制分子作用是已知的,比如NRF2通过抑制分子KEAP1和CUL3被抑制。观察到的PI3K和Nrf2通路的共现性变化表明,绕过这些抑制机制(比如通过丢失KEAP1或CUL3,或通过直接过度激活NFE2L2)与激活的PI3K通路是协同作用的。并且,肿瘤可能依赖于NRF2的活性来耐受PI3K通路的过度激活。
图6D-F
图6B中,除了PI3K和Nrf2通路的共现性,本文还发现RTK通路和RAS通路包含大量显著的互斥的改变对,以及少数共现性突变的基因对,接着,本文进一步关注了RTK通路和RAS通路间互作。图6G:结果发现促进EGFR活化的突变在显著性突变对中数目最多。H图,发现EGFR活化与Her2的激活(小图1)以及RAS通路的关键驱动因素(小图3)显著相互排斥,RAS通路的关键驱动因素包括BRAF和KRAS的致癌突变以及NF1和RASA1的丢失。有研究报道活化的EGFR与突变的KRAS可能是综合致死的,并且在结肠癌和黑色素瘤中可以介导对BRAF抑制的耐药性,这些结果就提示了活化的EGFR与NF1或RASA1缺失有类似的拮抗作用。另一方面,小图2中,可以发现EGFR扩增与EGFR突变或基因融合高度共现。小图4中,在胶质母细胞瘤和IDH野生型低度胶质瘤中,EGFR活化与位于4号染色体q12的PDGFRA和KIT的局灶性扩增同时存在 ,这表明,在这些病例中,可能检测到相同的结构变异,即拷贝数增加和融合。
图6G-H
总的来说,这些结果提供了通路和通路基因间的交互作用图,反映了功能性的相互作用和依赖关系,可以用于指导临床治疗。
可实施的治疗
最后,本文利用临床可操作突变的OncoKB数据库,系统地评估了每种癌症类型的每个样本中的所有改变,区分标准治疗和试验性疗法。总的来说,51%的肿瘤在这10种信号通路中至少有一种可操作的改变,57%的肿瘤在包含这些通路外的基因时至少有一种可操作的改变,比如BRCA1/2以及IDH1/2。
图7A是按癌症亚型划分的临床可操作治疗的频率,按证据水平(1-4级)细分,顶部图例用不同颜色分别表示可操作治疗、致瘤但不可操作、以及意义不明的变异(VUS)进行分析。图7B是癌症亚型中每个基因可操作改变的频率,对于不同变化的基因,显示多行,基因按通路分类。底部6个不在10个通路中的基因(BRCA1, BRCA2, ERCC2, IDH1, IDH2, ESR1)也被包括在内,并在整体频率中被考虑在内。结果发现:除了富含her2的乳腺癌样本大多数都有标准的靶向治疗,黑色素瘤是有1级或2A级突变比例最高的肿瘤类型(46%),主要是由于频繁BRAF突变(对应B图黑色素瘤这列B图中绿色小方框),随后是食管癌(主要是ERBB2扩增)。Luminal A型乳腺癌是3A级中出现改变频率最高的肿瘤类型(3A级是紫色图例),PIK3CA、AKT1和ERBB2突变率高。一些肿瘤类型3B级(淡紫色图例)有频繁的突变,包括子宫内膜癌,其中PIK3CA突变很常见。葡萄膜黑色素瘤和睾丸非精原细胞瘤的潜在靶样比例最低(分别为2.5%和8.5%)。胸腺瘤、间皮瘤和肾透明细胞癌(KIRC)也有低频率的潜在可操作的改变。图7C是每个肿瘤类型可操作改变的数量,结果发现,30%的肿瘤样本有两个或两个以上潜在的靶向性改变。其中,MSI和POLE突变的肿瘤亚型在具有多种潜在可操作改变的样本的比例最高。其他较高的肿瘤类型包括非高突变的子宫内膜癌(64%),结直肠癌(37%)和乳腺癌(28%)。
本文还寻找了基于发生的可操作改变,在跨不同肿瘤类型可以证明有效的候选药物组合。图7D是可能的药物组合的频率,由每种肿瘤类型中可操作改变的共现性来表示,为最常见的药物组合。结果发现:MSI和POLE亚型有高比例可操作突变的样本来对应于各种药物组合。在其他肿瘤亚型中,CDK4和MDM2抑制剂的组合是最常见的组合(总比例为1%),特别是在去分化脂肪肉瘤(SARC DDLPS)中,有78%的病例同时扩增了这两个靶点。而HER2和PI3K抑制剂组合可能对多种肿瘤类型有益,特别是her2富集型乳腺癌(17%)、子宫癌肉瘤(UCS, 7%)、染色体不稳定型子宫内膜样癌(UCEC CN high,7%)以及宫颈腺癌(7%)。其他候选联合治疗与肿瘤相关较为显著的有:MEK和PI3K抑制剂联合与EBV+胃肿瘤(10%),多形性胶质母细胞瘤中的CDK4和PI3K抑制剂(7%),胰腺癌中HER2和MEK抑制剂(7%),PI3K和RAF抑制剂联合与黑色素瘤(SKCM, 12%), IDH和PI3K抑制剂联合与idh突变低分级胶质瘤(14%)。
图7
需要注意的是,这里研究的可操作的治疗是基于前面观察到的通路互作的共现性改变,而非实验或临床环境中的有效联合治疗,并且不是所有明显的功能突变都代表治疗靶点,比如,MSI和POLE突变的肿瘤亚型中有很多突变,其中只有一小部分可能主导了肿瘤的发生。总之,共现模式显示的是联合治疗在某些肿瘤类型的潜景。
总结
控制细胞周期进展、凋亡和细胞生长的信号通路的遗传改变是癌症的常见特征,但这些通路的改变程度、机制和共现性在肿瘤个体和肿瘤类型之间有所不同。对TCGA 9125个肿瘤样本的体细胞突变、拷贝数变化、mRNA表达、基因融合和DNA甲基化数据进行分析,分析了细胞周期、Hippo、Myc、Notch、Nrf2、PI3K/Akt, RTK-RAS, TGFβ,p53和β-catenin/Wnt等十种典型通路的机制和体细胞改变模式。绘制了33种癌症类型的通路改变的详细图景,分成64个子类型,并确定了共现和互斥的模式。89%的肿瘤在这些途径中至少有一种驱动突变,57%的肿瘤至少有一种突变是目前可用药物可能靶向的。30%的肿瘤有多个靶点的改变,这提示了联合治疗的机会。
相关阅读
单细胞测序文献精读 | ;单细胞测序描绘三阴性乳腺癌的耐药性演变(视频)
套路必读:烧钱做单细胞上顶级期刊有哪些潜规则 | ;单细胞专题
珍藏版综述:肿瘤mRNA和非编码RNA的m6A修饰 | m6A专题
单细胞转录组数据分析 | ;界面版数据分析工具简介