查看原文
其他

TCGA精选系列-免疫治疗预测标志物

shuanmen 生信人 2022-06-21
写在前面:

今天开始,小编将为大家推出一个系列的文章,并且之后会持续更新。首先说明一下为什么会做这个系列。生物信息学作为一个交叉学科,对于海量数据的挖掘有他独特的魅力。除了数据爆炸式增长之外,纯生信的文章数量相信大家也有目共睹。对于有基础的人来说,不管是阅读生信的文章,还是自己开展生信的课题都得心应手。不过对于基础薄弱或者没有基础(生信说到底也只是一个工具,没有基础也不重要)的人来说,不管是阅读还是自己实战其实都比较困难。哪怕市面上已经有了很多教程或者课件,生信分析结果到最终的文章之间还是有一段距离的。甚至很多上了课的人只知道数据怼到程序里去能出来个结果,至于为什么做,为什么用这个做,做了的结果有什么用,文章正文该放哪张图其实都不清楚。因此小编将在这个系列里,结合最新的文章进行解析。不局限于数据层面,而是以真实的文章的框架和逻辑出发进行解读,包括但不限于杂志介绍,背景的重点,介绍部分如何书写,方法和数据的细节,结果的框架,实验假设,结果如何解析,正文图如何搭配等。

公开数据挖掘思路
肿瘤免疫治疗预测标志物
直接扫码咨询


至于为什么是TCGA,为什么是精选,主要考虑了亮点。一是TCGA作为代表性最强的公共数据挖掘文章的数据来源,对应的文章借鉴意义很高,泛用性也较好,其他例如GEO的数据都能依样画葫芦。二是杂志选择范围在IF 7-10之间,同时避开风险期刊。这样能够一定程度上保证文章水平,但又不至于太难。

正文:
今天要介绍的文章于2022年二月份发表在Frontiers in immunology,影响因子7.561,中科院升级版医学二区,属于生信友好期刊。

The Predictive Value of PAK7 Mutation for Immune Checkpoint Inhibitors Therapy in Non-Small Cell Cancer

背景部分
因为文章做的是免疫治疗预测标志物,其实背景可以说非常简单。至今为止,免疫治疗已经将晚期非小细胞肺癌的5年生存率由4%改善到15%。然而,仅仅只有30%-50%的患者对免疫检查点抑制剂(ICI)免疫治疗响应。因此,使用准确的生物标志物筛选潜在获益的患者可能是很有价值的。

介绍部分
介绍部分可以简单分成四段,第一段表明非小细胞肺癌的研究现状;第二段介绍免疫治疗预测标志物的迫切需求;第三段表明研究对象也就是基因突变作为预测标志物的潜力;最后一段只需要写本研究的内容梗概即可。

这篇文章的真实框架如下:
肺癌是发病率和致死率最高的恶性肿瘤,其中非小细胞肺癌(NSCLC)占肺癌的80-85%。近年来,靶向免疫检查点的免疫治疗已经改善了NSCLC的5年生存率。然而仅仅只有部分患者对免疫治疗获益,因此识别新的生物标志物尤为重要。

一些生物标志物已经成功预测ICI治疗的效果,例如PD-L1的表达,TMB,新抗原负荷(NAL),错配修复,微卫星不稳定,特异基因的突变和肿瘤浸润性淋巴细胞。然而,这些潜在的标志物存在一些限制,例如PD-L1的检测具有空间异质性和时间上的变化;TMB对于OS的预测还不够可靠。因此,精准的预测生物标志物仍然需要去探索。

大量的研究已经表明特异的基因突变与ICI治疗效果相关。例如EGFR突变,TP53和KRAS共突变。这些结果表明,肿瘤相关基因的突变可能有助于患者分层。

这项研究中,旨在使用NSCLC免疫治疗队列和TCGA队列来识别与ICI治疗效果有关的特异的基因突变。结果表明PAK7突变与免疫治疗改善OS,增强了肿瘤免疫原性,激活抗肿瘤免疫,肿瘤相关通路改变有关,暗示PAK7突变可能作为NSCLC免疫治疗独立的预测生物标志物。

材料方法部分
总结起来为:NSCLC的免疫治疗队列分析识别与ICI治疗患者预后相关的基因突变。接着,对TCGA NSCLC队列进行分析,用于验证特异的基因突变与肿瘤免疫原性,抗肿瘤免疫力以及肿瘤相关通路改变的关系。

本文真实框架为:
Clinical Cohorts and Survival Analysis
NSCLC ICI治疗队列来自2019年nature genetics文章,数据存放于cBioPortal,数据本身包含1661个患者,突变数据;包含的癌症类型有:膀胱癌,乳腺癌,结直肠癌,胶质瘤,食管癌,头颈癌,NSCLC,肾细胞癌,黑色素瘤。

本文选择NSCLC患者数据(266例,但是数据本身NSCLC350例,不知道筛选标准是什么)。

GDC获取TCGA NSCLC队列(OS=823,DFS=490)

Genome Characteristics and Tumor Immunogenicity Analyses

TCGA数据TMB来自于2018年的TCGA泛癌文章,ComplexHeatmap用于可视化突变图谱,Maftools用于分析共突变。

Copy Number Variation Analysis

TCGA CNV数据来自GDC GISTIC处理之后的结果,Maftools用于可视化。

Immune-Related Gene and CIBERSORT Analysis

EdgeR用于差异表达分析,clusterProfiler用于富集分析,p<0.05作为阈值;DNA损伤反应通路来自于2018年cancer research文章,如果非同义突变的基因存在于DDR通路,则通路定义为突变。

Statistical Analyses

多变量cox用于确定基因的预后潜能;Mann-Whitney U检验用于分析PAK7基因突变与野生型样本间TMB等指标的差异;fisher精准检验用于比较PAK7突变与野生型样本间基因突变与临床特征差异,以及共突变状态,DDR基因突变频率。P<0.05为显著性阈值。

结果部分
1.PAK7 Mutations Are Associated With a Favorable Prognosis in the NSCLC Patients Receiving ICIs
这一步的分析,首先是基于NSCLC免疫治疗队列进行的。为了找到与免疫治疗患者预后显著相关的基因突变,针对每个基因的突变状态将样本分为突变组和野生型组并进行生存分析。从附表结果来看,得到了32个基因突变与生存显著相关。多变量cox分析之后,可以定位到PAK7是唯一一个独立的因素。这也是文章将PAK7定为主题的原因。定位到基因之后,针对TCGA数据,同样分析了PAK7突变与非免疫治疗队列生存的关系。可以看到在TCGA数据中,PAK7与非免疫治疗患者生存并不相关。因此,此部分的结论就可以这么下:PAK7突变可以作为NSCLC免疫治疗患者预后独立的潜在预测标志物。最后,这部分需要放的图只需要包含免疫治疗队列和非免疫治疗队列PAK7的生存曲线和多变量cox的森林图即可。附表提供32个基因的KM结果,剩余基因的生存结果其实可放可不放。


2.Genomic Distinctions Between the PAK7-MT and PAK7-WT Groups
既然已经确定了标志物,剩下的事情就是解析相关的分子机制即可。此部分的主要内容是比较PAK7突变和野生型间的基因组差异。对于免疫治疗队列和TCGA非免疫治疗队列,比较了组间其他基因突变差异及临床特征差异。虽然没有发现临床特征具有显著差异,但是在两个队列都发现了显著差异的基因突变。这些显著差异的基因突变被报道与抗肿瘤免疫增强和良好预后相关,可能对PAK7突变与良好预后产生贡献。此外在基因组层面对PAK7基因进行刻画,使用棒棒糖图进行可视化。接下来针对CNV数据进行比较,由于只有TCGA有相应的数据,因此这部分的内容也只停留于TCGA。这部分内容很常规,只需要将显著扩增或者缺失的区域指出来即可,不同区域差异基因的统计放附图即可。最后,考虑到低TMB患者中,驱动基因的突变会导致NSCLC从免疫治疗中获益减少。因此进行了共突变分析,但并没有发现显著结果。这部分需要放正文的图只需要两张瀑布图和CNV的图即可,剩余的棒棒糖图,共突变结果和统计结果都放附图。


3.PAK7 Mutations Are Correlated With Enhanced Tumor Immunogenicity and Alterations in DDR Pathways
因为TMB和NAL在一定程度上代表了肿瘤的免疫原性,和免疫治疗效果相关。因此,这部分首先比较了免疫治疗队列和非免疫治疗队列PAK7突变和野生型组间TMB和NAL的差异。TMB在两个队列中都表现出PAK7突变组显著更高;而NAL只在非免疫治疗队列中表现出PAK7突变组具有更高水平。由于大量的研究表明DDR通路的突变与基因组不稳定有关,并且可能改善NSCLC免疫治疗患者的临床结局。因此,通过比较PAK7突变和野生型组间DDR通路基因的突变频率可以发现突变组的频率显著更高。这些结果可以得到的结论是:更高的TMB,NAL和DDR突变频率可能是PAK7突变患者疗效更好的原因。此部分正文的图只需要放TMB,NAL的箱式图以及DDR突变的柱状图即可。其实针对免疫治疗队列NAL的图完全可以放正文。作者这个地方因为其结果阴性,甚至都没有放附图。


4.PAK7 Mutations Activate the Antitumor Immunity
免疫疗法的疗效不仅仅取决于肿瘤本身的免疫原性,同样取决于肿瘤的免疫状态。因此,这部分探索了抗肿瘤免疫的改变,具体的做法是比较了非免疫治疗队列(主要是因为免疫治疗队列并没有表达数据)PAK7突变与野生型组间免疫相关基因的表达水平。针对这个结果,可以选择其中一两个显著差异的进行解析,例如本文的CD276在突变组显著更低,而CD276本身能够介导免疫逃逸,这也就一定程度上说明了突变组疗效更好的原因。已有研究表明,浸润性免疫细胞对于接受免疫治疗的患者预后具有显著影响。因此,针对非免疫治疗队列采用CIBERSORT评估免疫细胞比例,并比较突变与野生型组间差异。结果部分同样只需要挑选一两个显著差异的进行解析,例如本文的CD8+T细胞水平,突变组显著高于野生型组,表明PAK7突变可能激活抗肿瘤免疫。最后,此部分正文的图只需要放免疫相关基因表达水平的热图或者箱式图,免疫细胞水平的箱式图即可。原文PAK7的表达水平其实也仅仅在讨论部分出现,完全可以放附图。


5.PAK7 Mutations Affect the Tumor-Related Biological Pathways
由于PAK7突变如何影响免疫原性和抗肿瘤免疫的机制还不清楚,因此为了探索其分子机制,肿瘤相关通路的分析是一个很好的表征方式。这部分的内容也比较常规,只需要比较PAK7突变和野生型组间的通路差异即可,柱状图和GSEA都是很好的形式。对于结果,只需要将显著差异的通路挑出来解释即可,例如本文的免疫相关通路在突变组显著富集,而致癌通路P53等在野生型组显著富集,这些结果与前文的结论也能够达成一致。


总结
其实整篇文章看下来,核心无非就是基于真实的免疫治疗数据,不费什么功夫就找到了一个突变基因能够预测患者疗效。至于后续的分析,都只是对相应的分子机制的解析,内容其实还可以更丰富。当然,文章其实有一个很明显的局限性存在,对于分子机制的解析都是基于非免疫治疗队列在进行。但是可以看到,这样一篇文章审稿人还是愿意接受,免疫治疗队列以及免疫治疗标志物识别还是很有吸引力的。最后,从数据层面我们其实可以看到,2019年nature genetics文章的数据本身包含膀胱癌,乳腺癌,结直肠癌,胶质瘤,食管癌,头颈癌,NSCLC,肾细胞癌,黑色素瘤。而当前的文章只挖掘了非小细胞肺癌,这套数据还有很大的空间留给我们去探索。

公开数据挖掘思路
肿瘤免疫治疗预测标志物
直接扫码咨询

更多生信分析问题咨询:18501230653

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存