查看原文
其他

明码标价之公共数据库探索

生信技能树 生信技能树 2022-08-10

众所周知,肿瘤的TNM分期是目前临床上比较常用的分期方式之一:

  • 其中的T代表的是肿瘤原发灶,其中包括原发灶的部位、大小、数目、侵犯的范围、浸润的深度等
  • 而N代表的是转移淋巴结,包括转移淋巴结的数目、大小、侵犯的范围等
  • M代表的是转移灶,包括转移灶的部位、数目等

所以,理论上可以分析不同的N或者M的分期的病人来看肿瘤转移与否的差异情况,最近看到了一个文章就是这样做的了,比较N0和N3时期的TCGA数据库的ESCC表达量样品的差异,该文章于2020年发表在《 Adv Sci 》杂志的文章《Direct Targeting of CREB1 with Imperatorin Inhibits TGFβ2‐ERK Signaling to Suppress Esophageal Cancer Metastasis》,链接是:https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202000925

下载TCGA表达量矩阵进行指定分组的差异分析

RNA-sequencing data and clinical in- formation of 60 ESCC cases were obtained from The Cancer Genome Atlas (TCGA) database, and the gene profiles of tumors at N0 stage were compared with those at N3 stage.

主要的分析方法这些年都被写烂了,我就不再赘述:

主要是考验对TCGA数据库的熟悉程度啦,然后对统计学显著的差异进行进行GO数据库的富集分析,如下所示的结果:

GO数据库的富集分析结果

然后作者这里做了一个超级骚的操作,对上面的GO富集条目里面的基因进行计数,发现有TGF𝛽2基因的条目超高了四分之一,同时它也是排名第4高频出现的基因。

如下所示:

排名第4高频出现的基因

由此开始了作者的课题:Among the top genes highly enriched in the pathways listed in Figure 1A, TGF𝛽2, which ranks 4th with a high frequency (26%) of enrichment in the total GO terms, be- came our research focus (Figure 1B).

其实呢这个步骤是架不住推敲的,针对统计学显著差异基因继续GO数据库条目的超几何分布检验,其中含有TGF𝛽2基因的GO条目出现的频率比较高,其实可能是因为TGF𝛽2基因本身参与的功能比较多。是因为它本身出名,而不是因为本次差异分析把它筛选出来了的。

毫无疑问,TGF𝛽2, 肯定是具有表达量差异,所以作者加入了如下所示的小提琴图:

TGF*𝛽*2的表达量差异

当然了,确定一个基因的重要性,仅仅是表达量的上升还不够,还需要高表达它的时候,病人死得快,所以有了如下所示的生存分析图表

TGF*𝛽*2是坏的生存因素
我在生信技能树多次分享过生存分析的细节;

生存分析是目前肿瘤等疾病研究领域的点睛之笔!

虽然有瑕疵,但不失为一个好的数据复用的案例

绝大部分对生物信息学有误解的小伙伴还迷失在所谓的快速发文的套路里面,这样的想法非常危险。其实都看文献,数据复用的前提是支持你的生物学假设,这样的数据挖掘才是王道!

如果你也有自己的科研想法,希望能在TCGA等公共数据库里面探索一下,而且网页工具无法达到你的需求, 那么我们的生信工程师团队可以帮助你哦!这样的差异分析,GO或者KEGG数据库注释,生存分析全一套,仅需人民币1600即可!附送代码和数据,不玩虚的!

你指哪儿,我们就打哪儿!(有需求的直接在公众号这个推文下面留言哦!)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存