明码标价之公共数据库探索
众所周知,肿瘤的TNM分期是目前临床上比较常用的分期方式之一:
其中的T代表的是肿瘤原发灶,其中包括原发灶的部位、大小、数目、侵犯的范围、浸润的深度等 而N代表的是转移淋巴结,包括转移淋巴结的数目、大小、侵犯的范围等 M代表的是转移灶,包括转移灶的部位、数目等
所以,理论上可以分析不同的N或者M的分期的病人来看肿瘤转移与否的差异情况,最近看到了一个文章就是这样做的了,比较N0和N3时期的TCGA数据库的ESCC表达量样品的差异,该文章于2020年发表在《 Adv Sci 》杂志的文章《Direct Targeting of CREB1 with Imperatorin Inhibits TGFβ2‐ERK Signaling to Suppress Esophageal Cancer Metastasis》,链接是:https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202000925
下载TCGA表达量矩阵进行指定分组的差异分析
RNA-sequencing data and clinical in- formation of 60 ESCC cases were obtained from The Cancer Genome Atlas (TCGA) database, and the gene profiles of tumors at N0 stage were compared with those at N3 stage.
主要的分析方法这些年都被写烂了,我就不再赘述:
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
主要是考验对TCGA数据库的熟悉程度啦,然后对统计学显著的差异进行进行GO数据库的富集分析,如下所示的结果:
然后作者这里做了一个超级骚的操作,对上面的GO富集条目里面的基因进行计数,发现有TGF𝛽2基因的条目超高了四分之一,同时它也是排名第4高频出现的基因。
如下所示:
由此开始了作者的课题:Among the top genes highly enriched in the pathways listed in Figure 1A, TGF𝛽2, which ranks 4th with a high frequency (26%) of enrichment in the total GO terms, be- came our research focus (Figure 1B).
其实呢这个步骤是架不住推敲的,针对统计学显著差异基因继续GO数据库条目的超几何分布检验,其中含有TGF𝛽2基因的GO条目出现的频率比较高,其实可能是因为TGF𝛽2基因本身参与的功能比较多。是因为它本身出名,而不是因为本次差异分析把它筛选出来了的。
毫无疑问,TGF𝛽2, 肯定是具有表达量差异,所以作者加入了如下所示的小提琴图:
当然了,确定一个基因的重要性,仅仅是表达量的上升还不够,还需要高表达它的时候,病人死得快,所以有了如下所示的生存分析图表:
人人都可以学会生存分析(学徒数据挖掘) 学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢? 基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大? 学徒作业-两个基因突变联合看生存效应 TCGA数据库里面你的基因生存分析不显著那就TMA吧 对“不同数据来源的生存分析比较”的补充说明 批量cox生存分析结果也可以火山图可视化 既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析 多测试几个数据集生存效应应该是可以找到统计学显著的! 我不相信kmplot这个网页工具的结果(生存分析免费做) 为什么不用TCGA数据库来看感兴趣基因的生存情况 200块的代码我的学徒免费送给你,GSVA和生存分析 集思广益-生存分析可以随心所欲根据表达量分组吗 生存分析时间点问题 寻找生存分析的最佳基因表达分组阈值 apply家族函数和for循环还是有区别的(批量生存分析出图bug) TCGA数据库生存分析的网页工具哪家强 KM生存曲线经logRNA检验后也可以计算HR值
生存分析是目前肿瘤等疾病研究领域的点睛之笔!
虽然有瑕疵,但不失为一个好的数据复用的案例
绝大部分对生物信息学有误解的小伙伴还迷失在所谓的快速发文的套路里面,这样的想法非常危险。其实都看文献,数据复用的前提是支持你的生物学假设,这样的数据挖掘才是王道!
如果你也有自己的科研想法,希望能在TCGA等公共数据库里面探索一下,而且网页工具无法达到你的需求, 那么我们的生信工程师团队可以帮助你哦!这样的差异分析,GO或者KEGG数据库注释,生存分析全一套,仅需人民币1600即可!附送代码和数据,不玩虚的!
你指哪儿,我们就打哪儿!(有需求的直接在公众号这个推文下面留言哦!)