梦熊喜欢看文章,X师兄喜欢和依凡讨论文章,小张喜欢把文章中的结果重现出来。今天小张就先介绍三篇最近很火的发文章的套路:不做实验,只挖掘数据库就发表文章。
第一篇是今年5月份刚发的文章,杂志是Pathol Oncol Res,影响因子1.7分,研究团队是伊朗的科学家。
文章主要通过cBioportal对TCGA数据中肝癌的数据进行挖掘,结果找到了一条lncRNA SNHG6作为肝癌的分子标志物。结果如下:
感觉做了好多东西,其实就说了两件事:
lncRNA SNHG6等3条lncRNA在肝癌患者中基因组水平的改变和表达情况;
lncRNA SNHG6与患者预后相关;
关键是只用了一个TCGA使用工具:cBioportal,而这个工具使用起来也非常简单,就这么挖掘下数据库一篇1.7分的文章就发出来了。
接下来我们再看一篇分数高一点的,第二篇文章:
这篇文章是国内团队3月底发的,杂志International Journal of Molecular Sciences,影响因子3.2,分数已经突破3分了,交大博士毕业够了,文章说的是通过生物信息学分析鉴定结直肠癌关键候选基因和信号通路。下面我们看研究内容:
第一印象:图好漂亮,不过分析似乎有点太简单了吧。
下面我们再看一篇分数高一点的文章:
今年5月22号发表,杂志是Oncotarget,虽然OT被大家广为诟病,不过新影响因子出来还是保持住了5分大关,还略微升了那么一丢丢。文章说的是通过RNA测序和芯片数据挖掘研究异常表达的lncRNA在肺鳞癌中的临床意义,我们看看这篇是不是让我们对OT另眼相看:
首先通过R语言分析TCGA数据库中的差异表达lncRNA,并用火山图展示:
(横过来的火山图还是火山图)
接下来,分别通过箱式图、ROC曲线、KM生存分析和与基因FGFR1的共表达分析展示10条最显著lncRNA的结果,四张图就是4个fig:
再往下是lncRNA表达在不同病理参数分组下的表达差异:
还有通过WGCNA筛选基于lncRNA-mRNA共表达网络建立的CNC(Coding-Non-Coding)Network:
接下来是这10条lncRNA在TCGA中的基因组变异、表达以及与预后的关系,用的工具还是cBioportal!
(B图是不是跟文章1里面的很像?因为都是cBioportal做出来!)
到这里就结束了吗?并没有!
以上只是基于TCGA的结果,还要验证呢:
用GEO的数据进行验证
作者用了12对肺鳞癌样本进行验证:表达差异、ROC曲线和连线图
用GEPIA网站对9条lncRNA子在22个肿瘤和癌旁中的表达进行展示
好了,这篇OT的文章就算说完了,其中还有7个表我们没有没有放上来,不过总体来说,这篇OT用到了TCGA数据,GEO以及自己验证的12对肺鳞癌样本,用到了R语言的DESeq包和WGCNA包,Cytoscape软件以及cBioportal和GEPIA网站,图和表不少,而且图都很漂亮。
下面我们总结一下:
第一篇1.7分的文章只用了cBioportal网站分析TCGA数据;第二篇3.2分的文章主要对四个GEO的数据进行分析;第三篇5.1分的文章整合了TCGA、GEO和自己的工作(虽然验证数量只有12对且只有qPCR),用到的工具比较多分析的内容也多,更重要的是图很漂亮,图的排布也很整齐,要知道这是一个看脸的时代啊!
最后,小张聊科研之《实用数据库挖掘》课程上线一周,购买量已经突破600人次,课程里面依凡大大为大家介绍了上面文章里面用到的TCGA数据库数据的下载和分析,GEO数据的挖掘等等,课程内容均已全部更新完毕,大家可以直接观看了。点击阅读原文可查看课程链接。
另外:为了感谢大家对课程的支持,我们打算为大家用实例还原2-3篇5分的文章,第一篇文章内容已经准备完毕,会尽快在VIP群为大家做展示,敬请期待!
长按二维码识别关注“小张聊科研”
关注后获取《科研修炼手册》1.0、2.0、3.0、4.0、基金篇精华合集