这也许是最后一次讲解：如何不做实验发IF 5分的文章

2017-08-18 生信人 弗雷赛斯

事实上很多院校对SR、OT都嗤之以鼻，但是今年 Oncotarget 竟然逆势上涨，小编又不小心关注了一下，刚好看到一篇比较简单适合新手入手的文章，今天就来聊一聊这篇不做实验依然发五分以上文章的套路。

这篇文章是去年十月份发表在Oncotarget上的题目是：

A seven-gene signature predicts overall survival of patients with colorectal cancer

文章主要流程如下：

从流程中来看其实非常简单，就是先下载67个样本的芯片数据，做数据标准化，跑了一下单因素生存分析，筛选出了6487个显著的基因（探针），进一步做了一下KEGG的富集美化了一下结果，然后使用一个降维工具（有个R包，一条命令就完事），筛选出了7个基因，这七个基因能够区分癌症高风险低风险，然后建立了这样的7个基因的预后模型，随后用TCGA、GSE17537两套数据来验证了一下这个模型的好坏，就完事了。

看完这些有些R语言好一点的同学自己就能做了（小编我TM就不会做，可恶的生信人，别在我面前显摆行么），是不是突然发现原来五分的文章这么好发，事实上建模的文章没有发不出去的，只有不会写文章的人。

那么怎么将上述结果整理成一篇有逼格的文章是一个技术活，现在一步一步来解析这篇文章。

1、首先数据下载及标准化先说明

2、其次单因素生存分析，显著差异的说明一下，顺带列个最显著的前20个放在文章表里（这篇文章没放）

3、这些显著的预后差异基因的KGEE富集结果简要说明一下这些结果，不局限与KEGG,GO等其他的也行，主要丰富文章内容，说明这些预后差异基因跟肿瘤有什么联系

4、开始降维，得到降维结果，降维方法很多，这里用的是rbsurv，可以换lasso，unicox等等很多降维方法，也可以多次，多参数的使用同一种降维方法进行降维

5、得到最终的降维后的基因集

7、这些基因集的特征分析如图B、C、D，主要就几个方面每个基因的单因素、多因素、差异表达（早期和晚期，癌与癌旁等等）、聚类分析、聚类后的样本预后分析，这些可以都尝试一遍找到想要的结果，本文中使用的是聚类分析，聚类后分类预后差异显著，同时大部分基因在正常与癌症组织中差异表达，用来说明这7个基因确实能够影响疾病的预后

8、建立多因素预后模型，这是本文的最终的模型结果，自己做不局限于此，可以根据第七步的结果酌情选择最终的建模方法，这里简单粗暴的使用的多因素回归，从AUC结果可以看出结果很好

9、预后模型已经建完，那么咱们就该来对比一下这个模型与现在的TNM分期等有什么关系，效果会不会比他们好一点，显然结果好就往上贴（你懂的）

10、外部数据集验证，先TCGA数据来验证一下，当你的数据TCGA中没有怎么办？很简单！在你刚开始的时候把样本分组，分一部分数据到这里来，或者随机抽样。

至此一篇有态度的文章结束，虽然简单粗暴，但你却无法反驳，当然学术研究必然是严谨的，作者做这篇文章中也一定尝试了很多方法，给我们呈现了一个7-gene模型，同时也给我们提供了一个数据建模思路。

生信人团队真正想做的事儿

虽然以上文章是生信人解析的，但他们明显已经"厌烦"了这种套路，他们说要开发“0编程语言”的可视化软件，让“软件点点点=N篇文章思路”成为现实，拯救广大生信小白于水火之中!

往期更多？戳戳↓↓

Freescience的号内搜索来了，检索步骤奉上！

FS科研软件库，集合60+医学科研必备神器，现在统统打包分享，点这里

致敬Scihub|Freescience、生信人要一起做些很Cool的事儿

科学自由共享

投稿请扔至：freescience@zju.edu.cn

未经许可不得转载

长按二维码关注

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！