这也许是最后一次讲解:如何不做实验发IF 5分的文章
事实上很多院校对SR、OT都嗤之以鼻,但是今年 Oncotarget 竟然逆势上涨,小编又不小心关注了一下,刚好看到一篇比较简单适合新手入手的文章,今天就来聊一聊这篇不做实验依然发五分以上文章的套路。
这篇文章是去年十月份发表在Oncotarget上的题目是:
A seven-gene signature predicts overall survival of patients with colorectal cancer
文章主要流程如下:
从流程中来看其实非常简单,就是先下载67个样本的芯片数据,做数据标准化,跑了一下单因素生存分析,筛选出了6487个显著的基因 (探针),进一步做了一下KEGG的富集美化了一下结果,然后使用一个降维工具(有个R包,一条命令就完事),筛选出了7个基因,这七个基因能够区分癌症高风险低风险,然后建立了这样的7个基因的预后模型,随后用TCGA、GSE17537两套数据来验证了一下这个模型的好坏,就完事了。
看完这些有些R语言好一点的同学自己就能做了(小编我TM就不会做,可恶的生信人,别在我面前显摆行么),是不是突然发现原来五分的文章这么好发,事实上建模的文章没有发不出去的,只有不会写文章的人。
那么怎么将上述结果整理成一篇有逼格的文章是一个技术活,现在一步一步来解析这篇文章。
1、首先数据下载及标准化先说明
2、其次单因素生存分析,显著差异的说明一下,顺带列个最显著的前20个放在文章表里(这篇文章没放)
3、这些显著的预后差异基因的KGEE富集结果简要说明一下这些结果,不局限与KEGG,GO等其他的也行,主要丰富文章内容,说明这些预后差异基因跟肿瘤有什么联系
4、开始降维,得到降维结果,降维方法很多,这里用的是rbsurv,可以换lasso,unicox等等很多降维方法,也可以多次,多参数的使用同一种降维方法进行降维
5、得到最终的降维后的基因集
7、这些基因集的特征分析如图B、C、D,主要就几个方面每个基因的单因素、多因素、差异表达(早期和晚期,癌与癌旁等等)、聚类分析、聚类后的样本预后分析,这些可以都尝试一遍找到想要的结果,本文中使用的是聚类分析,聚类后分类预后差异显著,同时大部分基因在正常与癌症组织中差异表达,用来说明这7个基因确实能够影响疾病的预后
8、建立多因素预后模型,这是本文的最终的模型结果,自己做不局限于此,可以根据第七步的结果酌情选择最终的建模方法,这里简单粗暴的使用的多因素回归,从AUC结果可以看出结果很好
9、预后模型已经建完,那么咱们就该来对比一下这个模型与现在的TNM分期等有什么关系,效果会不会比他们好一点,显然结果好就往上贴(你懂的)
10、外部数据集验证,先TCGA数据来验证一下,当你的数据TCGA中没有怎么办?很简单!在你刚开始的时候把样本分组,分一部分数据到这里来,或者随机抽样。
至此一篇有态度的文章结束,虽然简单粗暴,但你却无法反驳,当然学术研究必然是严谨的,作者做这篇文章中也一定尝试了很多方法,给我们呈现了一个7-gene模型,同时也给我们提供了一个数据建模思路。
生信人团队真正想做的事儿
虽然以上文章是生信人解析的,但他们明显已经"厌烦"了这种套路,他们说要开发“0编程语言”的可视化软件,让“软件点点点=N篇文章思路”成为现实,拯救广大生信小白于水火之中!
往期更多?戳戳↓↓
FS科研软件库,集合60+医学科研必备神器,现在统统打包分享,点这里
致敬Scihub|Freescience、生信人要一起做些很Cool的事儿
科学自由共享
投稿请扔至:freescience@zju.edu.cn
未经许可 不得转载
长按二维码关注