查看原文
其他

大赞|批量展示基因和生存预后小工具

2017-10-14 生信人 弗雷赛斯

相信大家可以体会,以上这样的生存分析是文章里必不可少的内容,基础研究如果不能转化为生存获益那含金量也必将缩水。同时,我们在设计课题前,如果能预先知道某个基因和生存是否有关,那对课题选择会非常有帮助。


Geo数据TCGA数据库里有大量的基因信息和对应生存信息,如果能灵活运用,将会让我们的科研事半功倍,目前网上有一些第三方的网站,他们抓取上述两者的数据进行生存分析,解决了一部分问题,但由于数据更新滞后,样本量不能自由选择导致结果产生偏移,生存曲线结果也不能另存为或不能高清呈现,无法应用到文章里。那不学R语言等编程语言能不能解决以上问题呢?能!

在今天的生信学习革命系列推文中,我们将向大家推荐:批量计算生存分析工具(点击阅读全文直达下载地址

拥有以下功能:

1.任意选择Geo数据库的任一数据集

2.批量显示多个基因与生存关系

3.高清图片输出

4.软件免安装,无任何限制

5.零代码

一、说明

生存分析定义:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科,既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。

生存分析不同于其它多因素分析的主要区别点:生存分析考虑了每个观测出现某一结局的时间长短。

界面如图:

从图中可以看出,只需要四步:

step1:导入表达谱数据(第一列为基因,第二列开始为各样本的表达数据,第一行为样本名称)

step2:导入样本信息数据(第一列为样本,第二列开始为各样本的随访信息,其中包含死亡和生存时间)

step3:右侧选择死亡状态列和生存时间列,同时选择时间单位,还可以进一步筛选随访条件,比如默认(随访时间要大于1个月,生存时间截止日期十年,大于10年的默认为未死亡)

step4:批量运行即可得到每个基因的结果

然后结果展示页主要是对于一些基因的分类之后进行K-M曲线绘制,可以导出pdf和jpg两种格式的数据。

二、示例

以下我们使用GEO的一套数据来演示以下该工具使用

首先我们选择下载GSE25065数据集,下载之后使用GEO芯片数据转换器将数据提取出来,最终我们得到了这两个文件

打开SampleInfo.xls文件找到随访信息列:

去除其中的分号,保存

然后启动本工具,导入样本信息和表达谱数据,如图:

最终得到结果:

然后导出就OK了,结果中包括95%的置信区间,以及风险比,还有p值,使用方法是CoxRegression

我们导出结果:

结果包含两个文件,第一个是每个基因的Cox结果,第二个是样本的表达谱和对应的临床随访信息整合的表格,可以自己导入到R里面去分析(编我不懂R,我就不用管

进一步的如果想观察每个基因的K-M曲线,该工具提供了K-M绘制曲线的功能,可以直观的看出分类效果,并提供导出pdf功能(小编我就喜欢这个功能,大赞

与R语言相比如下(意思是这个小工具的算法是R语言,但做到了可视化,对临床的小伙伴真是福利,简单好用,逼格还不低,完全可以和别人说我是用R做的,嘻嘻):

library(survival) setwd("D:/Work/code/Test/GSE25065_family.xml") data=read.csv('CoxResult.txt.matrix',sep = '\t',row.names = 1) head(data) time=data[,1] status=data[,2] cox1=coxph(Surv(time, status) ~ ACADSB,data) cox2=coxph(Surv(time, status) ~ GATA3,data) cox3=coxph(Surv(time, status) ~ CHMP6,data) cox4=coxph(Surv(time, status) ~ ADCY9,data)


生信人


生信人成立于2014年,由老祝,鑫仔,helen等组建,他们都来自同一个学校:哈尔滨医科大学,更来自同一个寝室,他们是国内最早一批专攻生物信息学专业的学生,他们希望能最大限度降低跨专业的生信学习门槛,开发一系列零编程的可视化软件,助力医学科研。

戳戳图片↓↓,你就知道


科学自由共享

投稿请扔至:freescience@zju.edu.cn

未经许可 不得转载

长按二维码关注

54 28199 54 15290 0 0 2596 0 0:00:10 0:00:05 0:00:05 3418

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存