大赞|批量展示基因和生存预后小工具
相信大家可以体会,以上这样的生存分析是文章里必不可少的内容,基础研究如果不能转化为生存获益那含金量也必将缩水。同时,我们在设计课题前,如果能预先知道某个基因和生存是否有关,那对课题选择会非常有帮助。
Geo数据库和TCGA数据库里有大量的基因信息和对应生存信息,如果能灵活运用,将会让我们的科研事半功倍,目前网上有一些第三方的网站,他们抓取上述两者的数据进行生存分析,解决了一部分问题,但由于数据更新滞后,样本量不能自由选择导致结果产生偏移,生存曲线结果也不能另存为或不能高清呈现,无法应用到文章里。那不学R语言等编程语言能不能解决以上问题呢?能!
在今天的生信学习革命系列推文中,我们将向大家推荐:批量计算生存分析工具(点击阅读全文直达下载地址)
拥有以下功能:
1.任意选择Geo数据库的任一数据集
2.批量显示多个基因与生存关系
3.高清图片输出
4.软件免安装,无任何限制
5.零代码
一、说明
生存分析定义:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科,既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。
生存分析不同于其它多因素分析的主要区别点:生存分析考虑了每个观测出现某一结局的时间长短。
界面如图:
从图中可以看出,只需要四步:
step1:导入表达谱数据(第一列为基因,第二列开始为各样本的表达数据,第一行为样本名称)
step2:导入样本信息数据(第一列为样本,第二列开始为各样本的随访信息,其中包含死亡和生存时间)
step3:右侧选择死亡状态列和生存时间列,同时选择时间单位,还可以进一步筛选随访条件,比如默认(随访时间要大于1个月,生存时间截止日期十年,大于10年的默认为未死亡)
step4:批量运行即可得到每个基因的结果
然后结果展示页主要是对于一些基因的分类之后进行K-M曲线绘制,可以导出pdf和jpg两种格式的数据。
二、示例
以下我们使用GEO的一套数据来演示以下该工具使用
首先我们选择下载GSE25065数据集,下载之后使用GEO芯片数据转换器将数据提取出来,最终我们得到了这两个文件
去除其中的分号,保存
然后启动本工具,导入样本信息和表达谱数据,如图:
我们导出结果:
进一步的如果想观察每个基因的K-M曲线,该工具提供了K-M绘制曲线的功能,可以直观的看出分类效果,并提供导出pdf功能(小编我就喜欢这个功能,大赞)
与R语言相比如下(意思是这个小工具的算法是R语言,但做到了可视化,对临床的小伙伴真是福利,简单好用,逼格还不低,完全可以和别人说我是用R做的,嘻嘻):
library(survival) setwd("D:/Work/code/Test/GSE25065_family.xml") data=read.csv('CoxResult.txt.matrix',sep = '\t',row.names = 1) head(data) time=data[,1] status=data[,2] cox1=coxph(Surv(time, status) ~ ACADSB,data) cox2=coxph(Surv(time, status) ~ GATA3,data) cox3=coxph(Surv(time, status) ~ CHMP6,data) cox4=coxph(Surv(time, status) ~ ADCY9,data)生信人
生信人成立于2014年,由老祝,鑫仔,helen等组建,他们都来自同一个学校:哈尔滨医科大学,更来自同一个寝室,他们是国内最早一批专攻生物信息学专业的学生,他们希望能最大限度降低跨专业的生信学习门槛,开发一系列零编程的可视化软件,助力医学科研。
戳戳图片↓↓,你就知道
☞
戳
科学自由共享
投稿请扔至:freescience@zju.edu.cn
未经许可 不得转载
长按二维码关注