查看原文
其他

大数据系列-找差异分子案例操作实践(四)

2017-07-07 freescience Freescience联盟

之前的课程中,我们通过数据库拿到了免费的数据,今天我们就开始分析它们了,这个过程就叫做“数据挖掘”。


首先介绍下基因芯片软件和工具。基因芯片分析一般对硬件要求不高,普通的PC机就能运行,但如果处理较多的数据量时,建议提高内存,如果拥有16g内存和i7的处理器基本就能快速运行所有分析了。目前基因芯片的分析工具很多,但各有优缺点。根据难易程度推荐以下三款软件和工具。


GeneSpring 

优点:互动式的视窗操作界面,傻瓜式操作,功能强大,拥有超过4400篇的高水平参考文献的引用,表达谱数据分析的金标准。

缺点:商业软件收费,操作繁琐,功能拓展性差。如同SPSS一样,适用于零基础的鞋同。

.BRB-Array 

 优点:基于excel的分析工具,自动调用R包,功能强大,拓展性强,操作简单,免费使用。

缺点:专业性强,格式要求高,稍有不符就报错。适用于有一定基础且对英文说明书研究要透彻。

R—Bioconductor

优点:R语言,生信必学的分析工具,强大的统计分析和作图工具,集合了几乎所有和最新的分析算法和工具包,任你免费调用。

缺点:对于拥有安装某个R包就研究几天经历的鞋童们就不用多说了吧!

那么便于零基础的鞋童这里采用GeneSpring进行分析。我们以上次讲到的GSE15765为例90个样本,从cel文件开始分析。

GeneSpring界面


新建项目,命名。


新建实验,命名。


选择芯片平台,即哪家公司的哪类产品。


选择高级分析,点击ok。


选择文件,导入cel文件。


输入arr文件,不用输入跳过这步点next。


选择算法,从还原文献中得知采用RMA。一般选择中位数作为基线。


点击完成后,运行。最终生成了一个22277个探针*90个样本的矩阵格式形式了。


接下来就是导入平台注释文件,告诉你这些探针号代表的基因是什么。


导入对应的上期所讲的平台注释txt文件。


记得打开它,把多余的标题删除,保持也是矩阵形式。


选择你要匹配的id和注释的信息。根据文献,我们就选择ID,Gene Symbol,ENTREZ_GENE_ID和Gene Title。当然也可以选择更多信息来注释你的探针。


这样就完成注释了。


最后就是要输入样本的分组信息。只有知道样本的分组信息才能进行统计,没有比较就没有差异。


添加一个分组变量,命名type,非数值型。


根据实验分组信息,对具体样本编号进行hcc,hcc-icc,icc分组。


然后点击create interpretation来进一步描述统计目的。


选择不连续变量。


选择包含三个分组,取均值。


产生了三组的图谱。可以指针悬停看什么基因。


接下来是统计,可以进行三组检验的各种统计分析。


如果只想进行两组(例如hcc和icc)的检验。那么重新create interpretation,只选择hcc和icc。这里举例hcc和icc,用非配对的t检验。


根据你不同的目的选择不同的统计方法。


设定p值的阈值。


筛选出14633个探针,p<0.05。


接下来再根据差异倍数进一步筛选。


选择HCC v ICC。


选择2倍差异阈值。


总共4151个探针,至少两倍差异,p<0.05被筛选出来了。


右击鼠标导出数据。


打开txt,就得到最终的详细列表。



最后可以通过txt导入excel,进一步整理成发表论文的表格,这样就大功告成了。


这期就到这里了,下期将进一步实现如何把不同类型的芯片数据集整合在一起,即还原文献中以下这段过程。



关于GeneSpring的安装下载,可从官网机构邮箱注册获得,可以免费试用7天


本期也有几提问:
  1. 如果数据集没有cel格式的原始数据,只有矩阵文本是否能用GeneSpring来统计分析差异?怎么操作?
  2. GeneSpring还能做哪些分析?怎么操作?


作者简介

赵忻艺,FS数据挖掘主编,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。

联系猴哥

E-mail:sunmin-0715@163.com

QQ:65498065

长按识别左边二维码关注公众号

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存