其他
大数据系列-找差异分子案例操作实践(四)
之前的课程中,我们通过数据库拿到了免费的数据,今天我们就开始分析它们了,这个过程就叫做“数据挖掘”。
首先介绍下基因芯片软件和工具。基因芯片分析一般对硬件要求不高,普通的PC机就能运行,但如果处理较多的数据量时,建议提高内存,如果拥有16g内存和i7的处理器基本就能快速运行所有分析了。目前基因芯片的分析工具很多,但各有优缺点。根据难易程度推荐以下三款软件和工具。
选择高级分析,点击ok。
输入arr文件,不用输入跳过这步点next。
选择算法,从还原文献中得知采用RMA。一般选择中位数作为基线。
选择你要匹配的id和注释的信息。根据文献,我们就选择ID,Gene Symbol,ENTREZ_GENE_ID和Gene Title。当然也可以选择更多信息来注释你的探针。
最后就是要输入样本的分组信息。只有知道样本的分组信息才能进行统计,没有比较就没有差异。
设定p值的阈值。
最后可以通过txt导入excel,进一步整理成发表论文的表格,这样就大功告成了。
这期就到这里了,下期将进一步实现如何把不同类型的芯片数据集整合在一起,即还原文献中以下这段过程。
关于GeneSpring的安装下载,可从官网机构邮箱注册获得,可以免费试用7天
如果数据集没有cel格式的原始数据,只有矩阵文本是否能用GeneSpring来统计分析差异?怎么操作? GeneSpring还能做哪些分析?怎么操作?
赵忻艺,FS数据挖掘主编,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。
联系猴哥
E-mail:sunmin-0715@163.com
QQ:65498065
长按识别左边二维码关注公众号