找差异分子案例实践——万能芯片数据分析(五)
上期演示了从cel芯片原始数据到根据阈值筛选出差异基因的具体操作过程,但如果数据集没有cel格式的原始数据,只有标准化后的矩阵文本,那能否用GeneSpring来进行分析?
本期将具体演示矩阵文本的万能导入GeneSpring进行分析的过程。
以还原文献的GSE35306为例,是一个3 ICC, 7 HCC 和20cHCC-ICC数据集,采用的芯片型号是Affymetrix Human Gene 1.0 ST Array。
在通过cel导入时GeneSpring无法识别这种芯片型号,即无法采用原始数据导入,如下图。所以同样要以矩阵文本的万能导入GeneSpring才能进行分析。
1.首先要新建一个自制的平台型号。
2.导入矩阵格式的文件。(记得下载的文件要把多余的标题删除,保持矩阵形式)
3.导入平台注释文件。(记得下载的文件要把多余的标题删除,保持矩阵形式)
4.文本格式调整,第二行设置为“。
5.标题格式调整,默认即可。
6.定义信号行,先输入GSM,再刷新下。
7.平台注释文件调整,默认即可。
8.平台注释文件标题调整,默认即可。
9.定义列的注释数据信息。通过下拉菜单把关联数据库相对应的起来。
10.这里根据注释文件信息选择下图三个注释列。
11.回到新建实验页面,选择芯片平台为genenic single color,即选择自制芯片类型。
12.导入矩阵文件即可。
13.由于GEO下载的矩阵文件已经是经过RMA算法标准化后取过对数了,无需做任何处理了。
14.最后就导入成功了。
本期就到这里了,通过这种万能导入方法能对所有类型芯片的矩阵文本进genespring的分析。接下来可以根据上期讲的定义实验分组和变量来选择不同的统计方法来筛选差异显著的基因。
下期将进一步实现如何把不同类型的芯片数据集整合在一起,即还原文献中以下这段过程。过程中要用到一个meta-omics的R工具包,有点难度,可下载链接先自学下。
对于genespring具体操作和其他分析功能感兴趣的鞋童可以通过小秘书加freescience交流群,内含福利哦——重要的事情只说一遍哦。
本期也有几个提问:
1.矩阵文本和原始数据cel导入分析有什么不同?哪个更好,为什么?
2.如果将不同芯片类型整合在一起分析,需要考虑到哪些的问题?
投稿请扔至:freescience@zju.edu.cn
未经许可 不得转载长按二维码关注