芯片数据分析神器:GEO2R
点击上方关注“公众号”
前言
GEO(Gene Expression Omnibus) 数据库存放了很多的测序数据,包括 芯片数据 、 二代测序数据 和 三代测序数据 等,对于早期的芯片数据,包括原始 cel 文件
和探针注释文件
,如果我们想挖掘芯片数据的话就得写代码自己分析了。
芯片数据挖掘推荐 B 站得 生信技能树
教学视频,曾老师 手把手教你分析。那么对于没有生信基础或者没有编程能力得人来说,挖掘 GEO 数据肯定是比较困难得,然后 NCBI 在 GEO 里面做了个 GEO2R
的在线分析芯片数据工具,不用写代码,直接点点点就可以分析数据和出图了,非常的方便。
使用
1、选择数据集
首先我们进入 GEO,NCBI 左侧选择 GEO DataSets
,然后搜索你感兴趣的关键词或者疾病等:
选择数据,首先得看数据测序的类型,我们选择 芯片数据 ,第二个,高通量测序的话就是走 正常 RNA-seq 数据分析流程
:
2、了解实验设计
选好文章后,我们应该大概了解一下实验是 怎么设计
的和 实验的目的
,方便加深我们对数据的一个 背景理解 :
大概看一下,作者对 非小细胞肺癌(NSCLC) 有无骨转移的样本做了基因芯片测序,发现了有 364 个差异基因,包括 140 个上调的基因和 224 个下调的基因,RT-PCR 验证前 8
位的差异基因 COL6A1
在骨转移的样本高表达,COL6A1 过表达可诱导 HARA 细胞的增殖和侵袭,而下调则可抑制 HARA- b4 细胞的增殖和侵袭,最后证明 COL6A1 可能是 NSCLC 骨转移的潜在诊断标志物和治疗靶点。
3、分析数据
然后我们使用 GEO2R 进行数据分析:
可以看到分别有 3 个生物学样本,分为实验组和对照组,作者还提供了归一化的表达矩阵,我没点击 Analyze with GEO2R
进入分析界面:
1、定义分组
这一步对我们的样本进行分组,哪些是实验组,哪些是对照组,我们的 骨转移的 NSCLC 是实验组,非骨转移的 NSCLC 是对照组 :
2、一键分析
定义好分组后,我们点击 Analyse
按钮一键分析出图及差异结果,稍等几分钟:
结果:
我们可以看到 火山图
、表达量分布图
、UMAP(类似于PCA)图
、韦恩图
、样本表达量箱线图
,等等,具体什么图是什么意思我就不解释了。下面表格就是差异基因表格,可以点击 Download full table 打开,右键复制图片下载。
点击 ID
箭头 可以显示在每个样本的表达量:
这里有个问题!我们看 logFC 是下调的,但下面图片这个基因在 treat 组里是上调的!这里其实关系到我们之前的分组问题,我们应该先设置实验组,再设置对照组!
换个分组顺序,我们再看看:
这下是没问题的,小伙伴们注意下就行。
我们下载差异结果看看:
点击火山图可以查看基因名:
3、其它选项说明
1、Options:
这里面我们可以选择 是否进行 p 值矫正,矫正方法,数据是否 log,p 值阈值选定 等。点击 more
则进入 GEO2R 使用教程页面。如果我们选择好参数后点击 reanalyze
重新分析。
比如这里我选择了不进行 p 值矫正,重新分析后差异基因就会多一些:
2、Profile graph:
这个选项可以展示具体基因在每个样本的表达量,输入 ID 即可查询:
3、Rscript:
这里面涵盖了差异分析、绘图的所有代码,主要使用 GEOquery
、limma
和 umap
三个 R 包进行分析的,我们可以直接复制到 Rstudio 里运行,一步一步分析:
4、添加基因名,GO id 等
你有没有发现差异基因表格是不是只有探针的 ID,没有我们熟知的基因名?我们点击 Select columns
选择相应需要显示的内容即可:
看看结果:
我们顺便查看 COL6A1 这个基因:
是显著上调的,但好像不是排名前 8,而是 18,如果我们使用 p 值矫正的话,按照 log2FC > 1 或 < -1
且 adj.P.Val < 0.05
筛选的差异基因就只有 20 个!
看了一下文章的方法好像不太一样,使用的是配对样本的 Student's t-test
:
所以结果才差的太大吧。下面是文章里的那 8 个 top 差异基因:
小提示
这个 GEO2R 使用 Microsoft edge
和火狐浏览器
分析结果出不来,我换了谷歌浏览器
才跑出来的。有些芯片数据 没有 GEO2R 这个选项,说明有一些是分析不了的。
欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群
哦.
群二维码:
老俊俊微信:
知识星球:
所以今天你学习了吗?
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,赏杯快乐水喝喝吧!
往期回顾
◀CIRCexplorer3: 对 circRNA 进行相对定量
◀circRNA-seq:CIRCexplorer2 使用指南(二)
◀circRNA-seq:CIRCexplorer2 使用指南(一)
◀...