查看原文
其他

芯片数据分析神器:GEO2R

JunJunLab 老俊俊的生信笔记 2022-08-15


点击上方关注“公众号”


前言

GEO(Gene Expression Omnibus) 数据库存放了很多的测序数据,包括 芯片数据二代测序数据三代测序数据 等,对于早期的芯片数据,包括原始 cel 文件探针注释文件,如果我们想挖掘芯片数据的话就得写代码自己分析了。

芯片数据挖掘推荐 B 站得 生信技能树 教学视频,曾老师 手把手教你分析。那么对于没有生信基础或者没有编程能力得人来说,挖掘 GEO 数据肯定是比较困难得,然后 NCBI 在 GEO 里面做了个 GEO2R 的在线分析芯片数据工具,不用写代码,直接点点点就可以分析数据和出图了,非常的方便。

使用

1、选择数据集

首先我们进入 GEO,NCBI 左侧选择 GEO DataSets,然后搜索你感兴趣的关键词或者疾病等:

选择数据,首先得看数据测序的类型,我们选择 芯片数据 ,第二个,高通量测序的话就是走 正常 RNA-seq 数据分析流程

2、了解实验设计

选好文章后,我们应该大概了解一下实验是 怎么设计 的和 实验的目的 ,方便加深我们对数据的一个 背景理解

大概看一下,作者对 非小细胞肺癌(NSCLC) 有无骨转移的样本做了基因芯片测序,发现了有 364 个差异基因,包括 140 个上调的基因和 224 个下调的基因,RT-PCR 验证前 8 位的差异基因 COL6A1 在骨转移的样本高表达,COL6A1 过表达可诱导 HARA 细胞的增殖和侵袭,而下调则可抑制 HARA- b4 细胞的增殖和侵袭,最后证明 COL6A1 可能是 NSCLC 骨转移的潜在诊断标志物和治疗靶点。

3、分析数据

然后我们使用 GEO2R 进行数据分析:

可以看到分别有 3 个生物学样本,分为实验组和对照组,作者还提供了归一化的表达矩阵,我没点击 Analyze with GEO2R 进入分析界面:

1、定义分组

这一步对我们的样本进行分组,哪些是实验组,哪些是对照组,我们的 骨转移的 NSCLC 是实验组非骨转移的 NSCLC 是对照组

2、一键分析

定义好分组后,我们点击 Analyse 按钮一键分析出图及差异结果,稍等几分钟:

结果:

我们可以看到 火山图表达量分布图UMAP(类似于PCA)图韦恩图样本表达量箱线图,等等,具体什么图是什么意思我就不解释了。下面表格就是差异基因表格,可以点击 Download full table 打开,右键复制图片下载。

点击 ID 箭头 可以显示在每个样本的表达量:

这里有个问题!我们看 logFC 是下调的,但下面图片这个基因在 treat 组里是上调的!这里其实关系到我们之前的分组问题,我们应该先设置实验组,再设置对照组!

换个分组顺序,我们再看看:

这下是没问题的,小伙伴们注意下就行。

我们下载差异结果看看:

点击火山图可以查看基因名:

3、其它选项说明

1、Options:

这里面我们可以选择 是否进行 p 值矫正矫正方法数据是否 logp 值阈值选定 等。点击 more 则进入 GEO2R 使用教程页面。如果我们选择好参数后点击 reanalyze 重新分析。

比如这里我选择了不进行 p 值矫正,重新分析后差异基因就会多一些:

2、Profile graph:

这个选项可以展示具体基因在每个样本的表达量,输入 ID 即可查询:

3、Rscript:

这里面涵盖了差异分析、绘图的所有代码,主要使用 GEOquerylimmaumap 三个 R 包进行分析的,我们可以直接复制到 Rstudio 里运行,一步一步分析:

4、添加基因名,GO id 等

你有没有发现差异基因表格是不是只有探针的 ID,没有我们熟知的基因名?我们点击 Select columns 选择相应需要显示的内容即可:

看看结果:

我们顺便查看 COL6A1 这个基因:

是显著上调的,但好像不是排名前 8,而是 18,如果我们使用 p 值矫正的话,按照 log2FC > 1 或 < -1adj.P.Val < 0.05 筛选的差异基因就只有 20 个!

看了一下文章的方法好像不太一样,使用的是配对样本的 Student's t-test

所以结果才差的太大吧。下面是文章里的那 8 个 top 差异基因:

小提示

  • 这个 GEO2R 使用 Microsoft edge火狐浏览器 分析结果出不来,我换了 谷歌浏览器 才跑出来的。
  • 有些芯片数据 没有 GEO2R 这个选项,说明有一些是分析不了的。




欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群 哦.

群二维码:



老俊俊微信:




知识星球:



所以今天你学习了吗?

欢迎小伙伴留言评论!

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励肯定

如果觉得对您帮助很大,赏杯快乐水喝喝吧!




 往期回顾 




CIRCexplorer3: 对 circRNA 进行相对定量

circRNA-seq:CIRCexplorer2 使用指南(二)

circRNA-seq:CIRCexplorer2 使用指南(一)

手把手教你用在线 pheatmap 绘制热图

IGV 导入本地基因组及注释文件

关于 scale 函数和 pheatmap 的图例问题

Circular RNAs 的生物发生、功能和挑战

@你需要提高一下 R 技能了(plyr 包)

ggplot 图例(你想要的都在这了!)

把 corrplot 颜色条改成文献里那样?

◀...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存