查看原文
其他

GEO数据挖掘(2)之数据整合

ANERYAN R语言数据分析指南 2023-06-15

欢迎关注R语言数据分析指南

本节来继续介绍如何基于「GEO」数据库进行数据挖掘,前文参考下面链接

一文搞定GEO & TCGA数据下载

2022-01-08


library(GEOquery)
library(tidyverse)
library(magrittr)
load(file ="GSE33126.rdata"
gset <- gset[[1]] # 包含样本信息+基因表达信息

样本信息表

sampleinfo <- pData(gset) %>%# 提取样本信息表
  select(source_name_ch1,characteristics_ch1.1) %>% 
  rename(group = source_name_ch1,patient=characteristics_ch1.1) %>% 
  mutate_at(vars(patient),~str_split(.," ",simplify = T)[,2])

基因表达矩阵

gene_exp <- exprs(gset) %>% as.data.frame()

检查探针编号

tail(gene_exp[,1:3])

同步表达矩阵与样本信息

gene_exp <- gene_exp[,which(
  colnames(gene_exp) %in% rownames(sampleinfo)
)]
  • 查看数据
summary(gene_exp)
gene_exp <- log2(gene_exp)
  • 绘制箱线图
boxplot(gene_exp,outline=FALSE)

若箱线图中位数差异较大可以执行下面代码对数据进行标准化处理

  • 对数据进行标准化
library(limma)
p <- as.data.frame(
  normalizeBetweenArrays(gene_exp)
)

经过上面的步骤我们得到了样本信息表 & 基因表达矩阵信息表,接下来从「GEO」数据库下载基因信息表就可进行后续分析

整合基因信息表

gene_info <- read_delim("GPL6947-13512.txt""\t",escape_double = FALSE, comment = "#"
                        trim_ws = TRUE) %>%
  dplyr::select(ID,Gene_Symbol = Symbol,Entrez_Gene_ID, 
                Gene_Title = Definition) %>% drop_na()

现在我们得到了分析需要的3张表,「save」将其保存后续分析直接加载即可

save(gene_exp,sampleinfo,gene_info, file='GSE33126-info.rdata')

好了今天的介绍到此结束,喜欢的小伙伴欢迎「付费99元」可加入我的「VIP交流群」,即同步获取公众号为期一年推文的代码与PDF文档,当然也可以对此文进行任意金额打赏,后台会发送给您数据&代码,感谢各位的支持

欢迎大家扫描下方二位码加入「QQ交流群」,与全国各地上千位小伙伴交流

作者微信

「关注下方公众号下回更新不迷路」,添加作者微信,备注单位+方向+姓名即可邀您

{ggplot2}如何自定义添加文本背景?

2022-01-14

{mmtable2}: 再探三线表绘制

2022-01-13

ggplot2优雅的绘制卡通版棒棒糖图

2022-01-11

一文搞定ggplot2图像添加阴影

2022-01-09

ggraph包优雅的绘制网络图

2022-01-07

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存