查看原文
其他

一文搞定GEO & TCGA数据下载

ANERYAN R语言数据分析指南 2023-06-15

欢迎关注R语言数据分析指南

本节来介绍如何通过代码来轻松下载「GEO & TCGA」数据;下面通过两个小栗子来进行展示

下载GEO数据

加载R包

library(GEOquery)
library(tidyverse)

下载GSE33126数据

gset <- getGEO("GSE33126",getGPL = FALSE)

通过命令行下载可以看到输出以下报错,如下继续操作即可

错误: The size of the connection buffer (131072) was not large enough         
to fit a complete line:
  * Increase it by setting `Sys.setenv("VROOM_CONNECTION_SIZE")`
Sys.setenv("VROOM_CONNECTION_SIZE" = 131072 * 5)

保存数据

gset <- getGEO("GSE33126",getGPL = FALSE)
save(gset,file="GSE33126.rdata")

加载数据

load(file ="GSE33126.rdata")

查看数据

gset <- gset[[1]]
class(gset)
# 可以看到数据格式为ExpressionSet,此数据同时包含表达矩阵与样本信息表

清洗样本信息表

sampleinfo <- pData(gset) %>%# 提取样本信息表
  select(source_name_ch1,characteristics_ch1.1) %>% 
  rename(group = source_name_ch1,patient=characteristics_ch1.1) %>% 
  mutate_at(vars(patient),~str_split(.," ",simplify = T)[,2])

查看表达矩阵

gene_exp <- exprs(gset)

通过以上代码我们轻松下载到了GEO数据,「最关键的点当然是网速了」,下面来介绍通过Python下载TCGA数据

(https://github.com/vappiah/DataMiner)网址拷贝作者脚本;TCGA官网下载样本清单,运行下列几行代码即可轻松下载TCGA数据,「最关键的点当然还是网速了」

import os
os.chdir("~/Desktop/TCGA/DataMiner-main")
from tcga_downloader import *
ids=get_ids('gdc_manifest.txt')
payload=prepare_payload(ids,data_type='Gene Expression Quantification')
metadata=get_metadata(payload)
download_data(metadata,sep="\t",outdir="BRCA")

感兴趣的小伙伴欢迎加入我的「付费绘图交流群」,付费99元将获取「一整年公众号所有文档的数据及代码」会同步上传,同时还会配套精美的「Markdown文档」方便各位学习,公众号右下角可添加小编微信

欢迎大家扫描下方二位码加入「QQ交流群」


「关注下方公众号下回更新不迷路」,如需要加入微信交流群,请在菜单栏处添加作者微信,备注单位+方向+姓名即可邀您

ggraph包优雅的绘制网络图


ggplot2绘制渐变色散点图与折线图


2021年个人年度小总结


跟着PNAS学绘图-ggplot2绘制散点图添加渐变拟合曲线


ggplot2优雅的绘制点图


[热图-华夫图-瀑布图]用ggplot2一次性解决


ggplot2优雅的带你绘制中国地图

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存