其他
一文搞定GEO & TCGA数据下载
欢迎关注R语言数据分析指南
❝本节来介绍如何通过代码来轻松下载「GEO & TCGA」数据;下面通过两个小栗子来进行展示
❞
下载GEO数据
加载R包
library(GEOquery)
library(tidyverse)
下载GSE33126数据
gset <- getGEO("GSE33126",getGPL = FALSE)
❝通过命令行下载可以看到输出以下报错,如下继续操作即可
❞
错误: The size of the connection buffer (131072) was not large enough
to fit a complete line:
* Increase it by setting `Sys.setenv("VROOM_CONNECTION_SIZE")`
Sys.setenv("VROOM_CONNECTION_SIZE" = 131072 * 5)
保存数据
gset <- getGEO("GSE33126",getGPL = FALSE)
save(gset,file="GSE33126.rdata")
加载数据
load(file ="GSE33126.rdata")
查看数据
gset <- gset[[1]]
class(gset)
# 可以看到数据格式为ExpressionSet,此数据同时包含表达矩阵与样本信息表
清洗样本信息表
sampleinfo <- pData(gset) %>%# 提取样本信息表
select(source_name_ch1,characteristics_ch1.1) %>%
rename(group = source_name_ch1,patient=characteristics_ch1.1) %>%
mutate_at(vars(patient),~str_split(.," ",simplify = T)[,2])
查看表达矩阵
gene_exp <- exprs(gset)
❝通过以上代码我们轻松下载到了GEO数据,「最关键的点当然是网速了」,下面来介绍通过Python下载TCGA数据
❞
(https://github.com/vappiah/DataMiner)网址拷贝作者脚本;TCGA官网下载样本清单,运行下列几行代码即可轻松下载TCGA数据,「最关键的点当然还是网速了」
import os
os.chdir("~/Desktop/TCGA/DataMiner-main")
from tcga_downloader import *
ids=get_ids('gdc_manifest.txt')
payload=prepare_payload(ids,data_type='Gene Expression Quantification')
metadata=get_metadata(payload)
download_data(metadata,sep="\t",outdir="BRCA")
❝感兴趣的小伙伴欢迎加入我的「付费绘图交流群」,付费99元将获取「一整年公众号所有文档的数据及代码」会同步上传,同时还会配套精美的「Markdown文档」方便各位学习,公众号右下角可添加小编微信
❞
欢迎大家扫描下方二位码加入「QQ交流群」
「关注下方公众号下回更新不迷路」,如需要加入微信交流群,请在菜单栏处添加作者微信,备注单位+方向+姓名即可邀您
ggraph包优雅的绘制网络图
ggplot2绘制渐变色散点图与折线图
2021年个人年度小总结
跟着PNAS学绘图-ggplot2绘制散点图添加渐变拟合曲线
ggplot2优雅的绘制点图
[热图-华夫图-瀑布图]用ggplot2一次性解决