GEO数据挖掘-第六期-RNA-seq数据也照挖不误

Original 生信技能树生信菜鸟团 2022-06-06

GEO数据挖掘系列文-第一期-胶质母细胞瘤

GEO数据挖掘系列文-第二期-三阴性乳腺癌

GEO数据挖掘系列文-第三期-口腔鳞状细胞癌

GEO数据挖掘系列文-第四期-肝细胞癌（WGCNA）

GEO数据挖掘系列文-第五期-肝细胞癌（多组差异分析）

外传：保姆式GEO数据挖掘演示--重现9分文章

前言

前面我们分享的GEO数据库挖掘教程都是针对表达芯片来的，会给粉丝们一种错觉，是不是这个技术只能挖掘这些老旧的表达芯片呢？

当然不是这样，现在就给大家秀一秀RNA-seq数据的挖掘。

文章解读

具体文章的生物学故事及背景，大家可以看我的文献分享：https://zhuanlan.zhihu.com/p/49574925 第47周-多组学探索不同器官的小细胞癌症起源

这里就看看测序方面，而且是RNA-seq的，如下：

既然给出了测序数据，那么我们就可以完完全全的重复该流程。

首先进入GEO数据库找到它：

仅仅是信号bw格式文件都是4.1Gb了，而且作者没有提供表达矩阵供我们下载，所以我们需要自行下载测序数据；

数据量不小，按照我在生信技能树的教程，首先应该是学习了解GEO和SRA数据库：

然后应该是下载sra-toolkit软件来下载原始数据：

有了工具，下载无非就是一个命令行而已，数据比较大，可能是会比较耗时。

sra格式的测序数据需要转为fastq格式，然后需要定表达量，可以直接使用salmon这样的不需要比对就能定量的工具，考虑到很多读者并不一定能看懂shell代码，我这里就不列出了，感兴趣可以直接去生信技能树的B站免费学习这些知识。

表达矩阵重现

经过不懈努力，我使用salmon得到了表达矩阵，然后就能导入R进行下游分析，先从这个聚类关系图开始吧。

代码是：

rm(list=ls())options(stringsAsFactors = F)load('quants-exprSet.Rdata') ## 这个数据集来源于 salmon得到了表达矩阵# 如果需要重现这个流程，可以发邮件找我(jmzeng1314@163.com)申请这个数据集：quants-exprSet.RdataexprSet[1:4,1:4]dim(exprSet)colnames(exprSet)exprSet=exprSet[,grepl('CB',colnames(exprSet))]exprSet=exprSet[,!grepl('NHBE',colnames(exprSet))]group_list=gsub('[1-9]$','',colnames(exprSet))dat=t(exprSet)dat=as.data.frame(dat)dat=cbind(dat,group_list)# Define nodeParnodePar <- list(lab.cex = 0.6, pch = c(NA, 19) ,                cex = 0.4, col = "blue")hc=hclust(dist(t(log(edgeR::cpm(exprSet)+1))))par(oma=c(5,5,5,30))png('hclust.png',res=120,height = 680,width = 480)hcd=as.dendrogram(hc)# Horizontal plotplot(hcd,  xlab = "Height",     nodePar = nodePar, horiz = TRUE)dev.off()## PCAlibrary("FactoMineR")library("factoextra") # The variable group_list (index = 54676) is removed# before PCA analysisdat.pca <- PCA(dat[,-ncol(dat)], graph = FALSE)fviz_pca_ind(dat.pca,             geom.ind = "point", # show points only (nbut not "text")             col.ind = dat$group_list, # color by groups             #palette = c("#00AFBB", "#E7B800"),             addEllipses = TRUE, # Concentration ellipses             legend.title = "Groups")

由上面的代码，首先出图：

由于作者只考虑PARCB这5个基因的分组情况的聚类，所以我们挑选适合的表达矩阵进行下游PCA分析看远近关系如下：

和原文作者的相关性热图结论一致，都是PARCB这个组别要显著与其它组分离。

我们提供GEO线上视频课程，以及课后答疑服务，如有意向，请扫描下面的二维码于我联系。（仅限于购买课程用户，需提供购买截图方可入答疑群）

（长按图片扫描二维码可添加微信）

点击阅读原文直达我们的网易云课堂购买链接！

请务必思考再三哦，不要瞎买

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

GEO数据挖掘-第六期-RNA-seq数据也照挖不误

您可能也对以下帖子感兴趣

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

生成图片，分享到微信朋友圈

GEO数据挖掘-第六期-RNA-seq数据也照挖不误

您可能也对以下帖子感兴趣