查看原文
其他

GEO数据挖掘-第六期-RNA-seq数据也照挖不误

生信技能树 生信菜鸟团 2022-06-06

     GEO数据挖掘系列文-第一期-胶质母细胞瘤  

     GEO数据挖掘系列文-第二期-三阴性乳腺癌  

     GEO数据挖掘系列文-第三期-口腔鳞状细胞癌  

     GEO数据挖掘系列文-第四期-肝细胞癌  (WGCNA)

     GEO数据挖掘系列文-第五期-肝细胞癌  (多组差异分析)


外传:保姆式GEO数据挖掘演示--重现9分文章 


前言

前面我们分享的GEO数据库挖掘教程都是针对表达芯片来的,会给粉丝们一种错觉,是不是这个技术只能挖掘这些老旧的表达芯片呢?

当然不是这样,现在就给大家秀一秀RNA-seq数据的挖掘。

文章解读

具体文章的生物学故事及背景,大家可以看我的文献分享:https://zhuanlan.zhihu.com/p/49574925 第47周-多组学探索不同器官的小细胞癌症起源

这里就看看测序方面,而且是RNA-seq的,如下:

既然给出了测序数据,那么我们就可以完完全全的重复该流程。

  • 首先进入GEO数据库找到它:

仅仅是信号bw格式文件都是4.1Gb了,而且作者没有提供表达矩阵供我们下载,所以我们需要自行下载测序数据;

数据量不小,按照我在生信技能树的教程,首先应该是学习了解GEO和SRA数据库:

  • 然后应该是下载sra-toolkit软件来下载原始数据:

有了工具,下载无非就是一个命令行而已,数据比较大,可能是会比较耗时。

sra格式的测序数据需要转为fastq格式,然后需要定表达量,可以直接使用salmon这样的不需要比对就能定量的工具,考虑到很多读者并不一定能看懂shell代码,我这里就不列出了,感兴趣可以直接去生信技能树的B站免费学习这些知识。

表达矩阵重现


经过不懈努力,我使用salmon得到了表达矩阵,然后就能导入R进行下游分析,先从这个聚类关系图开始吧。

代码是:

rm(list=ls())options(stringsAsFactors = F)load('quants-exprSet.Rdata') ## 这个数据集来源于 salmon得到了表达矩阵# 如果需要重现这个流程,可以发邮件找我(jmzeng1314@163.com)申请这个数据集:quants-exprSet.RdataexprSet[1:4,1:4]dim(exprSet)colnames(exprSet)exprSet=exprSet[,grepl('CB',colnames(exprSet))]exprSet=exprSet[,!grepl('NHBE',colnames(exprSet))]group_list=gsub('[1-9]$','',colnames(exprSet))dat=t(exprSet)dat=as.data.frame(dat)dat=cbind(dat,group_list)# Define nodeParnodePar <- list(lab.cex = 0.6, pch = c(NA, 19) ,                cex = 0.4, col = "blue")hc=hclust(dist(t(log(edgeR::cpm(exprSet)+1))))par(oma=c(5,5,5,30))png('hclust.png',res=120,height = 680,width = 480)hcd=as.dendrogram(hc)# Horizontal plotplot(hcd,  xlab = "Height",     nodePar = nodePar, horiz = TRUE)dev.off()## PCAlibrary("FactoMineR")library("factoextra") # The variable group_list (index = 54676) is removed# before PCA analysisdat.pca <- PCA(dat[,-ncol(dat)], graph = FALSE)fviz_pca_ind(dat.pca,             geom.ind = "point", # show points only (nbut not "text")             col.ind = dat$group_list, # color by groups             #palette = c("#00AFBB", "#E7B800"),             addEllipses = TRUE, # Concentration ellipses             legend.title = "Groups")

由上面的代码,首先出图:

由于作者只考虑PARCB这5个基因的分组情况的聚类,所以我们挑选适合的表达矩阵进行下游PCA分析看远近关系如下:

和原文作者的相关性热图结论一致,都是PARCB这个组别要显著与其它组分离。


我们提供GEO线上视频课程,以及课后答疑服务,如有意向,请扫描下面的二维码于我联系。(仅限于购买课程用户,需提供购买截图方可入答疑群)



(长按图片扫描二维码可添加微信)

点击阅读原文直达我们的网易云课堂购买链接!

请务必思考再三哦,不要瞎买

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存