答读者问（十）整合后的表达矩阵，如何拆分出分组信息？

Original BIOMAMBA Biomamba 生信基地 2023-06-15

收录于合集 #答读者问 24个

往期回顾

答读者问（一）单基因究竟能否进行GSEA

答读者问（二）为什么我的PCA分析报错了？

答读者问（三）单细胞测序前景

答读者问（四）如何分析细胞亚群

答读者问（五）如何实现各物种基因的ID/symbol的转换

答读者问（六）Seurat中如何让细胞听你指挥

答读者问（七）有人问我Biomamba何解

答读者问（八）为什么Read10X也会报错?

答读者问（九）如何将数百个文件整合为一个矩阵

问题

粉丝提问：从GEO中下载了一个文件，作者提供的是所有文件整合在一起的表达矩阵，如何从中取出样本与分组信息并加入到Seurat对象之中呢？

怎么解决问题

我们先来看一下数据

library(data.table)
library(Seurat)
## Attaching SeuratObject
suppressWarnings(mycount <- fread('GSE172495_RNA_Matrix_PBMC.csv',sep=','))#用data.table中的fread读起来会快很多
mycount <- as.data.frame(mycount)
mynames<- mycount$V1
rownames(mycount) <- mynames
mycount <- mycount[,-1]
mycount[1:5,1:5]
##          CAGCGTCGCAAT_350C GATTAAGTGTGN_350C AGATGCTGATTA_350C
## A1BG                     0                 0                 0
## A1BG-AS1                 0                 0                 0
## A1CF                     0                 0                 0
## A2M                      0                 0                 0
## A2M-AS1                  0                 0                 0
##          AGGAACCAAAGG_350C ACCCCTATTAAT_350C
## A1BG                     0                 0
## A1BG-AS1                 0                 0
## A1CF                     0                 0
## A2M                      0                 0
## A2M-AS1                  0                 0

看一下每个细胞的名称，其中暗藏玄机

mycellname <- colnames(mycount)
mycellname[1:5]

## [1] "CAGCGTCGCAAT_350C" "GATTAAGTGTGN_350C" "AGATGCTGATTA_350C"
## [4] "AGGAACCAAAGG_350C" "ACCCCTATTAAT_350C"

可以看出，这里细胞名中’_’后的就是样本名，那我们把这个字符串拆出来，并制作成metadata

samplename <-  as.vector(lapply(mycellname, function(x){
  as.character(strsplit(x,'_')[[1]][2])
}))
samplename <- as.data.frame(unlist(samplename))
rownames(samplename) <- colnames(mycount)
colnames(samplename)[1] <- 'sample'
head(samplename)
##                   sample
## CAGCGTCGCAAT_350C   350C
## GATTAAGTGTGN_350C   350C
## AGATGCTGATTA_350C   350C
## AGGAACCAAAGG_350C   350C
## ACCCCTATTAAT_350C   350C
## CCCAGTCACCTA_350C   350C

存入Seurat对象之中

pbmc <- CreateSeuratObject(counts = mycount)
pbmc <- AddMetaData(pbmc,metadata = samplename)
unique(pbmc$sample)#这就是存进去了
##  [1] "350C"  "459C"  "851C"  "865C"  "866C"  "868C"  "A307C" "A311C" "350P" 
## [10] "459P"  "851P"  "865P"  "866P"  "868P"  "A307P" "A311P"

接下来就是走一遍单样本分析，就能查看了，这部分不懂的同学看看这两讲

手把手教你做单细胞测序（三）——单样本分析

手把手教你做单细胞测序（四）——多样本整合

如何联系我们

最近发现后台中有一些消息我没能及时看到并答复，微信后台中超过48h后便不允许回复读者消息，这里还是再给大家留一下答疑的扣扣号，方便大家随时交流：1913507043。微信号可以点击喜欢作者后自动回复里有。欢迎大家向我咨询或者提供建议。大家可以阅读完这几篇之后添加我：如何搜索公众号过往发布内容
答疑公约
笑一笑也就算了

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

答读者问（十）整合后的表达矩阵，如何拆分出分组信息？

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

生成图片，分享到微信朋友圈

答读者问（十）整合后的表达矩阵，如何拆分出分组信息？

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡