10x单细胞表达矩阵你也敢用Excel打开

Original 生信技能树生信技能树 2022-08-15

收录于合集

在朋友圈看到了有人吐槽她下载的表达矩阵里面出现日期基因，挺好玩的，就把gse号码要过来了，是 GSE122083，其日期基因如下：

日期基因

我看了看 GSE122083 数据集背后的文献，居然是单细胞哦！

rm(list=ls())
options(stringsAsFactors = F)
library(Seurat)
a=read.table('GSM3454528_naive_cells.txt.gz',header = T)
a[1:4,1:4]
raw.data=a[,-1]
rownames(raw.data)=a[,1]

得到如下的报错：

> dim(a)
[1] 18413  3516

Error in `.rowNamesDF<-`(x, value = value) : 
  duplicate 'row.names' are not allowed
In addition: Warning message:
non-unique values when setting 'row.names': ‘2-Mar’, ‘CCDC7’, ‘CYB561D2’, ‘LINC01422’, ‘LINC01481’, ‘MATR3’, ‘RGS5’, ‘TMEM256-PLSCR3’

我实在是很难理解， 3500多个细胞已经是 3500多列的矩阵，作者怎么就敢使用Excel打开，不怕电脑奔溃吗？

也就是说，不到两万个基因，居然是也有基因名字重复了。而且2-Mar这个日期基因赫然在列。

这么多日期基因可怎么办哦

> grep("^[0-9]",a[,1],value = T)
 [1] "15-Sep" "2-Mar"  "10-Sep" "7-Mar"  "2-Sep" 
 [6] "11-Sep" "1-Mar"  "6-Mar"  "3-Mar"  "8-Sep" 
[11] "7-Sep"  "14-Sep" "6-Sep"  "8-Mar"  "5-Mar" 
[16] "9-Mar"  "1-Sep"  "4-Sep"  "10-Mar" "9-Sep" 
[21] "2-Mar"

自己构建日期基因对应表格

首先去下载 gtf文件：

https://www.gencodegenes.org/human/
https://www.gencodegenes.org/mouse/

这个 gencode.v36.annotation.gtf.gz 文件也就是不到50M，所以很快就下载完毕，然后使用下面的代码格式化：

zcat gencode.v36.annotation.gtf.gz |  grep -v '_PAR_Y' |\
perl -alne  '{next unless  $F[1] eq "HAVANA";next unless $F[2] eq "gene";/gene_id \"(.*?)\.\d+\"; gene_type \"(.*?)\"; gene_name \"(.*?)\"/;print "$3\t$2\t$1\t$F[0]\t$F[3]\t$F[4]"}' \
> HAVANA_v36_human_gene_info

zcat gencode.v36.annotation.gtf.gz |  grep -v '_PAR_Y' |\
perl -alne  '{next unless  $F[1] ne "HAVANA";next unless $F[2] eq "gene";/gene_id \"(.*?)\.\d+\"; gene_type \"(.*?)\"; gene_name \"(.*?)\"/;print "$3\t$2\t$1\t$F[0]\t$F[3]\t$F[4]"}' \
> ENSEMBL_v36_human_gene_info

得到了基因信息文件，使用Excel打开，自己主动把基因转换好！

当然了，其实绝大部分情况下没有必要如此大费周章啦，删除即可，绝大部分基因都不一定是那么的重要！

你看文献本身就删除了很多基因，而且仅仅是选取了top5000的高变基因：

大删特删的基因过滤

学徒作业

完成这两个10x样品的基础分析，各自独立的聚类分群和注释：

聚类分群

参考前面的例子：人人都能学会的单细胞聚类分群注释，同时结合文献的信息：

NK (NKG7 and GNLY),
NKT (CD3D and NKG7),
CD8 T cells (CD3D and CD8A),
CD4 T cells (CD3D,LDHB and IL7R),
B cells (MS4A1, CD79A and CD79B),
monocytes (LYZ and CD14 and/or CD16),
DC (LYZ and CCR7)

这些不同细胞亚群的标记基因分别可视化如下：

标记基因

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

10x单细胞表达矩阵你也敢用Excel打开

这么多日期基因可怎么办哦

自己构建日期基因对应表格

学徒作业

文末友情推荐

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

生成图片，分享到微信朋友圈

10x单细胞表达矩阵你也敢用Excel打开

这么多日期基因可怎么办哦

自己构建日期基因对应表格

学徒作业

文末友情推荐

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时