冷知识:其实一个10X单细胞转录组样品可以有多达84个fastq文件哦!
我们在单细胞天地多次分享过cellranger流程的笔记,大家可以自行前往学习,如下:
单细胞实战(一)数据下载 单细胞实战(二) cell ranger使用前注意事项 单细胞实战(三) Cell Ranger使用初探 单细胞实战(四) Cell Ranger流程概览 单细胞实战(五) 理解cellranger count的结果
因为这个流程其实是需要10X单细胞转录组的fastq文件,而且呢,命名是有规则的!
如果你的样品被分散到了多个library、flowcell,就会出现一个样品有84个fastq文件的情况,恰好我看到了一个文献里面的数据就是这样的情况。该研究于2021年3月发表在《Nature Communications》杂志的文章, 标题是:《Time-resolved single-cell analysis of Brca1 associated mammary tumourigenesis reveals aberrant differentiation of luminal progenitors》,链接是:https://www.nature.com/articles/s41467-021-21783-3
如下所示的一个样品,是SIGAA11, 足足有84个fastq文件,如下所示:
SIGAA11_S37_L003_R1_001.fastq.gz
SIGAA11_S37_L003_R2_001.fastq.gz
SIGAA11_S37_L003_I1_001.fastq.gz
SIGAA11_S37_L004_R1_001.fastq.gz
SIGAA11_S37_L004_R2_001.fastq.gz
SIGAA11_S37_L004_I1_001.fastq.gz
SIGAA11_S37_L005_R1_001.fastq.gz
SIGAA11_S37_L005_R2_001.fastq.gz
SIGAA11_S37_L005_I1_001.fastq.gz
SIGAA11_S37_L006_R1_001.fastq.gz
SIGAA11_S37_L006_R2_001.fastq.gz
SIGAA11_S37_L006_I1_001.fastq.gz
SIGAA11_S37_L007_R1_001.fastq.gz
SIGAA11_S37_L007_R2_001.fastq.gz
SIGAA11_S37_L007_I1_001.fastq.gz
SIGAA11_S37_L008_R1_001.fastq.gz
SIGAA11_S37_L008_R2_001.fastq.gz
SIGAA11_S37_L008_I1_001.fastq.gz
SIGAA11_S37_L009_R1_001.fastq.gz
SIGAA11_S37_L009_R2_001.fastq.gz
SIGAA11_S37_L009_I1_001.fastq.gz
SIGAA11_S38_L003_R1_001.fastq.gz
SIGAA11_S38_L003_R2_001.fastq.gz
SIGAA11_S38_L003_I1_001.fastq.gz
SIGAA11_S38_L004_R1_001.fastq.gz
SIGAA11_S38_L004_R2_001.fastq.gz
SIGAA11_S38_L004_I1_001.fastq.gz
SIGAA11_S38_L005_R1_001.fastq.gz
SIGAA11_S38_L005_R2_001.fastq.gz
SIGAA11_S38_L005_I1_001.fastq.gz
SIGAA11_S38_L006_R1_001.fastq.gz
SIGAA11_S38_L006_R2_001.fastq.gz
SIGAA11_S38_L006_I1_001.fastq.gz
SIGAA11_S38_L007_R1_001.fastq.gz
SIGAA11_S38_L007_R2_001.fastq.gz
SIGAA11_S38_L007_I1_001.fastq.gz
SIGAA11_S38_L008_R1_001.fastq.gz
SIGAA11_S38_L008_R2_001.fastq.gz
SIGAA11_S38_L008_I1_001.fastq.gz
SIGAA11_S38_L009_R1_001.fastq.gz
SIGAA11_S38_L009_R2_001.fastq.gz
SIGAA11_S38_L009_I1_001.fastq.gz
SIGAA11_S39_L003_R1_001.fastq.gz
SIGAA11_S39_L003_R2_001.fastq.gz
SIGAA11_S39_L003_I1_001.fastq.gz
SIGAA11_S39_L004_R1_001.fastq.gz
SIGAA11_S39_L004_R2_001.fastq.gz
SIGAA11_S39_L004_I1_001.fastq.gz
SIGAA11_S39_L005_R1_001.fastq.gz
SIGAA11_S39_L005_R2_001.fastq.gz
SIGAA11_S39_L005_I1_001.fastq.gz
SIGAA11_S39_L006_R1_001.fastq.gz
SIGAA11_S39_L006_R2_001.fastq.gz
SIGAA11_S39_L006_I1_001.fastq.gz
SIGAA11_S39_L007_R1_001.fastq.gz
SIGAA11_S39_L007_R2_001.fastq.gz
SIGAA11_S39_L007_I1_001.fastq.gz
SIGAA11_S39_L008_R1_001.fastq.gz
SIGAA11_S39_L008_R2_001.fastq.gz
SIGAA11_S39_L008_I1_001.fastq.gz
SIGAA11_S39_L009_R1_001.fastq.gz
SIGAA11_S39_L009_R2_001.fastq.gz
SIGAA11_S39_L009_I1_001.fastq.gz
SIGAA11_S40_L003_R1_001.fastq.gz
SIGAA11_S40_L003_R2_001.fastq.gz
SIGAA11_S40_L003_I1_001.fastq.gz
SIGAA11_S40_L004_R1_001.fastq.gz
SIGAA11_S40_L004_R2_001.fastq.gz
SIGAA11_S40_L004_I1_001.fastq.gz
SIGAA11_S40_L005_R1_001.fastq.gz
SIGAA11_S40_L005_R2_001.fastq.gz
SIGAA11_S40_L005_I1_001.fastq.gz
SIGAA11_S40_L006_R1_001.fastq.gz
SIGAA11_S40_L006_R2_001.fastq.gz
SIGAA11_S40_L006_I1_001.fastq.gz
SIGAA11_S40_L007_R1_001.fastq.gz
SIGAA11_S40_L007_R2_001.fastq.gz
SIGAA11_S40_L007_I1_001.fastq.gz
SIGAA11_S40_L008_R1_001.fastq.gz
SIGAA11_S40_L008_R2_001.fastq.gz
SIGAA11_S40_L008_I1_001.fastq.gz
SIGAA11_S40_L009_R1_001.fastq.gz
SIGAA11_S40_L009_R2_001.fastq.gz
SIGAA11_S40_L009_I1_001.fastq.gz
如果你仔细观察这84个fastq文件的名字,就会发现规律,如果以下划线为分隔符,那么
第2列是S37到S40这4种情况 第3列是L003到L009这7种情况 第五列是R1,R1,I1这样的3种情况
总共就是 4x7x3=84个fastq文件。
当然了,并不是每个10X样品都有84个fastq文件哈。甚至绝大多数情况下,就3个文件,如下所示:
5.6G 1月 21 10:29 YX-Endo-Decidu_S1_L001_I1_001.fastq.gz
44G 1月 21 10:33 YX-Endo-Decidu_S1_L001_R1_001.fastq.gz
118G 1月 21 10:44 YX-Endo-Decidu_S1_L001_R2_001.fastq.gz
2.6G 1月 21 10:44 YX-PBMC-Decidu_S1_L001_I1_001.fastq.gz
21G 1月 21 10:46 YX-PBMC-Decidu_S1_L001_R1_001.fastq.gz
56G 1月 21 10:51 YX-PBMC-Decidu_S1_L001_R2_001.fastq.gz
2.3G 1月 21 12:31 ZZX-PBMC_S1_L001_I1_001.fastq.gz
17G 1月 21 12:32 ZZX-PBMC_S1_L001_R1_001.fastq.gz
50G 1月 21 12:38 ZZX-PBMC_S1_L001_R2_001.fastq.gz
2.6G 1月 21 12:38 ZZX-yuan-2_S1_L001_I1_001.fastq.gz
19G 1月 21 12:40 ZZX-yuan-2_S1_L001_R1_001.fastq.gz
56G 1月 21 12:46 ZZX-yuan-2_S1_L001_R2_001.fastq.gz
如上所示,可以看到每个样品都是3个文件,分别是 R1,R2,I1 这样的标记!
极端情况下,2个文件也OK,跑cellranger流程没有问题!
14G 3月 1 16:19 test_L3_X37-1.R1.fastq.gz
11G 3月 1 16:41 test_L3_X37-1.R2.fastq.gz
14G 3月 1 16:21 test_L3_X37-2.R1.fastq.gz
11G 3月 1 16:43 test_L3_X37-2.R2.fastq.gz
14G 3月 1 16:24 test_L3_X37-3.R1.fastq.gz
11G 3月 1 16:37 test_L3_X37-3.R2.fastq.gz
13G 3月 1 16:27 test_L3_X37-4.R1.fastq.gz
11G 3月 1 16:36 test_L3_X37-4.R2.fastq.gz
如下所示,一个样品其实就R1和R2两个文件,但是上面这个文件名并不是符合Cell Ranger流程哦,需要修改文件名!
现在,关于10X单细胞转录组原始测序数据,你懂了吗?
在2020的7月我看到了其更新到了V4,也里面写了一个总结,见:cellranger更新到4啦(全新使用教程),但是马上有升级了,目前是Cell Ranger - 5.0.1 (December 16, 2020),现在已经是V6,不过笔记其实是大同小异啦!
跑完了Cell Ranger仅仅是拿到了表达量矩阵文件而已,10x单细胞转录组数据的每个样品都有3个文件的表达矩阵,如下所示:
2.2M Mar 8 2019 GSM3660655_SC94IPFUP_barcodes.tsv.gz
259K Mar 8 2019 GSM3660655_SC94IPFUP_genes.tsv.gz
26M Mar 8 2019 GSM3660655_SC94IPFUP_matrix.mtx.gz
2.2M Mar 8 2019 GSM3660656_SC95IPFLOW_barcodes.tsv.gz
259K Mar 8 2019 GSM3660656_SC95IPFLOW_genes.tsv.gz
31M Mar 8 2019 GSM3660656_SC95IPFLOW_matrix.mtx.gz
下游处理的时候,一定要保证这3个文件同时存在,而且在同一个文件夹下面。示例代码是:
rm(list=ls())
options(stringsAsFactors = F)
library(Seurat)
sce1 <- CreateSeuratObject(Read10X('../10x-results/WT/'),
"wt")
重点就是 Read10X 函数读取 文件夹路径,比如:../10x-results/WT/ ,保证文件夹下面有3个文件。
后续分析需要一些基础认知,也可以看基础10讲:
01. 上游分析流程 02.课题多少个样品,测序数据量如何 03. 过滤不合格细胞和基因(数据质控很重要) 04. 过滤线粒体核糖体基因 05. 去除细胞效应和基因效应 06.单细胞转录组数据的降维聚类分群 07.单细胞转录组数据处理之细胞亚群注释 08.把拿到的亚群进行更细致的分群 09.单细胞转录组数据处理之细胞亚群比例比较
明码标价
如果是你有自己的10X转录组原始测序数据,但是因为某些机缘巧合并没有跑Cell Ranger流程,所以你没有表达量矩阵文件。但是这样的Cell Ranger流程对服务器要求比较高,我们可以代劳哦!收费标准如下:
3个样品以内是800元 每增加3个样品为一个单位,增加800元 赠送普通的降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释 提供全套数据和代码,使用最新流程和数据库文件
这个肯定是目前的网页工具无法满足的啦, 因为耗费计算机资源太大了,嘻嘻,而且呢,10X转录组原始测序数据一个样品就100G左右,所以一般来说推荐硬盘寄送哈!
老规矩,有需要的小伙伴们直接留言即可!