查看原文
其他

单细胞分析的最上游——处理Fastq文件:cellranger

BIOMAMBA Biomamba 生信基地 2023-06-15

写在前面


原先我们将这一部分内容安排在了整个课程的最后,是考虑到这部分内容需要一定的Linux基础。这并不代表这是一个下游的内容,相反,这是单细胞测序整个生物信息学分析中最上游的内容。作为承前启后的一个步骤,实验的部分到Fastq文件终止,生信的部分由Fastq文件开始(如果这里你不知道我在说什么,建议去看一下我们这个系列的第一讲:手把手教你做单细胞测序数据分析(一)——绪论)。如果是10X genomics平台做的测序,那么用cellranger处理Fastq文件即可,另一种主流的平台——dropseq,我们在下篇推送也会给大家介绍。 
形式上来说呢,原本应该安排一次视频课,但是考虑到这部分内容在Linux中完成,制作视频的成本过高。掌握Linux知识并拥有服务器的同学可能不需要视频教程,而没有Linux基础和服务器的同学看了视频也无法自己操作,因此本篇最终采用文字推送的形式呈现。没有条件自己操作的同学也可以在文末联系我




往期回顾


保姆级教程,代码部分整理在往期推送之中:
手把手教你做单细胞测序数据分析(一)——绪论
手把手教你做单细胞测序数据分析(二)——各类输入文件读取
手把手教你做单细胞测序数据分析(三)——单样本分析
手把手教你做单细胞测序数据分析(四)——多样本整合手把手教你做单细胞测序数据分析(五)——细胞类型注释手把手教你做单细胞测序数据分析(六)——组间差异分析及可视化手把手教你做单细胞测序数据分析(七)——基因集富集分析
B站视频:https://www.bilibili.com/video/BV1S44y1b76Z/


其他单细胞相关技术贴也在这里:细胞的数量由誰决定?答读者问(三)单细胞测序前景答读者问(四):如何分析细胞亚群答读者问(六)、Seurat中如何让细胞听你指挥
单细胞中应该如何做GSVA?


非技术帖:关于单细胞的事 谈谈后面的计划
Biomamba助推的第一篇论文发表啦




一、安装软件并查看帮助文档
wget -O cellranger-5.0.1.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-5.0.1.tar.gz?Expires=1608489066&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci01LjAuMS50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2MDg0ODkwNjZ9fX1dfQ__&Signature=bhGO1dQOi6xmaSl-XHACRN6wUjjdau-85VHyNHtPAU6eG~6v3urfrkX5E5uShfjwgCuxsuykcWnn2nJrnRN9UyAVyFnIlrhiswDL0T5Jkox4EBqQ~tL2WTivBGe5G8EFPIxFsPoKYv0FIdDoCQYGRlDaIWIIyu7Cg7dkPPfer5hUBPp6KfmXE3st47O4LV8ZW7ghkjnIPU57NuQa3ZRlIJ2FiEmFwKCfSzy0r3o6cFIfZ~HcaIqxP1Snk5~U9sCVqSKGryFBW9uaP89mbb855hen4J4JD58lxkxp8qwKbL6qH1y5g1VlgydLg5AFllnrkKUaDSCB1gohq4hHwP5Efw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"#下载安装包tar -zxvf cellranger-5.0.1.tar.gz#解压echo 'export PATH=/cellranger-5.0.1/:$PATH' >> ~/.bashrc#把cellranger的路径加到$PATH中方便调用source ~/.bashrc#更新系统配置文件cellranger count --help#查看cellranger使用说明

二、下载参考基因组
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz#人类参考基因组数据集tar -xvf refdata-gex-GRCh38-2020-A.tar.gzwget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz#mouse参考基因组数据集下载tar -xvf refdata-gex-mm10-2020-A.tar.gz

三、下载测试数据集走一遍流程
wget 'http://cf.10xgenomics.com/samples/cell-exp/2.1.0/neurons_900/neurons_900_fastqs.tar'#测试数据集下载tar -xvf neurons_900_fastqs.tarcellranger count --id=result --transcriptome=../refdata-gex-mm10-2020-A/ --fastqs=/neurons_900_fastqs --sample=neurons_900 --expect-cells=1000 --nosecondary #成功运行命令!!! #这里解释一下cellranger的各个参数: cellranger count --id=sample \ --transcriptome=/opt/refdata-cellranger-GRCh38-1.2.0 \ --fastqs=/home/scRNA/runs/HAWT7ADXX/outs/fastq_path \ --sample=mysample \ --expect-cells=1000 \ --nosecondary# id指定输出文件存放目录名# transcriptome指定与CellRanger兼容的参考基因组# fastqs指定mkfastq或者自定义的测序文件# sample要和fastq文件的前缀中的sample保持一致,作为软件识别的标志# expect-cells指定复现的细胞数量,这个要和实验设计结合起来# nosecondary 只获得表达矩阵,不进行后续的降维、聚类和可视化分析(反正后续要走Seurat,为了节省计算资源,建议加上)#count函数参数解释 

四、硬件要求
不知道最小需要多少G才可以运行cellranger,但是单细胞测序的数据动辄就是100G(压缩前),所以理论上你的设备小于100GB是必然跑不动的。我这里的服务器是377GB的内存,总之如果大家有这样配置的设备,跑正常深度的Fastq文件应该是没有问题。







如何联系我们


最近发现后台中有一些消息我没能及时看到并答复,微信后台中超过48h后便不允许回复读者消息,这里还是再给大家留一下答疑的扣扣号,方便大家随时交流:1913507043。微信号可以点击喜欢作者后自动回复里有。大家可以阅读完这几篇之后添加我:如何搜索公众号过往发布内容
答疑公约
笑一笑也就算了



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存