现在单细胞还想“水”CNS恐怕得多组学了
我们组建了一大波生物信息学各项技能学习交流群,目录是:
免费视频课程《RNA-seq数据分析》 免费视频课程《WES数据分析》 免费视频课程《ChIP-seq数据分析》 免费视频课程《ATAC-seq数据分析》 免费视频课程《TCGA数据库分析实战》 免费视频课程《甲基化芯片数据分析》 免费视频课程《影像组学教学》 免费视频课程《LncRNA-seq数据》 免费视频课程《GEO数据挖掘》
发现绝大部分群都沉寂了,因为都很简单,基本上按照我五年前的shell脚本和R代码,跟着视频走一遍就全部学会了。唯独是我们的3个单细胞交流群,每天早中晚都是此起彼伏的讨论,各大公众号的CNS解读文章,都有人往群里仍,真的是让人焦虑啊!
两年前大家仍的都是一些图谱类的研究,不同的物种不同的器官组织测个十万左右的单细胞就是CNS文章啦,因为都是开创性的研究啊。微信群的大伙都是酸这些CNS说,只有有经费就可以“水”几篇。
但现在不一样了,低垂的果实已经在单细胞火爆的这2年被采摘完毕,现在很多大佬手上都砸了几百万的单细胞转录组数据发不出来。比如BGI丢在预印本的乳腺癌单细胞转录组研究有两个文章:
2019年的A Single-Cell Immune Atlas of Triple Negative Breast Cancer Reveals Novel Immune Cell Subsets,链接是:https://www.biorxiv.org/content/10.1101/566968v1 2018年的Comprehensive analysis of immune evasion in breast cancer by single-cell RNA-seq,链接是:https://www.biorxiv.org/content/10.1101/368605v2
当时,这个样本量还算是很有优势的,现在呢,基本上像样的课题组都可以搞个七八个10X单细胞转录组啦,不到3万块钱一个样品。所以,我们都很担心深圳华大基因牵头的这个10X单细胞转录组测序项目,虽然这个研究关注的是乳腺癌病人的肿瘤微环境
的细胞类型。
今天再看微信群,发现大家推荐的CNS文章都已经是多组学了,比如这个发表于2020年9月的nature杂志的文章,发育生物学领域的:
《Reprogramming roadmap reveals route to human induced trophoblast stem cells》,链接是https://www.nature.com/articles/s41586-020-2734-6
GSE150311 (scRNA-seq experiments of intermediates during human primed and naive reprogramming); GSE150637 (scRNA-seq experiments of day 21 reprogramming intermediates cultured under fibroblast condition, naive pluripotent and trophoblast stem cell conditions); GSE147564 (snRNA-seq experiments of intermediates during human primed and naive reprogramming); GSE147641 (ATAC-seq experiments of intermediates during human primed and naive reprogramming); GSE150590 (ATAC-seq experiments of iTS cells); GSE149694 (bulk RNA-seq experiments of intermediates during human primed and naive reprogramming); GSE150616 (bulk RNA-seq experiments of iTS cells and their derived placenta subtypes).
还得开发网页工具:interactive online tool (http://hrpi.ddnetbio.com/) ,公布全部的代码:Scripts can be found at https://github.com/SGDDNB/hrpi.
单细胞转录组数据处理
基本上按照你我教程即可,如果你看不懂代码,请自行回顾:单细胞基础10讲
01. 上游分析流程 02.课题多少个样品,测序数据量如何 03. 过滤不合格细胞和基因(数据质控很重要) 04. 过滤线粒体核糖体基因 05. 去除细胞效应和基因效应 06.单细胞转录组数据的降维聚类分群 07.单细胞转录组数据处理之细胞亚群注释 08.把拿到的亚群进行更细致的分群 09.单细胞转录组数据处理之细胞亚群比例比较
这篇文章的单细胞转录组的细胞过滤标准很严格:
Cutoffs of nUMI > 15,000, nGene < 1,200 and nUMI > 50,000, nGene < 1,800, pctMT > 12, pctHK < 10 were applied to discard cells for the snRNA-seq and scRNA-seq, respectively.
单细胞转录组的细胞数量超级大:
After quality control, 36,597 cells and 17,004 genes, and 7,194 cells and 12,246 genes, remained for the snRNA-seq and scRNA-seq, respectively.
其它单细胞组学我已经没有精力去follow了
就像我一直强调的,每个人的时间精力是有限的,如果你的R和Linux基础知识扎实,其实学一个新的组学超级简单。但是太多的初学者总是一上来就问单细胞ATAC-seq怎么做,其实satijalab的seurat官网文档写的清清楚楚,Integrate scRNA-seq data with scATAC-seq data, https://satijalab.org/seurat/v3.1/atacseq_integration_vignette.html
classify scATAC-seq cells based on scRNA-seq clusters coembed scATAC-seq and scRNA-seq data
就算你各个地方去找教程,最后不都是翻译了它官网的材料吗?何不静下心来,看文档!
如果单细胞多组学数据分析很难
当然了,做多组学单细胞数据分析起来也是难度多多,另外一条路就是实验材料要新颖:https://doi.org/10.1038/s41586-020-2797-4 ,该研究由哈佛医学院、剑桥大学和帝国理工学院等机构的科学家共同进行,并于9月24日发表在**《自然》杂志上,题为“Cells of the adult human heart”。该研究是人类细胞图谱计划(Human Cell Atlas)的一部分,该项目由Chan Zuckerberg Initiative资助**,计划绘制人体中每种细胞的图谱。绘制人类心脏细胞图谱,能够更好地了解心脏疾病,并指导高度个性化治疗方法的发展。
研究人员首先从14个捐献心脏的六个区域分离细胞,其中一半来自男性,一半来自女性。他们使用单细胞分析、成像技术和人工智能深度学习技术来追踪每个细胞中基因的开启和关闭。 研究人员发现心脏不同区域的细胞存在重大差异。他们还观察到每个区域都有特定的细胞亚群,这一发现指向不同的发育起源,并暗示这些细胞对治疗的反应不同。
细胞分群如下: