查看原文
其他

Seurat Weekly 专栏总结(送圣诞礼物)

周运来 生信菜鸟团 2022-08-10

天子呼来不上船,
自称臣是菜鸟团


在这里,和国际同行一起学习单细胞数据分析。


每一颗细胞都以独特的方式成为现在的样子,回到故事的起点则又满是机缘巧合。一如我们四万菜鸟团同行,每个人都以不同路径抵达这里。作为菜鸟团的粉丝已经很久了,直到那一个通勤的晚上。接到健明和大吉的嘱托,有了周老师在地铁上写开刊词的感人一幕。Seurat Weekly 开刊以来,也是一连串偶然事件的集合。当时的心血来潮是以Seurt的S4结构及其对象理清单细胞数据分析中的主要概念、过程、原则和关键问题。

在这里我们探讨了:


Seurat Weekly NO.0 || 开刊词
Seurat Weekly NO.1 || 到底分多少个群是合适的?!
Seurat Weekly NO.2 || 我该如何取子集?
Seurat Weekly NO.3||定制可视化
Seurat Weekly NO.4 ||  高效数据管理

在每一次推送的字里行间,周老师都尽可能地使概念易于理解。学单细胞数据分析的过程中我们学到了什么?如果您参加过周老师的培训班,我想第一个概念会是:

  • 距离

衡量距离的方法不同,得到的结果不同,就像此时此刻,我们都在一间教室,物理距离很近。但是,我们又是第一次见面,显得那样的远。以此解释单细胞数据分析中最常规的运算:

  • 聚类

物以类聚,人以群分。好吃的人总会相聚。聚类如何保证同一类细胞会被聚在一起?我们知道,细胞类型本质上是基因差异表达的结果,而单细胞测的不是别的正是:

  • 表达量

单细胞数据分析中需要用counts还是TPM作为输入?基因的表达到底是阴性还是阳性该如何判断?可见,前者是做bulk RNA的老师,后面一个老师会用流式细胞术。不管用什么均一化方式,表达量高的还是高的,低的还是低的,不会出现:

  • pseudo(假的)

我的数据不是按时间顺序采样的可不可以做pseudotime?我只有一个样本做pseudotime有没有意义啊?如果以动态的眼光看我们每次捕获的细胞,其实他们总是处在某种运动之中。pseudotime其实是一种排序分析,一个静静的表达谱,用monocle、PAGA等可以分出不同的梯度。这时间不是真正的时间,这细胞也可以不是真正的细胞:

  • pseudocell

随着单细胞数据通量的增加,一个study用到的细胞越来越多,这对现有的模型和计算资源都提出了挑战。于是我们可以在细胞类型内随机20个细胞做平均,成为一个细胞以对计算资源的消耗,或者避免稀疏矩阵对模型的不适应。谁曾想到,到了空间转录组这里,还要用一种bulk RNA的技术来解析spot数据:

  • Deconvolute


应用解卷积技术,周老师习惯使用平均人来举例子。平均会减少异质性,如果有一部分个体的特征,我们可以从平均数据中解卷积出一些异质性来,这就像是在升高纬度。说到升高纬度,我们不得不提单细胞数据分析中另一个核心技术:

  • 降维

在一般的单细胞分析流程中,两处用到降维技术,但是它们被冠以不同的名字:线性降维、非线性降维,可视化降维,又掺杂着PCA、TSNE、UMAP等很少有人翻译的缩写。其实第一次降维技术主要目的是特征提取,提取出主要成分(所以PCA又叫主成分分析),当然之前还有一步选择高变基因也是降维:减少了基因数。而一般用来画图谱的TSNE、UMAP其目的是为了可视化用的是非线性的嵌入技术。所有的降维,都是为了:

  • 更好看

让我们一起倒计时,迎接新的一年。在新的一年里,让我们继续用质朴的词汇,明白的教程,向世界传递启发,用技术做有意思的事。温暖得了-80摄氏度的冰箱,温暖得了冷冻切片机,单细胞也温暖得了有趣的灵魂。


最后,在评论区留言,说出你与生信菜鸟团或者单细胞数据分析的故事,同样的,我们将抽取 2 名幸运读者,赠送生信菜鸟团纪念版卫衣一件,详情见:菜鸟团4万粉丝啦(福利时间)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存