为什么需要Normalization和PCA分析

单细胞天地单细胞天地 2022-06-07

分享是一种态度

回顾

单细胞RNA-seq分析介绍
 单细胞RNA-seq的设计和方法
 从原始数据到计数矩阵
 差异分析前的准备工作
 scRNA-seq——读入数据详解
 scRNA-seq——质量控制

学习目标

了解Normalization计数对于精确比较cells是必需的
了解如何通过主成分分析(PCA)评估细胞间基因表达的相似性

计数归一化与主成分分析

在获得高质量的单细胞后，单细胞RNA-seq(scRNA-seq)分析工作流程的下一步是执行聚类。聚类的目的是将不同的细胞类型分离成独特的细胞簇。为了进行聚类，我们需要确定细胞间表达差异最大的基因。然后，我们使用这些基因来确定哪些相关的基因集是造成细胞间表达差异最大的原因。

然而，在进行聚类之前，首先让我们先明确几个概念。

Count normalization

第一个是count normalization，这对于准确比较细胞(或样本)之间的基因表达是至关重要的。每个基因的RNA表达，通过mapped reads 这一有意义的数值来反映，但是这一数值还会受到许多其他无意义的因素干扰。Normalization就是缩放原始计数以解决“无意义”因素的过程。这样，表达水平在细胞之间和/或细胞内更加可比。

normalization经常要考虑的因素：

测序深度：考虑测序深度对于比较细胞之间的基因表达是必需的。在下面的示例中，每个基因在细胞2中的表达似乎都增加了一倍，但这是细胞2具有两倍测序深度的结果。scRNA-seq中的每个细胞都将具有与之相关的不同数量的reads。因此，要准确比较细胞之间的表达，有必要对测序深度进行标准化。
基因长度：比较相同细胞内不同基因之间的表达，需要考虑基因长度。映射到较长基因的reads可能看起来与较高表达的较短基因具有相同的计数/表达。
在scRNA-seq分析中，在scRNA-seq分析中，我们将比较细胞内不同基因的表达以聚类细胞。如果使用基于3'或5'液滴的方法，则基因的长度将不会影响分析，因为仅对转录本的5'或3'末端进行了测序。但是，如果使用全长测序，则应考虑转录本的长度。

主成分分析（PCA）

主成分分析(PCA)是一种既强调相似性又强调变异的技术，用来在数据集中产生强模式(降维)。我们将在简要介绍PCA(改编自StatQuests/Josh Starmer的YouTube视频)，强烈建议您浏览YouTube的StatQuest(https://www.youtube.com/watch?reload=9&v=_UVHneBUBW0) 、或 B站StatQuests(https://www.bilibili.com/video/BV1u4411T7VT?from=search&seid=7704732810779707478)的视频，有更全面的讲解。

如果您已经量化了两个样本(或细胞)中四个基因的表达，则可以绘制这些基因的表达值，其中一个样本表示在x轴上，另一个样本表示在y轴上，如下所示：

在表示最大变化的方向上通过数据绘制一条线，在本例中，该方向位于对角线上。数据集中的最大变异发生在构成这条线的两个端点的基因之间。

我们能看到基因在该线的上方和下方有些不同。同时我们可以在数据上绘制另一条线，表示数据中变化第二大的量，因为该图是二维（2轴）的。

每条线末端附近的基因是那些变异最大的基因；从数学上讲，这些基因对线的方向有最大的影响。

例如，基因C值的微小变化会极大地改变较长线的方向，而基因A或基因D的微小变化对其影响不大。

我们还可以旋转整个曲线图，并以从左到右、向上和向下的方式查看表示变化的线条。我们看到数据中的大部分变化是从左到右的(较长的线)，第二大的变化是向上和向下的(较短的线)。现在，您可以将这些线视为表示变化的轴。这些轴本质上是“主成分”，其中PC1代表数据中最大的变化，而PC2代表数据中第二大变化。

如果我们有三个样本/细胞，那么我们就会有一个额外的方向可以发生变化(3D)。因此，如果我们有N个样本/细胞，我们就会有N个变异方向或主成分(PC)！一旦计算出这些PC，处理数据集中最大变化的PC被指定为PC1，第二PC被指定为PC2，依此类推。

一旦为数据集确定了PC，我们就必须弄清楚每个样本/细胞是如何重新适应坐标系的，这样我们才能以直观的方式可视化相似/不同之处。这里的问题是“基于Sample_X中的基因表达，给定PC的Sample_X得分是多少？”按照以下步骤对所有样本计算PC对分数：

首先，根据每个基因对每个PC的影响程度，给每个基因分配一个“影响力”分数。对给定PC没有任何影响的基因得分接近于零，而影响更大的基因得分更高。PC线末端的基因会有更大的影响，所以他们会得到更高的分数，但有相反的符号。
确定“影响力”后，使用以下公式计算每个样本的分数：
1Sample1 PC1 score = (read count * influence) + ... for all genes
对于我们的2个样本示例，以下是分数的计算方式：
1## Sample1 2PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51 3PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7 4 5## Sample2 6PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21 7PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5
一旦为所有PC计算了这些分数，就可以将它们绘制在一个简单的散点图上。下面是示例的绘图：