查看原文
其他

StatQuest生物统计学专题 - library normalization进阶之edgeR的标准化方法

冰糖 生信菜鸟团 2022-06-07

edgeR的标准化方法edgeR同DESeq2一样,都是利用中等表达基因进行标准化

在上两周的StatQuest统计学专题中,分别讲述了RPKM,FPKM,TPM的定义和生物学意义(见StatQuest生物统计学专题 - RPKM,FPKM,TPM)和DESeq2的library normalization方法(StatQuest生物统计学专题 - library normalization进阶之DESeq2的标准化方法)。

我们已经知道RPKM,FPKM,TPM是常见的标准化方法,然而DESeq2、edgeR等差异表达分析软件是不使用这些方法的,其原因在于测序文库组成不同造成的差异,也就是说不同样本具有不同的活跃表达基因,而这个问题是无法通过RPKM,FPKM,TPM等方法解决的(其原因见StatQuest生物统计学专题 - library normalization进阶之DESeq2的标准化方法)。

上周我们讨论了DESeq2的标准化方法,本周将关注一下edgeR的标准化方法。

需要说明的是,DESeq2和edgeR的标准化方法并不需要人工进行计算,它们是这两个软件算法的一部分,是自动进行的。

讨论它们的目的在于明确它们的统计学和生物学意义,这样有助于理解两个软件的内在机制。

下周将关注DESeq2和edgeR是如何寻找差异表达基因的。

edgeR的标准化方法

edgeR也是通过6个步骤找到一个标准化因子,再使用这个标准化因子对原始Read值进行修正。

第一步 移除所有未表达基因

将在所有样本中Read数都为0的基因剔除。如下图,Gene5会被剔除,不进行下一步的运算。

StatQuest-VI-1

第二步 选出一个参考样本

在所有的样本中,选出一个参考样本,以这个样本为基准对其他的样本进行标准化因子的求解。一个好的参考样本应该是尽量避免出现极端数据趋势,而应是最平均的数据趋势。

以一个例子来说明如何选择参考样本:

  1. 对所有样本求总Read数;

  2. 各样本除以各自的总Read数,得到修正Read数;

  3. 求出各自样本修正Read数的Q3值(第3个四分位数);

  4. 所有的Q3值求平均,与平均Q3相差最小的样本即是参考样本。

本例中平均Q3值为0.25,样本1的Q3值为0.26,同0.25相差最小,为参考样本。

StatQuest-VI-2

第三步 选出代表性基集因用于计算标准化因子

以参考样本为基准,剩下的每个样本都会利用参考样本求出一个基因集合以用于计算标准化因子。参考样本的标准化因子为1,不需要寻找代表性基因集。

代表性基因集的选择依据两个指标:基因Read在样本间的偏倚程度和基因Read数的大小。以样本2#为例,下图形象化的表示了这两个指标的含义:

横轴代表log fold differences,fold differencess是reference/sample #2比值,所以基因read数在reference中越高则越出现在B点,在sample 2#中越高则出现在A点;

纵轴代表Read的geometric mean,基因Read数越大则越出现在C点,越小则越出现杂D点;

两个参数合并,则edgeR就是为选出图中的E区域,这些区域的基因偏倚较小,表达量居中,因此更能排除特异基因和异常值的干扰,用于计算标准化因子会更准确。

StatQuest-VI-3

以sample 2#为例来说明代表性基因集的选择过程,由于基因集的筛选需要大量的基因,所以将Read count矩阵表达成下图的形式,添加了Gene N和省略号,代表有大量基因参与运算。

  1. 计算基因Read偏倚程度计算

    偏倚程度用log fold differences衡量:log fold differences = log2(Reference/sample 2#)

    计算sample 2#的每一个基因的log fold值,见下图,Gene1的log fold值为Inf,所以剔除此基因,不再参与下边的标准化因子的计算。

StatQuest-VI-4
  1. 计算基因Read数的平均大小

    基因Read数的平均大小用geometric mean衡量:geometric mean=(log2 Reference + log2 sample 2#)/2

    计算sample 2#的每一个基因的geometric mean值,见下图,Gene1的geometric mean值为Inf,所以剔除此基因,不再参与下边的标准化因子的计算。

    StatQuest-VI-5
  2. 求得代表性基因集

    3.1 将log fold值进行排序,然后剔除数值在最高30%以上和最低30%以下的基因,只保留中间40%的基因,得到基因集1,本例为GeneN;

    3.2 将geometric mean值进行排序,然后剔除数值在最高5%以上和最低5%以下的基因,只保留中间90%的基因,得到基因集2,本例为Gene4;

    3.3 最后对上述两个基因集求交集,即得到代表性基因集,本例中GeneN和Gene4没有交集。本例中参与计算的基因太少,只有6个,其实代表性的基因集在那个省略号中~~

    StatQuest-VI-6

如此就找到了样本2#的代表性基因集了,同样方法可以求出剩余样本的代表性基因集。

第四步 计算代表性基因集的log fold的加权平均数

经过代表性基因的选择后,再使用这些代表性基因计算标准化因子,就排除了极端表达的基因的影响。

由于我们选择计算的基因太少,所以代表性基因集还在那个省略号中,我们假定这个代表性基因集是GeneA、GeneB, … , GeneZ。

然后计算这些基因的log fold值对原始Read Count的加权平均数。

也就是说,

加权平均数的计算根据原始Read进行加权:
(log2fold A * ReadCount A + log2fold B * ReadCount B + ... + log2foldZ * ReadCount Z)/sum(ReadCount A, ReadCount B,..., ReadCount Z)

其中,
log2fold A:geneA的log fold值;
ReadCount A: geneA的原始Read count;
sum:求和。
StatQuest-VI-7

第五步 将加权平均数转换为其真数

将加权平均数转换为其真数,这个真数即是相应的标准化因子了。

scaling factor = 2^weighted Average

不过这个标准化因子仍然不是edgeR使用的标准化因子。

还需要一步变换。

第六步 将各个样本的标准化因子转换为以1为中心

看一个实际的标准化因子的例子,左列就是按照上述5步算法得到的4个样本的标准化因子,样本WT2是参考样本,其标准化因子为1。可以发现这4个标准化因子的平均数是0.95,中心点不是1。

将每一个标准化因子除以标准化因子的几何平均数即可。

这里的几何平均数是指的常见的乘积开方的平均数,不同于以上提到的对数求均值的几何平均数。

本例中的几何平均数为(1.01110.891*0.893)^(1/4)=0.947

所以左列的每个标准化因子除以0.947即得到右列最终的标准化因子。

StatQuest-VI-8

edgeR同DESeq2一样,都是利用中等表达基因进行标准化

我们上一周已经说过,DESeq2的标准化因子就是选出一个有代表性的gene X(其实是每个样本一个代表性gene X),而这个gene X的reads for gene X/average for gene X比值就是标准化因子。

只不过选取gene X的时候,通过对数变换和中位数的方法,更多的参考了中等表达基因和管家基因的数据趋势,而剔除了特异性表达基因和高差异表达基因的影响。

而edgeR的标准化因子是找到一群有代表性的基因集(每个样本一个代表性基因集),这一群基因的log fold值的加权平均数就是标准化因子(最后还将标准化因子转换为以1为中心)。

只是在选择代表性基因集的时候,是通过先选出一个数据趋势较为平均的参考样本,以这个参考样本为基准进行选择的。而且这一群代表性基因集的选取是依据基因的偏倚程度和Read数大小选出的,选择偏倚程度较小、Read数居中的基因,其最终结果是减少极端表达基因的影响(不表达或高表达的基因),而更多的考虑了中等表达基因的趋势。

所以在本质思想上,DESeq2和edgeR并没有不同,都是为了降低极端表达基因的影响,而使用中等表达基因进行标准化。只不过DESeq2主要是通过对数变换和中位数的方法选出一个有代表性的gene X,geneX的reads for gene X/average for gene X比值就是标准化因子。而edgeR是依据基因的偏倚程度和Read数大小选出一群代表性基因集,这个基因集的log fold值的加权平均数就是标准化因子。


猜你喜欢

生信基础知识100讲

生信菜鸟团-专题学习目录(5)

生信菜鸟团-专题学习目录(6)

生信菜鸟团-专题学习目录(7)


还有更多文章,请移步公众号阅读

▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存