转录组数据定量归一化

Original 生信阿拉丁生信阿拉丁 2022-05-16

经常看到类似的提问：

转录组测序分析中FPKM和TPM哪个归一化方法好？

小编并不盲从，此前一直使用FPKM，Nature、Science和Cell文章都能看到FPKM的身影。。不过小编最近对转录组定量归一化方法有了新的认识，借此机会同大家分享几种归一化方法的异同和分析工具。

目前，转录组测序（RNA-seq）分析是非常成熟的研究手段，有众多分析工具和方法供大家使用，其中，对基因或转录本的读段数目（read count）进行归一化是一个非常重要的分析过程，如何对基因区域进行准确的定量和归一化，是大家十分关心的核心问题之一。

无疑，转录组测序双端数据分析中，目前FPKM是最常用的归一化方法，那FPKM归一化方法是最准确的吗？随着生物信息分析技术的快速发展，FPKM或许已经是“明日黄花”。

PART

归一化的基本背景

总的来说，传统的转录组定量方法是相对定量，一个基因的定量结果很大程度上会受到基因的长度和测序深度的影响。基因长度越长、测序深度越高，得到该基因的read counts就越多，相对表达水平也越高。

所以，在进行下游分析的时候，例如聚类、主成分分析，如果不进行数据归一化直接使用原始read count，简直就是耍流氓。

因此，表达量归一化的精确计算需要同时考虑基因长度、测序深度等信息。

PART

归一化方法的异同

下表列举了不同组学数据分析的归一化方法：

早期，RNA-seq测序为单端测序，一般使用最为经典的RPKM（Reads Per Kilobase Million）进行数据归一化，俨然转录组归一化界的老大哥，不仅在转录组领域占有一席之地，而且在表观数据归一化方面也有较为广泛的应用；而当前FPKM作为最常用的双端数据归一化方法走向了台前，FPKM兼顾了基因的长度和深度信息使得数据归一化更为准确。

RPKM公式如下：

其中，n_r是比对到基因的read counts; L是基因的外显子长度之和除以1000；N是总有效比对到基因组的read counts。

FPKM公式如下：

其中，nf是比对到基因的插入片段数目，其余参数与RPKM一致。

然而，金无足赤，作为老戏骨的FPKM有一个明显的缺点是不同样本/批次数据的归一化数值总和不一致，那么在进行下游分析时就会出现问题。

小鲜肉儿，TPM（Transcripts Per Million）正是为了解决该问题而生。为了保证比较组样本间的归一化数值总和相同，即TPM总和为1M，所以可以直接TPM对样本进行比较，定量效果更为理想，总而言之TPM并非靠脸吃饭。

TPM公式如下：

Ni为比对到第i个exon的reads数目；Li为第i个exon的长度；sum(N1/L1+N2/L2 + ... + Nn/Ln)为所有 (n个)exon按长度进行标准化之后数值之和。

由于基因长度和转录本丰度各异，RPKM和FPKM直接使用read counts或fragment counts会对归一化带来偏差，TPM之所以更加有效是因为，它不是直接除以有效比对的read counts总数，而是除以经过基因长度归一化后的read counts总数，故使用TPM对定量归一化更加合理和科学。

既然TPM更加优秀，那么众多科研工作者还在普遍使用RPKM/FPKM归一化方法呢，主要原因有：

TPM和FPKM存在正相关性，且RPKM/FPKM在一定程度上符合实验的验证结果，包括公式提出者和科研工作者在内都能得到比较理想的验证结果；
大家都这么用，相关的文章很普遍的使用RPKM或FPKM，定量方法没有翻天覆地的变化，没有意识到定量与生物学问题直接的联系。

PART

如何计算TPM值

通常，定量之前需要利用二代数据进行转录本的组装，常用的软件有Cufflinks和StringTie；如果有参考基因组测序reads可以直接进行比对和定量以及归一化，如RSEM和eXpress软件。

当然还有不依赖于参考基因组比对后组装的软件，直接使用reads进行转录本组装定量，如Sailfish、Salmon、quasi-mapping和kallisto。

以上具体软件的使用和适用条件，大家可自行阅读参考资料5对应的良心文章。

TPM值简要计算思路如下：

计算read count
使用HTSeq-count或featureCounts计算各个基因区间的read counts，二者计算count值差别不大，且后者速度较快，推荐使用。
原始read count校正、加和
norm_read_count = read_count / (gene_length / 1000)
全部校正后的read count数值加和，得到total_read_count
计算TPM值
TPM = read_count * 1000 * 1000000 / (gene_length * total_read_count)
至此，就得到了一个基因的归一化的read count数值。

PART

差异表达分析

既然TPM归一化方法更好，是不是要采用TPM数值作为输入来进行差异表达分析呢？

其实，现有的差异分析软件往往并不支持归一化的数据作为输入来进行差异比较，几乎所有软件都使用raw read count作为输入，内部进行归一化和统计检验。常用的差异表达分析软件有基于read count的DESeq2、limma、edgeR，和基于转录本组装的Cuffdiff、Ballgown或sleuth。

回到刚才的问题，TPM是对单个样本在组内进行的归一化，差异分析是寻找不同样本之前相同基因的表达差异，不是同一个层面的问题。归一化后的数据集更为集中、数值变小，导致样本间的差异本身被人为缩小，很可能带来没有差异表达基因的后果，导致错误的分析方法。

另外，比较不同样本间同一基因的read count只需要平行比较组间的数据即可，不需要考虑基因长度的影响，也不需要对单个样本内的数据进行归一化。

PART

TPM的缺陷

转录组数据定量归一化方法有很多，经典的RPKM/FPKM因其本身固有的缺陷，越来越多的学者采用TPM这一冉冉升起的新星，大有取而代之的势头。

其实，不管TPM、RPKM还是FPKM都是相对定量的归一化方法。定量的前提需要样本的表达量变化比较稳定，不能出现整体的上调或下调，或者个别基因表达量发生剧烈变化，否则定量归一化方法可能会失效。

另外，传统转录组测序在信息分析过程中通常不会去除duplicate reads，因为根本不知道这些reads是多个表达拷贝的结果，还是文库构建中PCR duplication产生的结果。为了在源头实现精确定量，可以在reads中追加序列唯一的UMI（Unique Melocular Identifier）分子标签，这样携带相同UMI标签的reads认为是duplicate reads，保留一条质量值最高的read即可，从而实现较为准确的绝对定量。

PART

如何实现绝对定量

转录组测序的终极目的是基于表达量来发掘背后的生物学问题，问题是表达量真的准确吗？

序列偏好、cDNA反转录、文库PCR扩增、测序扩增等都会增加解读数据的难度。如何解释常规转录组数据面需要解决的问题比较多，不仅仅是定量这一个方面。

忽如一夜春风来，最近各个科服大厂都在讨论转录组UMI定量的事情。UMI正如火如荼的使用在单细胞转录组的研究中，同时整合barcode、UMI信息对单细胞数据进行解读。

早在2012年，关于digital转录组UMI定量的文章就已发表，作者系统的讨论了UMI或barcode序列的设计思路、性能验证等工作。总之，UMI定量更加准确、测序序列可以相互校正从而提高序列准确性，更重要的是对于低拷贝转录本的定量也更为准确。

建库定量示意图如下：

基于二代测序免不了进行转录本组装，组装过程可能引入组装错误或剪切体的丢失。而三代测序所测即所得的特点则不存在上述问题的困扰，与UMI/barcode相结合不失为一种更高效的思路，以市面上比较流行的PacBio三代测序平台为例，在克服转录本产出低、片段选择等问题后其转录本准确定量则水到渠成。

名词术语

1. RPKM: Reads Per Kilobase Million

2. FPKM: Fragments Per Kilobase Million

3. TPM: Transcripts Per Millon

4. RPM: Reads Per Millon

5. RPGC: Reads Per Genomic Content, defined as total number of mapped reads * fragment length) / effective genome size

6. BPM (per bin): number of reads per bin / sum of all reads per bin (in millions)

7. SRPBM: Spliced Reads per Billion Mapping, defined as number of circular reads / (number of mapped reads * read length )

8. fragment: region between read1 and read2

9. UMI: Unique Melocular Identifier

参考资料

Ali Mortazavi et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nature Methods, 2008
http://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/
Bo Li, et al. RNA-Seq gene expression estimation with read mapping uncertainty. Bioinformatics, 2010
https://haroldpimentel.wordpress.com/2014/05/08/what-the-fpkm-a-review-rna-seq-expression-units/
Sahraeian, S.M.E. et al. Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis. Nat Commun, 2017
https://bioinform.github.io/rnacocktail/
https://www.biorxiv.org/content/10.1101/472571v2.full
Katsuyuki Shiroguchi et al .Digital RNA sequencing minimizes sequence-dependent bias and amplification noise with optimized single-molecule barcodes. PNAS, 2012