这才是基因的正确定量方式

詹东亮基因学苑 2023-08-18

什么是基因表达谱
基因的表达谱，就是各基因在特定时期的表达水平。那么怎么定义基因的表达水平呢？

在回答这个问题之前，我先问1个初中的物理问题：怎么定义一个物体的重量呢？性感男神如花跟我比，哪个更重？
为了解决这个问题，国际上制定了1千克的标准品，然后又以这个标准品的重量为基准，制造了很多重量与标准品相同的砝码，送给了不同的国家机构，然后这些机构，就以标准品为基础，制造了2千克，5千克，100千克等砝码，用来测量物体的重量。假如如目前的测量的体重是90千克，我本人测量的体重是65千克的话，那么如花就比我重25千克。

那么回到刚才的问题，我们怎么定义基因的表达水平呢？那么我们也要找一个标准基因，用来衡量其他基因的表达。我们管这个标准基因叫内参基因（通常是表达稳定的基因），在我们的实验室里，大家用一种叫qPCR的方法，将基因和内参基因做比较，得到的差异倍数，作为这个基因的表达水平。示意图如下：

qPCR定量

高通量测序

因为上述的qPCR实验方法太费人力，所以现在很多实验室采用测序的方法来测量基因的表达。但是测序方法跟我们的qPCR方法不一样，怎么定义基因的表达，目前国际上还一直争论不休，一直提出新的统计方法(RPKM，FPKM, TPM，CPM等)，让人眼花撩乱，但是这些基因表达的统计方法，是基于一个这样的概念：基因的表达在整体表达中占的比重，示意图如下：

高通量方法定量

尴尬的困境

我们做基因表达谱，是想要知道在不同的实验环境下，哪些基因的表达产生了变化。但是当我们拿到测序结果后，用不同的软件和统计模型，总会发现它们找到差异基因差别还是挺大的，跟我们的qPCR实验吻合度也不高，只有30%-50%（要真知道，qPCR实验目前是验证基因表达的金标准）。

为什么高通量测序和传统的qPCR定量，这两种方法的结果差别会这么大呢？因为有些的基因，在不同的实验条件下，表达水平相差特别大，大到能影响整体。就好比我们城市的平均工资因为某些巨富的影响而被拉高了，相对而言我们的相对收就降低了。以下我们举个极端的例子，就能一目了然的知道问题所在了：

高通量方法

qPCR方法

走出困境

从上面的例子可以看出，只要我们的不同样品间，有表达稳定的内参基因，所有基因与这个内参基因比较，不就能得到准确的定量结果吗？老哥也在科研路上混了10来年，有这个想法的牛人应该不计其数，如果可行，国际上应该有文章发表才对，但是为什么现在主流的高通量方法，还是用基因的表达比例来计算呢？因为所谓的内参基因，在某种情况下表达也不稳定，甚至不表达。

即然内参不靠谱，能不能加入表达稳定的外参序列作为标准基因？如果你想到这方面，说明你跟我一样，开始步入U秀的行列了，目前国际上还真的有这种标准品，叫ERCC Spike-In，它目前是被用到表达谱芯片上，用来校正基因的表达。

在高通量测序上，目前是被用来评价实验的一致性。那么为什么很少听到有人用它来校正基因的表达呢？主要是因为要用它来作为内参，它就必须是非常精确的标准品，每mL的水里，要有多少个外参序列，都是非常研格限制的，所以这个标准品很贵。另外就是在做实验的时候，要同时严格地控制RNA量和标准品量的比例，对实验人员要求非常高。作为一名放荡不羁爱自由的科学工作者，得想办法克服这些问题，没有条件，就要创造条件。在这个过程中，我也深深体会到中国科研人员无奈和公司的机智。

首先要解决标准品昂贵的问题，它除了实验技术要求高之外，最大的问题是很多公司不愿意投入研发，因为现在高通量转录组基本没有利润，如果客户分析结果不好，还可以让客户再测一次，多收一份钱，虽然很大可能结果还是一样不好。可能是本人的运气比较好吧，杭州的一家试剂公司，叫开泰生物，老板也是做过生物实验的，投入了不少人力，帮我们设计并合成了标准品。

然后就要解决实验操作问题，因为不同批次的样品，不可能每次加内参的比例都一样，存在人为误差，即然实验解决不了，我们就从算法上解决，我们可以通过样品基因表达的整体差异倍数，来纠正标准品的误差，从而做到精准定量。在这里，非常感谢在美国的宋教授和他的团队，帮我们开发了一个叫RNADX的软件（过段时间我们会把它放到github上）。

好了，以下是实验原理，还有我们的结果展示，让大家见识一下这种方法的威力~

原理介绍

我们在建库的时候，加入了表达稳定的人工外参序列，然后进行高通量测序。在测序完成后，将不同的基因与外参序进行比较，得到相对定量，如下图所示：

A. RNA建库，将去除核糖体RNA后的mRNA片断，加入1%的人工外参序列。

B. 基因定量，把所有的基因与外参序列进行比较，得到基因的相对定量，找到差异基因。

案例展示：

我们采用经典方法（Classical）和外参纠正（Spike-In）两种方法，来对不同的案例进行分析和比对。

Classcial：

a. 使用hisat2+stringtie，计算样品的FPKM，来统计样品间的相关性。

b. 使用hisat2+featurecounts+DESeq2来找差异基因。

Spike-In：

a. 根据Spike-In的表达，对样品进行定量，统计样品间的相关性。

b. 使用方差分析（ANOVA)来找差异基因。

1.糖尿病小鼠

为了研究糖尿病的基因表达模式，我们筛选了4只糖尿病小鼠和4只健康小鼠，提取了肝脏的RNA进行建库测序，从以下方面进行评估：

a. 相关系数，它是用来评价样品之间基因表达的线性相关程度。

通常情况下，大于0.95为显著相关，大于0.8为高度相关，0.5~0.8为中度相关，低于0.5基本没有相关性。理论上，组内的样品相关性高于组间样品的相关性，从而聚在一起。

从结果上来看，使用Spike-In方法后，无论是组内还是组间，样品间的相关性都比Classical方法明显提高。

b. qPCR结果验证

为了验证这两种方法的准确度，我们挑选了经过qPCR验证的基因，结果如下：

从结果上来看，Classical方法只有40%的准确度，而我们的Spike-In方法，只有一个基因与qPCR结果不一致。

2.林木RNA

我们专门开发了针对林木的Spike-In外参，来提升定量的准确度。下图是用经典方法定量的相关性，从图中可以看到很多样品间的相关性小于0.4，并且很多组内的相关性低于0.9。

我们将同样的样品，加入Spike-In后进行测序和分析，如下图所示，没有样品的相关性低于0.7，组内样品相关性大于0.9。

更多内容可以联系作者

邮箱：hzkt@qq.com

---------- END ----------

（添加作者微信，请注明单位姓名）

您可能还会感兴趣的

基因学苑2018年文章目录
生物信息零基础班（上海站）开课啦
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程，如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X
2019，送给大家一份新年礼物
生物学才是终极学科

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

这才是基因的正确定量方式

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

这才是基因的正确定量方式

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡