这才是基因的正确定量方式
什么是基因表达谱
基因的表达谱,就是各基因在特定时期的表达水平。那么怎么定义基因的表达水平呢?
在回答这个问题之前,我先问1个初中的物理问题:怎么定义一个物体的重量呢?性感男神如花跟我比,哪个更重?
为了解决这个问题,国际上制定了1千克的标准品,然后又以这个标准品的重量为基准,制造了很多重量与标准品相同的砝码,送给了不同的国家机构,然后这些机构,就以标准品为基础,制造了2千克,5千克,100千克等砝码,用来测量物体的重量。假如如目前的测量的体重是90千克,我本人测量的体重是65千克的话,那么如花就比我重25千克。
那么回到刚才的问题,我们怎么定义基因的表达水平呢?那么我们也要找一个标准基因,用来衡量其他基因的表达。我们管这个标准基因叫内参基因(通常是表达稳定的基因),在我们的实验室里,大家用一种叫qPCR的方法,将基因和内参基因做比较,得到的差异倍数,作为这个基因的表达水平。示意图如下:
qPCR定量
qPCR定量
高通量测序
因为上述的qPCR实验方法太费人力,所以现在很多实验室采用测序的方法来测量基因的表达。但是测序方法跟我们的qPCR方法不一样,怎么定义基因的表达,目前国际上还一直争论不休,一直提出新的统计方法(RPKM,FPKM, TPM,CPM等),让人眼花撩乱,但是这些基因表达的统计方法,是基于一个这样的概念:基因的表达在整体表达中占的比重,示意图如下:
高通量方法定量
高通量方法定量
尴尬的困境
我们做基因表达谱,是想要知道在不同的实验环境下,哪些基因的表达产生了变化。但是当我们拿到测序结果后,用不同的软件和统计模型,总会发现它们找到差异基因差别还是挺大的,跟我们的qPCR实验吻合度也不高,只有30%-50%(要真知道,qPCR实验目前是验证基因表达的金标准)。
为什么高通量测序和传统的qPCR定量,这两种方法的结果差别会这么大呢?因为有些的基因,在不同的实验条件下,表达水平相差特别大,大到能影响整体。就好比我们城市的平均工资因为某些巨富的影响而被拉高了,相对而言我们的相对收就降低了。以下我们举个极端的例子,就能一目了然的知道问题所在了:
高通量方法
qPCR方法
走出困境
即然内参不靠谱,能不能加入表达稳定的外参序列作为标准基因?如果你想到这方面,说明你跟我一样,开始步入U秀的行列了,目前国际上还真的有这种标准品,叫ERCC Spike-In,它目前是被用到表达谱芯片上,用来校正基因的表达。
在高通量测序上,目前是被用来评价实验的一致性。那么为什么很少听到有人用它来校正基因的表达呢?主要是因为要用它来作为内参,它就必须是非常精确的标准品,每mL的水里,要有多少个外参序列,都是非常研格限制的,所以这个标准品很贵。另外就是在做实验的时候,要同时严格地控制RNA量和标准品量的比例,对实验人员要求非常高。作为一名放荡不羁爱自由的科学工作者,得想办法克服这些问题,没有条件,就要创造条件。在这个过程中,我也深深体会到中国科研人员无奈和公司的机智。
首先要解决标准品昂贵的问题,它除了实验技术要求高之外,最大的问题是很多公司不愿意投入研发,因为现在高通量转录组基本没有利润,如果客户分析结果不好,还可以让客户再测一次,多收一份钱,虽然很大可能结果还是一样不好。可能是本人的运气比较好吧,杭州的一家试剂公司,叫开泰生物,老板也是做过生物实验的,投入了不少人力,帮我们设计并合成了标准品。
然后就要解决实验操作问题,因为不同批次的样品,不可能每次加内参的比例都一样,存在人为误差,即然实验解决不了,我们就从算法上解决,我们可以通过样品基因表达的整体差异倍数,来纠正标准品的误差,从而做到精准定量。在这里,非常感谢在美国的宋教授和他的团队,帮我们开发了一个叫RNADX的软件(过段时间我们会把它放到github上)。
好了,以下是实验原理,还有我们的结果展示,让大家见识一下这种方法的威力~
原理介绍
A. RNA建库,将去除核糖体RNA后的mRNA片断,加入1%的人工外参序列。
B. 基因定量,把所有的基因与外参序列进行比较,得到基因的相对定量,找到差异基因。
案例展示:
我们采用经典方法(Classical)和外参纠正(Spike-In)两种方法,来对不同的案例进行分析和比对。
Classcial:
a. 使用hisat2+stringtie,计算样品的FPKM,来统计样品间的相关性。
b. 使用hisat2+featurecounts+DESeq2来找差异基因。
Spike-In:
a. 根据Spike-In的表达,对样品进行定量,统计样品间的相关性。
b. 使用方差分析(ANOVA)来找差异基因。
1.糖尿病小鼠
为了研究糖尿病的基因表达模式,我们筛选了4只糖尿病小鼠和4只健康小鼠,提取了肝脏的RNA进行建库测序,从以下方面进行评估:
a. 相关系数,它是用来评价样品之间基因表达的线性相关程度。
通常情况下,大于0.95为显著相关,大于0.8为高度相关,0.5~0.8为中度相关,低于0.5基本没有相关性。理论上,组内的样品相关性高于组间样品的相关性,从而聚在一起。
从结果上来看,使用Spike-In方法后,无论是组内还是组间,样品间的相关性都比Classical方法明显提高。
b. qPCR结果验证
为了验证这两种方法的准确度,我们挑选了经过qPCR验证的基因,结果如下:
从结果上来看,Classical方法只有40%的准确度,而我们的Spike-In方法,只有一个基因与qPCR结果不一致。
2.林木RNA
我们专门开发了针对林木的Spike-In外参,来提升定量的准确度。下图是用经典方法定量的相关性,从图中可以看到很多样品间的相关性小于0.4,并且很多组内的相关性低于0.9。
我们将同样的样品,加入Spike-In后进行测序和分析,如下图所示,没有样品的相关性低于0.7,组内样品相关性大于0.9。
更多内容可以联系作者
邮箱:hzkt@qq.com
---------- END ----------
(添加作者微信,请注明单位姓名)
您可能还会感兴趣的
生物信息零基础班(上海站)开课啦
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X
2019,送给大家一份新年礼物
生物学才是终极学科