查看原文
其他

一个生信素人的上道经验分享-转录组测序(基因定量篇)

夕夕 i生信 2021-02-21

上篇文章小编为大家简单介绍了转录组分析的第二步——组装,转录本组装主要是为了接下来的转录本定量和新转录本鉴定等分析,下面小编来介绍下转录组分析的第三步——基因定量吧~

我们在进行生物学研究的时候,经常会采用不同的方法对实验材料进行处理,处理后实验材料会表现出不同的表型,例如植物叶片枯萎或患病等,这些表型的不同是由于基因表达水平的不同所导致的,而衡量基因表达水平的变化就需要做基因定量。

一般来说,对基因进行定量,首先需要计算比对到各个基因的read counts,因为在进行下游差异分析时,需要使用read Counts作为输入文件。衡量基因表达水平的指标主要有RPKM,FPKM和TPM。由于每个基因的长度和测序深度不同,因此在计算上述三种指标时需要对基因或转录本的read counts进行标准化。本文,主要介绍read counts和FPKM值的获取方法


一、 read counts计算方法

1. 软件介绍

featrueCounts已经整合到Subread软件中,可用于对基因、外显子、启动子等基因组特征进行read counts计数。主要用于对RNA-seq和DNA-seq的reads进行计数。featureCounts可在SourceForge Subread package或Bioconductor Rsubread package中获得(http://subread.sourceforge.net/) 。


2. 软件安装

下载:

使用下方链接下载feature源代码。

https://sourceforge.net/projects/subread/files/subread-2.0.1/

解压: 


feature软件无需安装,下载解压就可以直接使用。

使用: 

 

3. 软件使用

featureCounts软件使用与参考基因组比对后的bam文件计算比对到各个基因的read counts数。 

注:可使用featureCounts -h 查看featureCounts软件的其他参数。


4. 运行结果

featureCounts运行完成后主要生产2个文件:*.txt和*.txt.summary。

*.txt.summary是对reads的统计结果,文件内容如下: 


从结果中可以看出该实验有9842671条reads 定量到了基因上。

*.txt记录了比对到各个基因的read count数,文件内容如下:


结果文件共分为7列,分别为:

Geneid:基因ID;

Chr:基因的各个外显子所在的染色体号;

Start:基因的各个外显子起始位置;

End:基因的各个外显子终止位置;

Strand:基因各个外显子所在正负链信息;

Length:长度;

*.sort.bam:比对到该基因的read counts数;


二、 FPKM计算方法

在转录组分析中,一般使用FPKM来衡量基因表达量。FPKM全称为Fragments per Kilobase Million,是指每百万的reads比对到外显子的每千碱基的fragments数。其公式为: 


计算FPKM的方法有很多,我们可以根据featureCounts软件的结果文件和FPKM公式进行计算,也可以使用现有软件进行计算。下面主要介绍使用Cufflinks软件计算FPKM的方法。


1. 软件介绍

Cufflinks主要用于转录本测序分析中的组装,定量和差异分析。其软件的输入文件可以是比对后的文件和组装后的文件。Cufflinks主要有几大分支程序,主要有Cufflinks,Cuffmerge,Cuffquant,Cuffdiff和Cuffnorm来执行转录组分析的不同步骤。其中,主要使用Cuffquant和Cuffnorm来计算FPKM(https://github.com/cole-trapnell-lab/cufflinks)。


2. 软件安装

下载:

使用下方链接下载Cufflinks源代码。

http://cole-trapnell-lab.github.io/cufflinks/install/


由于压缩包是二进制文件,下载后无需安装,可直接使用。解压后文件夹内包括Cufflinks软件的所有程序分支程序,本文主要介绍cuffqunat和cuffnorm。

cuffquant使用: 

 

cuffnorm使用:

 

3. 软件使用

首先使用cuffquant对单个样本的bam文件的基因表达水平进行定量。

注:可使用cuffquant 查看cuffquant软件的其他参数。


生成的结果文件为abundances.cxb。

接着使用cuffnorm以abundances.cxb文件作为输入文件对基因和转录本的表达水平进行标准化。 


cuffnorm的结果文件主要包括该实验中基因、转录本和CDS标准化后的表达水平,文件列表如下:


其中genes.fpkm_table为各个基因的FPKM值:


经验总结:

安装cufflinks软件时,需要提前安装samtools软件和Boost C++库。软件所需的参考基因组注释文件可在下载参考基因组时进行下载,若下载的注释文件为gff3格式,建议转换为gtf文件。至此,转录本分析的第三步——基因定量的操作过程就介绍完了,希望对各位小伙伴有所帮助,我们下一期再见吧~


注:此推文未经许可禁止转载!

阅读推荐:




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存