查看原文
其他

​一个生信菜鸟的上道经验分享-转录组测序(转录本组装篇)

夕夕 i生信 2021-02-21
转录组测序技术(RNA-seq)作为目前二代测序领域最普遍的技术手段,自从转录组测序问世以来,已经开发了数百种分析工具。根据转录组分析内容可大致将其分析流程分为比对,转录本组装,差异表达分析和差异基因注释。目前,分析的每一步都有很多软件,其软件的性能和分析效率不尽相同。
上篇文章小编为各位小伙伴介绍了转录组分析的第一步——比对,不知道小伙伴们尝试了没有,接下来小编来介绍转录组分析的第二步——转录本组装吧~
转录本组装主要分为两种情况,对于有参转录组分析来说,转录本组装主要就是将比对到参考基因组的read组装成转录本接着进行下游的新转录本鉴定和转录本定量等分析,常见软件有StringTie和cufflinks。而对于无参转录组分析来说,转录本组装主要是将测序reads从头组装成转录本,常见软件有Trinity,Oases和SOAPdenovo-Trans。
下面,主要是以StringTie软件为主,介绍软件的使用和结果的解读。
 
1. 软件介绍
StringTie是一个快速高效的将比对后的reads组装成转录本的软件。它使用网络流算法及可选的从头组装步骤来组装和量化全长转录本。StringTie的输入文件可以是短序列的比对文件也可以是组装后的文件。StringTie的输出文件可以使用Ballgown,cuffdiff等软件进行差异表达分析。stringtie可以在Linux、Mac OS X和Windos下的命令行上运行(http://ccb.jhu.edu/software/stringtie/)。

2. 软件安装
方法一:
下载:
使用下方链接下载StringTie源代码。
http://ccb.jhu.edu/software/stringtie/dl/stringtie-2.1.4.tar.gz
解压:


安装:


安装成功:


方法二:
使用conda进行搜索:


使用conda进行安装:


安装成功:


使用conda时,conda会自动配置软件所需环境,不需另外下载,因此推荐使用conda进行安装。

3. 软件使用
(1)单个样本的转录本组装
RNA测序分析需要对每个基因表达的所有亚型进行准确的重构,并计算这些亚型的丰度。StringTie软件使用与参考基因组比对后的bam文件组装转录本,首先将reads分组到不同的基因位点,然后将每个位点组装成转录本。

注:可使用stringtie -h查看stringtie软件的其他参数。

一般stringtie软件的输入文件为比对后的bam文件,其bam文件需要是使用samtools软件进行sort后的文件。
组装结果显示如下:


StringTie组装的生成的结果文件为gtf文件,用于记录组装转录本的信息。结果文件共分为9列,分别为:
seqname:该转录本所在的染色体号,contig或scaffold;
source:GTF文件来源;
feature:特征类型,例:外显子,转录本,mRNA和5’UTR;
start:起始位置;
end:终止位置;
score: 组装转录本的可信度打分;
strand:转录本所在的正负链信息;
frame:CDS特征,StringTie不使用该信息,所以其结果用”.”表示;
attributes:该特征的属性,包括基因id,转录本id,外显子个数,read coverage,FPKM和TPM等。

(2)组装转录本合并
在大多数RNA测序的实验设计中都包括多个样本。一个样本中存在的转录本亚型可能与其他样本中存在的转录本亚型不同。因此,需要将它们进行合并以便于进行比较。StringTie提供了merge功能将所有样本的转录本进行合并,可以使由于缺少reads覆盖而在一个样本中缺少外显子的转录本还原成全长,示意图见下图。

图1 此次实验共包括4个样本,其中样本1和样本2的转录本均与参考基因组注释文件一致,对其进行合并和扩展生成转录本A,样本3和样本4的转录本一致但与参考基因组注释文件不一致,对其进行合并生成转录本B。

注:可使用StringTie -h查看merge功能的其他参数。

merge功能的输入文件是一个文本文件,本次实验中命名为merge.list,其内容为该实验中各个样本使用StringTie组装的转录本文件路径,例:


合并结果显示如下:


merge功能生成的结果文件同样为gtf文件,用于记录所有样本转录本merge过后的结果,gtf文件介绍见StringTie组装部分。

4. 经验总结:
参考基因组的注释文件可在下载参考基因组时进行下载,若提供的注释文件为GFF格式可使用gffread软件将其转换成GTF文件。使用StringTie进行merge时,提供的list需是所有样本的gtf文件的绝对路径。至此,转录本分析的第二步——转录本组装的操作过程就介绍完了,本次的内容还是比较简单易操作的,希望小伙伴们真正上手尝试一下,我们下一期再见吧~

5. 参考文献:
Pertea M , Kim D , Pertea G M , et al.Transcript-level expression analysis of RNA-seq experiments with HISAT,StringTie and Ballgown[J]. Nature Protocols, 2016, 11(9):1650.
 
 注:此推文未经许可禁止转载!

阅读推荐:




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存