全长转录本的鉴定

Original 生信阿拉丁生信阿拉丁 2022-05-16

收录于合集 #三代专辑 15个

点击上方蓝字关注我们！

全长转录本的鉴定

全长转录组测序（Isoform-sequencing，Iso-seq）基于PacBio单分子实时测序技术（SMRT cell）,凭借超长读长的优势，建库过程中无需打断RNA分子，直接对反转录的全长cDNA测序，得到从5’末端到3’PolyA尾的高质量全长转录本序列，且目前其CCS模式可以达到超高的准确率，可用来进行转录本鉴定、融合基因、可变剪切、精确地分析转录本的结构等分析。

全长转录组的文库结构

通过调取polyA尾的全长转录本序列，经反转录成cDNA之后，经过一定规模的扩增，然后进行cDNA损伤修复、末端修复、接头连接、外切酶处理等过程构建Iso-seq RNA文库，其文库构建过程如图一所示。

图一：Iso-seq文库构建过程

构建后的哑铃型文库包含测序接头、引物、barcode以及插入片段，如图二所示：

图二：Iso-seq文库结构

测序模式

PacBio根据其文库片段长度分为两种模式测序：

其一为CLR模式，对于较长的插入片段，DNA聚合酶的活性不足以支撑合成完全部插入片段，或者仅能合成完一圈多，得到的polymerase reads去除测序接头即为最长subreads；
第二种是CCS模式，对于较短的插入片段，DNA聚合酶的活性可以支撑合成多圈插入片段，此时去除完接头后即为完整的全长的插入片段，同一ZMW孔可产出多个subreads，对subreads进行相互的校验可以得到一致性序列，即CCS（Circular Consensus Sequencing）序列，其10X的准确率可达99.9%，30X可达99.999%。

转录本鉴定

完整的插入片段序列（Reads of Insert，ROI）一般具有以下特征：包含5’primer、3’primer，且3’primer前存在polyA序列，即Iso-seq文库结构图所示。

因此，理论上我们需要鉴定有这些特征的CCS即可，但实际上，建库过程中会产生嵌合体等非我们需要的序列，需要去过滤掉，整体的转录本鉴定流程可参考图三所示。具体鉴定过程以及实践如下步骤所示。

图三：转录本鉴定流程图

Step1.Consensus generation

SMRT cell测序下机后经 smrtlink server初级处理，会将polymerase reads去除接头低质量序列等，转为subreads序列。

具体的用于后续分析的文件为：

movie.subreads.bam

movie.subreads.bam.pbi

movie.subreadset.xml

通过smrttools的ccs工具将subreads.bam转为ccs.bam，具体命令如下：

1~/software/smrttools/smrtcmds/bin/ccs movieX.subreads.bam movieX.ccs.bam --min-rq 0.9

       # 还可指定--min-passes以及线程数--num-threads

此过程比较耗费资源与时间，如果资源充足，想快速完成ccs的转换，可以对bam文件进行切割，分开转ccs，最后再合并。以下提供了两种并行转ccs的方式，供参考。

 1## step1. 拆分subreads.bam文件
 2~/software/smrttools/smrtcmds/bin/bamsieve movie.subreads.bam --show-zmws > ZMWs.xls
 3split ZMWs.xls -l 200000 -d -a 4 data_
 4for i in `ls data_*`;do echo ~/software/smrttools/smrtcmds/bin/bamsieve m64118_200224_124115.subreads.bam $i.bam --whitelist $i;done >split.sh
 5less split.sh|while read dd;do qsub -cwd -l vf=60G,p=10 -q jisuan.q $dd;done
 6## step2. 并行转ccs
 7for i in `ls data_*`;do echo ~/smrttools/smrtcmds/bin/ccs $i.bam ccs_$i.bam --min-rq 0.9 --min-passes 1 --num-threads 30;done >ccs.sh
 8less ccs.sh|while read dd;do qsub -cwd -l vf=20G,p=30 -q jisuan.q $dd;done
 9## step3. 合并ccs.bam,可使用samtools或pbmerge
10samtools merge movieX.ccs.bam ccs_data_00*.bam
11pbmerge -o movieX.ccs.bam ccs_data_00*.bam

1## step1. 并行转ccs
2ccs movieX.subreads.bam movie.ccs.1.bam --chunk 1/10 -j 30
3ccs movieX.subreads.bam movie.ccs.2.bam --chunk 2/10 -j 30
4...
5ccs movieX.subreads.bam movie.ccs.10.bam --chunk 10/10 -j 30
6## step2. merge
7samtools merge movieX.ccs.bam movieX.ccs.*.bam
8pbmerge -o movieX.ccs.bam movieX.ccs.*.bam

Step2. Primer Removal

获得CCS序列之后，首先需要去掉文库构建过程中的5’和3’测序引物，如果带有barcode，同时也需要去除barcode序列，具体操作可按如下方式：

1~/smrttools/smrtcmds/bin/lima movieX.ccs.bam barcoded_primers.fasta movieX.fl.bam --isoseq --peek-guess

其中primer及barcode的格式如下，标签名称必须以“5p”,“3p“结尾，如果有多个3p barcode序列（即包含多个样本），则会同时按照此barcode序列进行拆分，拆分以及去除完引物之后会得到各自样本的bam文件。

文件名称包含引物序列标签：

movieX.fl.primer_5p--test1_3p.bam

movieX.fl.primer_5p--test2_3p.bam

1>primer_5p
2AAGCAGTGGTATCAACGCAGAGTACATGGGG
3>test1_3p
4CGCACTCTGATATGTGGTACTCTGCGTTGATACCACTGCTT
5>test2_3p
6CTCACAGTCTGTGTGTGTACTCTGCGTTGATACCACTGCTT

Step3. Isoseq3 refine

转录组文库在构建过程中可能会产生嵌合体，即同一个ZMW中两个转录本嵌合到一起。

这种嵌合体的出现主要由以下两种情况产生：

其一是文库制备阶段，adapter序列错误地将两条转录本的序列连接构成了一个环状分子，这种情况一般和adapter浓度有关。

其二是在逆转录PCR反应中，因不完全延伸的产物作为了下次扩增反应的引物，从而出现嵌合体。

鉴于此，这一步需要做的就是对拆分完且去除完引物的CCS序列，进一步过滤，去除嵌合体序列。

1~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 refine movieX.fl.primer_5p--test1_3p.bam movieX.flnc.bam --require-polya --num-threads 20

Step4. Isoseq3 cluster & Polish

由于一个ZMW孔会产生一个转录本序列，即一个CCS，所以不同的CCS可能会是相同的转录本序列，即存在冗余的情况，因此需要再通过聚类（cluster）的方式，对全长转录本序列进行聚类，得到一致性的转录本序列。

Polish纠错是为了进一步提升转录本中碱基的质量，但是这一过程也是非常耗时，目前smrtlink v8版本及以上可以不必进行Polish，即可获得准确度大于0.99的高质量转录本（high-quality isoforms，HQ），和低质量转录本（low-quality isoforms，LQ）。

1~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 cluster movieX.flnc.bam clustered.bam --verbose --num-threads 20 --use-qvs
2~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 polish clustered.bam subreads.bam polished.bam # 非必须

以上步骤即可得到高质量的转录本序列，其输出结果有如下一些文件。

后续可用polished.hq.fasta.gz进行比对分析等。

 1polished.bam
 2polished.bam.pbi
 3polished.cluster
 4polished.cluster_report.csv
 5polished.hq.bam
 6polished.hq.bam.pbi
 7polished.hq.fasta.gz
 8polished.lq.bam
 9polished.lq.bam.pbi
10polished.lq.fasta.gz
11polished.transcriptset.xml