查看原文
其他

全长转录本的鉴定

生信阿拉丁 生信阿拉丁 2022-05-16

点击上方蓝字关注我们!

全长转录本的鉴定


全长转录组测序(Isoform-sequencing,Iso-seq)基于PacBio单分子实时测序技术(SMRT cell),凭借超长读长的优势,建库过程中无需打断RNA分子,直接对反转录的全长cDNA测序,得到从5’末端到3’PolyA尾的高质量全长转录本序列,且目前其CCS模式可以达到超高的准确率,可用来进行转录本鉴定、融合基因、可变剪切、精确地分析转录本的结构等分析。





全长转录组的文库结构

通过调取polyA尾的全长转录本序列,经反转录成cDNA之后,经过一定规模的扩增,然后进行cDNA损伤修复、末端修复、接头连接、外切酶处理等过程构建Iso-seq RNA文库,其文库构建过程如图一所示。

图一:Iso-seq文库构建过程

构建后的哑铃型文库包含测序接头、引物、barcode以及插入片段,如图二所示:


图二:Iso-seq文库结构


测序模式

PacBio根据其文库片段长度分为两种模式测序:

  • 其一为CLR模式,对于较长的插入片段,DNA聚合酶的活性不足以支撑合成完全部插入片段,或者仅能合成完一圈多,得到的polymerase reads去除测序接头即为最长subreads;

  • 第二种是CCS模式,对于较短的插入片段,DNA聚合酶的活性可以支撑合成多圈插入片段,此时去除完接头后即为完整的全长的插入片段,同一ZMW孔可产出多个subreads,对subreads进行相互的校验可以得到一致性序列,即CCS(Circular Consensus Sequencing)序列,其10X的准确率可达99.9%,30X可达99.999%。


转录本鉴定

完整的插入片段序列(Reads of Insert,ROI)一般具有以下特征:包含5’primer、3’primer,且3’primer前存在polyA序列,即Iso-seq文库结构图所示。

因此,理论上我们需要鉴定有这些特征的CCS即可,但实际上,建库过程中会产生嵌合体等非我们需要的序列,需要去过滤掉,整体的转录本鉴定流程可参考图三所示。具体鉴定过程以及实践如下步骤所示。


图三:转录本鉴定流程图



Step1.Consensus generation


SMRT cell测序下机后经 smrtlink server初级处理,会将polymerase reads去除接头低质量序列等,转为subreads序列。


具体的用于后续分析的文件为:
movie.subreads.bam
movie.subreads.bam.pbi
movie.subreadset.xml

通过smrttools的ccs工具将subreads.bam转为ccs.bam,具体命令如下:

1~/software/smrttools/smrtcmds/bin/ccs movieX.subreads.bam movieX.ccs.bam --min-rq 0.9  # 还可指定--min-passes以及线程数--num-threads

此过程比较耗费资源与时间,如果资源充足,想快速完成ccs的转换,可以对bam文件进行切割,分开转ccs,最后再合并。以下提供了两种并行转ccs的方式,供参考。

1## step1. 拆分subreads.bam文件
2~/software/smrttools/smrtcmds/bin/bamsieve movie.subreads.bam --show-zmws > ZMWs.xls
3split ZMWs.xls -l 200000 -d -a 4 data_
4for i in `ls data_*`;do echo ~/software/smrttools/smrtcmds/bin/bamsieve m64118_200224_124115.subreads.bam $i.bam --whitelist $i;done >split.sh
5less split.sh|while read dd;do qsub -cwd -l vf=60G,p=10 -q jisuan.q $dd;done
6## step2. 并行转ccs
7for i in `ls data_*`;do echo ~/smrttools/smrtcmds/bin/ccs $i.bam ccs_$i.bam --min-rq 0.9 --min-passes 1 --num-threads 30;done >ccs.sh
8less ccs.sh|while read dd;do qsub -cwd -l vf=20G,p=30 -q jisuan.q $dd;done
9## step3. 合并ccs.bam,可使用samtools或pbmerge
10samtools merge movieX.ccs.bam ccs_data_00*.bam
11pbmerge -o movieX.ccs.bam ccs_data_00*.bam

1## step1. 并行转ccs
2ccs movieX.subreads.bam movie.ccs.1.bam --chunk 1/10 -j 30
3ccs movieX.subreads.bam movie.ccs.2.bam --chunk 2/10 -j 30
4...
5ccs movieX.subreads.bam movie.ccs.10.bam --chunk 10/10 -j 30
6## step2. merge
7samtools merge movieX.ccs.bam movieX.ccs.*.bam
8pbmerge -o movieX.ccs.bam movieX.ccs.*.bam

Step2. Primer Removal

获得CCS序列之后,首先需要去掉文库构建过程中的5’和3’测序引物,如果带有barcode,同时也需要去除barcode序列,具体操作可按如下方式:


1~/smrttools/smrtcmds/bin/lima movieX.ccs.bam barcoded_primers.fasta movieX.fl.bam --isoseq --peek-guess

其中primer及barcode的格式如下,标签名称必须以“5p”,“3p“结尾,如果有多个3p barcode序列(即包含多个样本),则会同时按照此barcode序列进行拆分,拆分以及去除完引物之后会得到各自样本的bam文件。

文件名称包含引物序列标签:
movieX.fl.primer_5p--test1_3p.bam
movieX.fl.primer_5p--test2_3p.bam


1>primer_5p
2AAGCAGTGGTATCAACGCAGAGTACATGGGG
3>test1_3p
4CGCACTCTGATATGTGGTACTCTGCGTTGATACCACTGCTT
5>test2_3p
6CTCACAGTCTGTGTGTGTACTCTGCGTTGATACCACTGCTT

Step3. Isoseq3 refine

转录组文库在构建过程中可能会产生嵌合体,即同一个ZMW中两个转录本嵌合到一起。

这种嵌合体的出现主要由以下两种情况产生:


其一是文库制备阶段,adapter序列错误地将两条转录本的序列连接构成了一个环状分子,这种情况一般和adapter浓度有关。


其二是在逆转录PCR反应中,因不完全延伸的产物作为了下次扩增反应的引物,从而出现嵌合体。

鉴于此,这一步需要做的就是对拆分完且去除完引物的CCS序列,进一步过滤,去除嵌合体序列。

1~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 refine movieX.fl.primer_5p--test1_3p.bam movieX.flnc.bam --require-polya --num-threads 20

Step4. Isoseq3 cluster & Polish

由于一个ZMW孔会产生一个转录本序列,即一个CCS,所以不同的CCS可能会是相同的转录本序列,即存在冗余的情况,因此需要再通过聚类(cluster)的方式,对全长转录本序列进行聚类,得到一致性的转录本序列。

Polish纠错是为了进一步提升转录本中碱基的质量,但是这一过程也是非常耗时,目前smrtlink v8版本及以上可以不必进行Polish,即可获得准确度大于0.99的高质量转录本(high-quality isoforms,HQ),和低质量转录本(low-quality isoforms,LQ)。

1~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 cluster movieX.flnc.bam clustered.bam --verbose --num-threads 20 --use-qvs
2~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 polish clustered.bam subreads.bam polished.bam # 非必须

以上步骤即可得到高质量的转录本序列,其输出结果有如下一些文件。

后续可用polished.hq.fasta.gz进行比对分析等。

1polished.bam
2polished.bam.pbi
3polished.cluster
4polished.cluster_report.csv
5polished.hq.bam
6polished.hq.bam.pbi
7polished.hq.fasta.gz
8polished.lq.bam
9polished.lq.bam.pbi
10polished.lq.fasta.gz
11polished.transcriptset.xml

总结

全长转录本的鉴定是Iso-seq分析最重要的一步,鉴定出的转录本的质量也决定了后续分析的质量,高质量的转录本可以对转录本的结构进行精确的分析,当然也取决于后续的比对。

随着三代测序技术的发展,目前其准确度也已经可以KO普通的转录组分析了,如果你还不了解三代转录组的分析内容可以关注我们,希望可以让你学到更多。

参考资料

https://github.com/PacificBiosciences/IsoSeq

https://www.cnblogs.com/xudongliang/p/7473463.html


作者:Arno

审稿:童蒙

编辑:angelica


关注公众号,第一时间查收“新款”生信学习干货。

往期回顾 
DNA-RNA互作检测技术
ORF的前世今生

植物泛基因组的染色体重排的量化研究

利用三代测序来研究宏基因组的初认知

利用三代测序来研究宏基因组的初认知

EmEditor--为生物学文件量身打造的windows文本编辑器

如何在遗传病SV中“万里挑一”

学10X,你不得懂点FCM?

认识膀胱细胞——单细胞水平比较Human和Mouse的不同

三代变异检测操作说明-DeepVariant

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存