circRNA-seq:CIRCexplorer2 使用指南(二)
点击上方关注“公众号”
1、环状 RNA 融合连接 Reads 的比对
CIRCexplorer2 支持 TopHat2/TopHat-Fusion 和其他比对软件(STAR, segemehl, BWA 和 MapSplice)。虽然不同的比对软件在环状 RNA 鉴定上略有差异,但 TopHat2/TopHat-Fusion 与 Cufflinks 完全匹配。因此,建议在比对步骤中使用 TopHat2/TopHat-Fusion,特别是对于环状 RNA denovo pipeline。
1TopHat2/TopHat-Fusion
由于 TopHat2 需要基因注释文件进行更好的比对,你可以从 hg19_ref.gtf、hg19_kg.gtf 和 hg19_ens.gtf 中选择一个 GTF 文件。另外,TopHat2 需要 bowtie2 的基因组索引文件,TopHat-Fusion 需要 bowtie1 的索引,所以你可以提前索引基因组序列或者让 CIRCexplorer2 比对从头开始:
1、从索引文件开始:
$ CIRCexplorer2 align -G hg19_kg.gtf -i bowtie1_index -j bowtie2_index -f RNA_seq.fastq > CIRCexplorer2_align.log
2、CIRCexplorer2 自动建索引,从基因组序列开始:
$ CIRCexplorer2 align -G hg19_kg.gtf -g hg19.fa -f RNA_seq.fastq > CIRCexplorer2_align.log
注意:
1、由于 Cufflinks 与 TopHat2/TopHat-Fusion 兼容,因此建议使用 TopHat2/TopHat-Fusion 进行比对。 2、CIRCexplorer2 align 将创建一个目录 alignment
,以及后续分析所需的 BED 文件fusion_junction.bed
。还可以查看 tophat.log 和 tophat_fusion.log 文件以获取 Tophat2 和 TopHat-Fusion 对齐的详细日志。3、TopHat 只支持 Python2,所以不建议运行 Python3 版本的 CIRCexplorer2。
2手动比对
TopHat2/TopHat-Fusion:
## 比对获取 unmapped.bam 转fastq
$ tophat2 -a 6 --microexon-search -m 2 -p 10 -G knownGene.gtf -o tophat hg19_bowtie2_index RNA_seq.fastq
## unmapped.bam 转fastq
$ bamToFastq -i tophat/unmapped.bam -fq tophat/unmapped.fastq
## 再次比对
$ tophat2 -o tophat_fusion -p 15 --fusion-search --keep-fasta-order --bowtie1 --no-coverage-search hg19_bowtie1_index tophat/unmapped.fastq
STAR:
$ STAR --chimSegmentMin 10 --runThreadN 10 --genomeDir hg19_STAR_index --readFilesIn RNA_seq.fastq
MapSplice:
$ mapsplice.py -p 10 -k 1 --non-canonical --fusion-non-canonical --min-fusion-distance 200 -c hg19_dir -x bowtie1_index --gene-gtf hg19_kg.gtf -1 RNA_seq.fastq
BWA:
$ bwa mem -T 19 -t 10 hg19_bwa_index RNA_seq.fastq > RNA_seq_bwa.sam
segemehl:
$ segemehl.x -q RNA_seq.fastq -d hg19.fa -i hg19_segemehl.idx -S -M 1 -t 10 -o RNA_seq.sam
$ testrealign.x -d hg19.fa -q RNA_seq.sam -n
注意:
你可以通过其他比对软件来比对来自 TopHat2 比对 (circ_out/tophat/unmapped.fastq) 结果的未必对的 reads。
对于双端测序:
STAR:
$ STAR --chimSegmentMin 10 --runThreadN 10 --genomeDir hg19_STAR_index --readFilesIn read_1.fastq read_2.fastq
TopHat-Fusion:
$ tophat2 -o tophat_fusion -p 15 --fusion-search --keep-fasta-order --bowtie1 --no-coverage-search hg19_bowtie1_index read_1.fastq read_2.fastq
2、环状 RNA 融合 Reads 的解析
CIRCexplorer2 可以单独解析比对结果,这样就可以支持很多 aligner,支持双端数据。
如果已使用 CIRCexplorer2 align
比对,则可以跳过此步骤。
对于不同的比对软件:
## 1、TopHat2/TopHat-Fusion
$ CIRCexplorer2 parse -t TopHat-Fusion tophat_fusion/accepted_hits.bam > CIRCexplorer2_parse.log
## 2、STAR
$ CIRCexplorer2 parse -t STAR Chimeric.out.junction > CIRCexplorer2_parse.log
## 3、MapSplice
$ CIRCexplorer2 parse -t MapSplice mapsplice_out/fusions_raw.txt > CIRCexplorer2_parse.log
## 4、BWA
$ CIRCexplorer2 parse -t BWA RNA_seq_bwa.sam > CIRCexplorer2_parse.log
## 4、segemehl
$ CIRCexplorer2 parse -t segemehl splicesites.bed > CIRCexplorer2_parse.log
注意:
CIRCexplorer2 parse
会默认创建一个文件 back_splied_junction.bed
供后续分析使用。
对于双端测序:
## 1、STAR
$ CIRCexplorer2 parse -t STAR Chimeric.out.junction > CIRCexplorer2_parse.log
## 2、TopHat-Fusion
$ CIRCexplorer2 parse --pe -t TopHat-Fusion tophat_fusion/accepted_hits.bam > CIRCexplorer2_parse.log
3、环状 RNA 的注释
这一步是对 CIRCexplorer 的克隆和整合,使 CIRCexplorer2 继承 CIRCexplorer 的所有功能。
命令:
$ CIRCexplorer2 annotate -r hg19_ref_all.txt -g hg19.fa -b back_spliced_junction.bed -o circularRNA_known.txt > CIRCexplorer2_annotate.log
注意:
1、它将比较
back_spliced_junction.bed
和基因注释文件(hg19_ref_all.txt)来确定环状 RNA 的边界,并进行重新排列以修复一些错误排列。2、
CIRCexplorer2 annotate
将创建一个包含 circRNA 信息的输出文件circleRNA_known.txt
。
4、环状 RNA 转录本的从头组装
CIRCexplorer2 使用 Cufflinks 对环状 RNA 转录本进行从头组装,并根据组装结果表征可变剪接。因此,这是分析环状 RNA 的选择性反向剪接和选择性剪接的之前的关键步骤。
命令:
$ CIRCexplorer2 assemble -r hg19_ref_all.txt -m tophat -o assemble > CIRCexplorer2_assemble.log
注意:
1、它将使用 Cufflinks 将环状 RNA 转录本与 poly(A)-/ribo- RNA-seq 的比对结果(tophat)组装在一起。
2、CIRCexplorer2 assemble 会默认创建一个目录 assemble。所有环状 RNA 转录本的组装信息都将在 assemble 目录下创建。还可以查看 cufflinks.log 文件以获取 cufflinks 组装的详细日志。
5、环状 RNA 选择性剪接的鉴定
CIRCexplorer2 将系统地鉴定 两种 类型的 反向可变剪接事件 (5' 反向剪接位点
和3' 反向剪接位点
)和 四种 类型的可变剪接事件(盒式外显子
、内含子保留
、5' 可变剪接位点
和3' 可变剪接位点
)。
命令:
$ CIRCexplorer2 denovo -r hg19_ref_all.txt -g hg19.fa -b back_spliced_junction.bed --abs abs --as as -m tophat -n pAplus_tophat -o denovo > CIRCexplorer2_denovo.log
注意:
1、它需要来自相应 poly(A)−/ribo− RNA-seq 的相同来源的 poly(A)+ RNA-seq 的比对结果(设置为 -n)(设置为 -m),以便提取环状 RNA 在将 poly(A)-/ribo- RNA-seq 与 poly(A)+ RNA-seq 进行比较后,占主导地位的替代(反)剪接事件。
2、
CIRCexplorer2 denovo
默认会创建三个目录 denovo,as 和 abs。所有环状 RNA 的可变(反向)剪接信息都将在这些目录下创建。每个可变(反向)拼接事件都有一系列的衡量标准,你可以根据自己的要求筛选相关事件。
6、一句命令运行 CIRCexplorer2
CIRCexplorer2 包含 5 个模块,可为多个环状 RNA 分析任务提供灵活性。但是,它会混淆许多对 CIRCexplorer2 不太熟悉的人,并阻止人们很好地使用它。于是,我们编写了 fast_circ.py
脚本来集成不同的模块组合来完成不同的任务。
用法:
$ fast_circ.py parse -r REF -g GENOME -t ALIGNER [--pe] [-o OUT] <fusion>
$ fast_circ.py annotate -r REF -g GENOME -G GTF [-p THREAD] [-o OUT] -f FQ
$ fast_circ.py denovo -r REF -g GENOME -G GTF [-n PLUS_OUT] [-p THREAD] [-o OUT] -f FQ
参数说明:
-h
--help Show help message. # 帮助文档-r
REF --ref=REF Gene annotation. # 注释文件-g
GENOME --genome=GENOME Genome FASTA file. # 基因组文件-G
GTF --gtf=GTF Annotation GTF file. # GTF 文件-t
ALIGNER Aligner (TopHat-Fusion, STAR, MapSplice, BWA, segemehl). # 比对软件--pe
Parse paired-end alignment file (only for TopHat-Fusion). # 指定为双端测序数据-f
FQ --fastq=FQ Input file. # 输入 fastq 文件-n
PLUS_OUT --pAplus=PLUS_OUT TopHat mapping directory for p(A)+ RNA-seq. # p(A)+ RNA-seq 结果文件目录-p
THREAD --thread=THREAD Running threads. [default: 10] # 线程数-o
OUT --output=OUT Output directory. [default: .] # 输出目录
怎么使用?
Annotating pipeline:
如果你使用列出的比对软件之一(TopHat2/TopHat-Fusion、STAR、segemehl 和 MapSplice)比对 RNA-seq reads,你应该使用
fast_circ.py parse
与基因注释文件(通过-r
) 和参考基因组序列文件(通过-g
)。同时,还应该指出它的比对软件(通过-t
)以及读取是否为双端(通过--pe
)。如果你只有 原始 RNA-seq reads ,则可以使用
fast_circ.py annotate
将 RNA-seq reads 与 TopHat2/TopHat-Fusion 比对。你应该提供基因注释文件(通过-r
)、基因注释 GTF 文件(通过-G
)、参考基因组序列文件(通过-g
)和原始读取 fastq 文件(通过-f
)。
Characterization pipeline:
fast_circ.py denovo
将原始 RNA-seq reads 与 TopHat2/TopHat-Fusion 比对,并从头组装环状 RNA 转录本,最后提取可变(反向)剪接事件。一些选项与 fast_circ.py 注释相同。如果提供 p(A)+ RNA-seq(通过
-n
)的 TopHat 比对目录,fast_circ.py denovo 将获取所有可变剪接事件。否则,它只获取可变的反向剪接事件。
E N D
欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群
哦.
群二维码:
老俊俊微信:
知识星球:
所以今天你学习了吗?
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,赏杯快乐水喝喝吧!
往期回顾
◀circRNA-seq:CIRCexplorer2 使用指南(一)
◀...