查看原文
其他

circRNA-seq:CIRCexplorer2 使用指南(二)

JunJunLab 老俊俊的生信笔记 2022-08-15



点击上方关注“公众号”

1、环状 RNA 融合连接 Reads 的比对

CIRCexplorer2 支持 TopHat2/TopHat-Fusion 和其他比对软件(STAR, segemehl, BWAMapSplice)。虽然不同的比对软件在环状 RNA 鉴定上略有差异,但 TopHat2/TopHat-Fusion 与 Cufflinks 完全匹配。因此,建议在比对步骤中使用 TopHat2/TopHat-Fusion,特别是对于环状 RNA denovo pipeline。

1TopHat2/TopHat-Fusion

由于 TopHat2 需要基因注释文件进行更好的比对,你可以从 hg19_ref.gtfhg19_kg.gtfhg19_ens.gtf 中选择一个 GTF 文件。另外,TopHat2 需要 bowtie2 的基因组索引文件,TopHat-Fusion 需要 bowtie1 的索引,所以你可以提前索引基因组序列或者让 CIRCexplorer2 比对从头开始:

  • 1、从索引文件开始:
$ CIRCexplorer2 align -G hg19_kg.gtf -i bowtie1_index -j bowtie2_index -f RNA_seq.fastq > CIRCexplorer2_align.log
  • 2、CIRCexplorer2 自动建索引,从基因组序列开始:
$ CIRCexplorer2 align -G hg19_kg.gtf -g hg19.fa -f RNA_seq.fastq > CIRCexplorer2_align.log

注意:

  • 1、由于 Cufflinks 与 TopHat2/TopHat-Fusion 兼容,因此建议使用 TopHat2/TopHat-Fusion 进行比对。
  • 2、CIRCexplorer2 align 将创建一个目录 alignment,以及后续分析所需的 BED 文件 fusion_junction.bed。还可以查看 tophat.log 和 tophat_fusion.log 文件以获取 Tophat2 和 TopHat-Fusion 对齐的详细日志。
  • 3、TopHat 只支持 Python2,所以不建议运行 Python3 版本的 CIRCexplorer2。

2手动比对

TopHat2/TopHat-Fusion:

## 比对获取 unmapped.bam 转fastq
$ tophat2 -a 6 --microexon-search -m 2 -p 10 -G knownGene.gtf -o tophat hg19_bowtie2_index RNA_seq.fastq

#
# unmapped.bam 转fastq
$ bamToFastq -i tophat/unmapped.bam -fq tophat/unmapped.fastq

#
# 再次比对
$ tophat2 -o tophat_fusion -p 15 --fusion-search --keep-fasta-order --bowtie1 --no-coverage-search hg19_bowtie1_index tophat/unmapped.fastq

STAR:

$ STAR --chimSegmentMin 10 --runThreadN 10 --genomeDir hg19_STAR_index --readFilesIn RNA_seq.fastq

MapSplice:

$ mapsplice.py -p 10 -k 1 --non-canonical --fusion-non-canonical --min-fusion-distance 200 -c hg19_dir -x bowtie1_index --gene-gtf hg19_kg.gtf -1 RNA_seq.fastq

BWA:

$ bwa mem -T 19 -t 10 hg19_bwa_index RNA_seq.fastq > RNA_seq_bwa.sam

segemehl:

$ segemehl.x -q RNA_seq.fastq -d hg19.fa -i hg19_segemehl.idx -S -M 1 -t 10 -o RNA_seq.sam
$ testrealign.x -d hg19.fa -q RNA_seq.sam -n

注意:

你可以通过其他比对软件来比对来自 TopHat2 比对 (circ_out/tophat/unmapped.fastq) 结果的未必对的 reads。

对于双端测序:

STAR:

$ STAR --chimSegmentMin 10 --runThreadN 10 --genomeDir hg19_STAR_index --readFilesIn read_1.fastq read_2.fastq

TopHat-Fusion:

$ tophat2 -o tophat_fusion -p 15 --fusion-search --keep-fasta-order --bowtie1 --no-coverage-search hg19_bowtie1_index read_1.fastq read_2.fastq

2、环状 RNA 融合 Reads 的解析

CIRCexplorer2 可以单独解析比对结果,这样就可以支持很多 aligner,支持双端数据。

如果已使用 CIRCexplorer2 align 比对,则可以跳过此步骤。

对于不同的比对软件:

## 1、TopHat2/TopHat-Fusion
$ CIRCexplorer2 parse -t TopHat-Fusion tophat_fusion/accepted_hits.bam > CIRCexplorer2_parse.log
## 2、STAR
$ CIRCexplorer2 parse -t STAR Chimeric.out.junction > CIRCexplorer2_parse.log
## 3、MapSplice
$ CIRCexplorer2 parse -t MapSplice mapsplice_out/fusions_raw.txt > CIRCexplorer2_parse.log
## 4、BWA
$ CIRCexplorer2 parse -t BWA RNA_seq_bwa.sam > CIRCexplorer2_parse.log
## 4、segemehl
$ CIRCexplorer2 parse -t segemehl splicesites.bed > CIRCexplorer2_parse.log

注意:

CIRCexplorer2 parse 会默认创建一个文件 back_splied_junction.bed 供后续分析使用。

对于双端测序:

## 1、STAR
$ CIRCexplorer2 parse -t STAR Chimeric.out.junction > CIRCexplorer2_parse.log
## 2、TopHat-Fusion
$ CIRCexplorer2 parse --pe -t TopHat-Fusion tophat_fusion/accepted_hits.bam > CIRCexplorer2_parse.log

3、环状 RNA 的注释

这一步是对 CIRCexplorer 的克隆和整合,使 CIRCexplorer2 继承 CIRCexplorer 的所有功能。

命令:

$ CIRCexplorer2 annotate -r hg19_ref_all.txt -g hg19.fa -b back_spliced_junction.bed -o circularRNA_known.txt > CIRCexplorer2_annotate.log

注意:

  • 1、它将比较 back_spliced_junction.bed 和基因注释文件(hg19_ref_all.txt)来确定环状 RNA 的边界,并进行重新排列以修复一些错误排列。

  • 2、CIRCexplorer2 annotate 将创建一个包含 circRNA 信息的输出文件 circleRNA_known.txt

4、环状 RNA 转录本的从头组装

CIRCexplorer2 使用 Cufflinks 对环状 RNA 转录本进行从头组装,并根据组装结果表征可变剪接。因此,这是分析环状 RNA 的选择性反向剪接和选择性剪接的之前的关键步骤。

命令:

$ CIRCexplorer2 assemble -r hg19_ref_all.txt -m tophat -o assemble > CIRCexplorer2_assemble.log

注意:

  • 1、它将使用 Cufflinks 将环状 RNA 转录本与 poly(A)-/ribo- RNA-seq 的比对结果(tophat)组装在一起。

  • 2、CIRCexplorer2 assemble 会默认创建一个目录 assemble。所有环状 RNA 转录本的组装信息都将在 assemble 目录下创建。还可以查看 cufflinks.log 文件以获取 cufflinks 组装的详细日志。

5、环状 RNA 选择性剪接的鉴定

CIRCexplorer2 将系统地鉴定 两种 类型的 反向可变剪接事件5' 反向剪接位点3' 反向剪接位点)和 四种 类型的可变剪接事件(盒式外显子内含子保留5' 可变剪接位点3' 可变剪接位点)。

命令:

$ CIRCexplorer2 denovo -r hg19_ref_all.txt -g hg19.fa -b back_spliced_junction.bed --abs abs --as as -m tophat -n pAplus_tophat -o denovo > CIRCexplorer2_denovo.log

注意:

  • 1、它需要来自相应 poly(A)−/ribo− RNA-seq 的相同来源的 poly(A)+ RNA-seq 的比对结果(设置为 -n)(设置为 -m),以便提取环状 RNA 在将 poly(A)-/ribo- RNA-seqpoly(A)+ RNA-seq 进行比较后,占主导地位的替代(反)剪接事件。

  • 2、CIRCexplorer2 denovo 默认会创建三个目录 denovoasabs。所有环状 RNA 的可变(反向)剪接信息都将在这些目录下创建。每个可变(反向)拼接事件都有一系列的衡量标准,你可以根据自己的要求筛选相关事件。

6、一句命令运行 CIRCexplorer2

CIRCexplorer2 包含 5 个模块,可为多个环状 RNA 分析任务提供灵活性。但是,它会混淆许多对 CIRCexplorer2 不太熟悉的人,并阻止人们很好地使用它。于是,我们编写了 fast_circ.py 脚本来集成不同的模块组合来完成不同的任务。

用法:

$ fast_circ.py parse -r REF -g GENOME -t ALIGNER [--pe] [-o OUT] <fusion>
$ fast_circ.py annotate -r REF -g GENOME -G GTF [-p THREAD] [-o OUT] -f FQ
$ fast_circ.py denovo -r REF -g GENOME -G GTF [-n PLUS_OUT] [-p THREAD] [-o OUT] -f FQ

参数说明:

  • -h --help Show help message. # 帮助文档
  • -r REF --ref=REF Gene annotation. # 注释文件
  • -g GENOME --genome=GENOME Genome FASTA file. # 基因组文件
  • -G GTF --gtf=GTF Annotation GTF file. # GTF 文件
  • -t ALIGNER Aligner (TopHat-Fusion, STAR, MapSplice, BWA, segemehl). # 比对软件
  • --pe Parse paired-end alignment file (only for TopHat-Fusion). # 指定为双端测序数据
  • -f FQ --fastq=FQ Input file. # 输入 fastq 文件
  • -n PLUS_OUT --pAplus=PLUS_OUT TopHat mapping directory for p(A)+ RNA-seq. # p(A)+ RNA-seq 结果文件目录
  • -p THREAD --thread=THREAD Running threads. [default: 10] # 线程数
  • -o OUT --output=OUT Output directory. [default: .] # 输出目录

怎么使用?

Annotating pipeline:

  • 如果你使用列出的比对软件之一(TopHat2/TopHat-Fusion、STAR、segemehl 和 MapSplice)比对 RNA-seq reads,你应该使用 fast_circ.py parse 与基因注释文件(通过 -r) 和参考基因组序列文件(通过 -g)。同时,还应该指出它的比对软件(通过 -t)以及读取是否为双端(通过 --pe)。

  • 如果你只有 原始 RNA-seq reads ,则可以使用 fast_circ.py annotate 将 RNA-seq reads 与 TopHat2/TopHat-Fusion 比对。你应该提供基因注释文件(通过 -r)、基因注释 GTF 文件(通过 -G)、参考基因组序列文件(通过 -g)和原始读取 fastq 文件(通过 -f)。

Characterization pipeline:

  • fast_circ.py denovo 将原始 RNA-seq reads 与 TopHat2/TopHat-Fusion 比对,并从头组装环状 RNA 转录本,最后提取可变(反向)剪接事件。一些选项与 fast_circ.py 注释相同。

  • 如果提供 p(A)+ RNA-seq(通过 -n)的 TopHat 比对目录,fast_circ.py denovo 将获取所有可变剪接事件。否则,它只获取可变的反向剪接事件。


E N D


欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群 哦.

群二维码:



老俊俊微信:




知识星球:



所以今天你学习了吗?

欢迎小伙伴留言评论!

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励肯定

如果觉得对您帮助很大,赏杯快乐水喝喝吧!




 往期回顾 




circRNA-seq:CIRCexplorer2 使用指南(一)

手把手教你用在线 pheatmap 绘制热图

IGV 导入本地基因组及注释文件

关于 scale 函数和 pheatmap 的图例问题

Circular RNAs 的生物发生、功能和挑战

@你需要提高一下 R 技能了(plyr 包)

ggplot 图例(你想要的都在这了!)

把 corrplot 颜色条改成文献里那样?

ggcor 的环形热图

你看过 NCBI 的基因组和注释文件吗?

◀...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存