查看原文
其他

干货|CircRNA 预测软件之find_circ使用流程(二)

2017-06-09 House 生信草堂

在前面的文章中我们讨论了目前研究火热的环状RNA预测软件,通过对同一个样本采用RNAse R+/-两种建库方式,我们比较了5种常用环状RNA预测软件精确度和敏感度。在今天的推文里,我将重点选取find_circ进行详细介绍。


Find_circ工具是最早利用高通量测序数据预测环状RNA的开山鼻祖。该工具是Memczak等人2013年在权威Nature杂志上发表题为“Circular RNAs are a large class of animal RNAs with regulatory potency”的文章时首次发布的,从而掀起了环状RNA的研究热潮。


基于高通量测序数据的环状RNA预测的关键步骤是寻找不能连续比对到基因组或者转录组上的junction read。想要完成这项工作,第一步就是将RNA reads mapping到基因组上,然后去寻找mapping不上的序列。Find_circ将这些mapping不上的reads各取两头20bp(保证可以唯一比对到基因组上),再次mapping到基因组上。接下来,通过短序列比对来判断GU/AG剪切位点,从而推测出潜在的环状RNA序列。图1给出环状RNA的预测过程:


图1 环状RNA预测过程


下面给大家介绍find_circ的工作流程和命令行参数

1安装 

Find_circ需要运行在装有python 2.7的64位系统上,同时需要安装numpy和pysam这两个python模块。其运行需要借助bowtie2和samtools来完成基因组mapping的过程。


2 基于RNA-Seq的基因组比对(pair-end模式)

bowtie2 -p 16 --very-sensitive --score-min=C,-15,0 --mm -x /path/to/bowtie2_index -q -1 mate1.fq -2 mate2.fq 2 > map.bowtie2.log | samtools view -hbuS - | samtools sort – output.bam


###bowtie2参数介绍###

-p 使用多线程; --very-sensitive 允许多重比对,报告出最好的一个; --score-min=C,-15,0 设置比对分数函数;--mm 设置I/O模式。


###samtools view参数介绍###

-h 文件包含header line; -b 输出bam格式; -u 输出非压缩的bam格式 –S 忽略版本兼容


3挑出没有比对上的序列,各取两头20bp短序列(anchor

samtools view -hf 4 output.bam | samtools view -Sb - > unmapped.bam

python unmapped2anchors.py unmapped.bam | gzip > anchors.qfa.gz


4根据anchor比对基因组情况寻找潜在的circRNA

bowtie2 -p 16 --reorder --mm -M20 --score-min=C,-15,0 -q -x /path/to/bowtie2_index -U anchors.qfa.gz | python find_circ.py -G /path/to/chomosomes.fa -p prefix -s find_circ.sites.log > find_circ.sites.bed 2 > find_circ.sites.reads


grep CIRCULAR find_circ.sites.bed | grep -v chrM | gawk '$5>=2' | grep UNAMBIGUOUS_BP | grep ANCHOR_UNIQUE | $path/maxlength.py 100000 > finc_circ.candidates.bed


###利用grep工具筛选出符合以下条件的circRNA: (1)线粒体染色体除外;(2)至少有2个junction read;(3)最大的不超过100kb

Find_circ输出BED文件格式,由18列组成,包含了预测到的环状RNA的各类指标。



关于CricRNA分析的精彩内容,我们将继续分享。





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存