查看原文
其他

lncRNA的鉴定专题-主流的鉴定软件

冰糖 生信菜鸟团 2022-06-07

lncRNA鉴定的思路

lnc鉴定的思路是:先构建转录本并进行组装,然后将组装的转录本去除已知编码基因,最后使用编码评估软件进一步去除编码基因,得到非编码基因候选集,再使用“长度>200”和“外显子数>1”对非编码基因候选集进行过滤即可。

lncRNA鉴定的实现

  1. 构建并组装转录本

    转录本构建

    可以使用Cufflinks或Scripture,其区别是:

    Cufflinks(推荐):报出最少的可变剪切组合,力求转录本更长。

    Scripture:报出最全的可变剪切组合,力求转录本更全。

    Cufflinks使用方法

    Cufflinks程序主要根据Tophat的比对结果,依托或不依托于参考基因组的GTF注释文件,计算出(各个gene的)isoform的FPKM值,并给出trascripts.gtf注释结果(组装出转录组)。

    $ cufflinks [options]* <aligned_reads.(sam/bam)>  
    两个常用的例子:  
    $ cufflinks -o cufflinks_output tophat_out/accepted_hits.bam  # 构建转录本
    $ cufflinks -p 8 -G transcript.gtf –library-type fr-unstranded -o cufflinks_output tophat_out/accepted_hits.bam # 定量转录本

    普通参数

    -h | –help  
    -o | –output-dir <sting>  default: ./  
      设置输出的文件夹名称  

    -p | –num-threads  default: 1  
      用于比对reads的CPU线程数  

    -G | –GTF <reference_annotation.(gtf/gff)>  
      提供一个GFF文件,以此来计算isoform的表达。此时,将不会组装新的transcripts,  
    程序会忽略和reference transcript不兼容的比对结果  

    -g | –GTF-guide <reference_annotation.(gtf/gff)>  
      提供GFF文件,以此来指导转录子组装(RABT assembly)。此时,输出结果会包含ref  
    erence transcripts和novel genes and isforms。  

    -M | –mask-file <mask.(gtf/gff)>  
      提供GFF文件。Cufflinks将忽略比对到该GTF文件的transcripts中的reads。该  
    文件中常常是rRNA的注释,也可以包含线立体和其它希望忽略的transcripts的注释。将这  
    些不需要的RNA去除后,对计算mRNA的表达量是有利的。  

    -b | –frag-bias-correct <genome.fa>  
      提供一个fasta文件来指导Cufflinks运行新的bias detection and correct  
    ion algorithm。这样能明显提高转录子丰度计算的精确性。  

    -u | –multi-read-correct  
      让Cufflinks来做initial estimation步骤,从而更精确衡量比对到genome多个  
    位点的reads。  

    –library-type  default:fr-unstranded  
      处理的reads具有链特异性。比对结果中将会有个XS标签。一般Illumina数据的lib  
    rary-type为 fr-unstranded。  

    丰度评估参数

    -m | –frag-len-mean default: 200  
    插入片段的平均长度。不过现在Cufflinks能learns插入片段的平均长度,因此不推荐自主  
    设置此值。  

    -s | –frag-len-std-dev default: 80  
    插入片段长度的标准差。不过现在Cufflinks能learns插入片段的平均长度,因此不推荐自  
    主设置此值。  

    -N | –upper-quartile-form  
    使用75%分为数的值来代替总的值(比对到单一位点的fragments的数值),作normal  
    ize。这样有利于在低丰度基因和转录子中寻找差异基因。  

    –total-hits-norm default: TRUE  
    Cufflinks在计算FPKM时,算入所有的fragments和比对上的reads。和下一个参数  
    对立。默认激活该参数。  

    –compatible-hits-norm    
    Cufflinks在计算FPKM时,只针对和reference transcripts兼容的fragmen  
    ts以及比对上的reads。该参数默认不激活,只能在有 –GTF 参数下有效,并且作 RABT  
    或 ab initio 的时候无效。  

    组装常用参数

    -L | –label  default: CUFF  
      Cufflink以GTF格式来报告转录子片段(transfrags),该参数是GTF文件的前缀  

    –min-frags-per-transfrag <int>  default: 10  
      组装出的transfrags被支持的RNA-seq的fragments数少于该值则不被报道。  

    –min-intron-length <int>  default: 50  
      最小的intron大小。  

    –overlap-radius <int>  default: 50  
      Transfrags之间的距离少于该值,则将其连到一起。  

    转录本组装

    使用Cuffmerge将构建的多个转录本进行组装:

    Cuffmerge将各个Cufflinks生成的transcripts.gtf文件融合称为一个更加全面的transcripts注释结果文件merged.gtf,Cuffmerge不是简单的去重求并集,得到的转录本会更加精准。

    Cuffmerge使用方法

    $ cuffmerge [options]* <assembly_GTF_list.txt>  
    输入文件为一个文本文件,是包含着GTF文件路径的list。常用例子:  
    $ cuffmerge -o ./merged_asm -p 8 assembly_list.txt  

    使用参数

    -h | –help  
    -o <output_dir> default: ./merged_asm  
    将结果输出至该文件夹。  
    -g | –ref-gtf  
    将该reference GTF一起融合到最终结果中。  
    -p | –num-threads <int> defautl: 1  
    使用的CPU线程数  
    -s | –ref-sequence <seq_dir>/<seq_fastq>  
    该参数指向基因组DNA序列。如果是一个文件夹,则每个contig则是一个fasta文件;如果是  
    一个fasta文件,则所有的contigs都需要在里面。Cuffmerge将使用该ref-sequence来  
    帮助对transfrags分类,并排除repeats。比如transcripts包含一些小写碱基的将归类  
    到repeats.  

Cuffmerge与Cuffcompare都可以合并转录本,两者的异同为:

相同点:都是合并转录本的工具

  • 输入:若干gtf文件

  • 输出:合并的gtf文件

不同点:

Cuffcompare:得到一个转录本的并集,不丢弃转录本

Cuffmerge:按基因位置深度重新构建转录本,深度优化转录本结构

  1. 去除编码基因

    使用Cuffcompare将构建组装得到的merge.gtf和reference gtf进行比较,只选择class code为I、U与X。

    i: A transfrag falling entirely within a reference intron
    u: Unknown, intergenic transcript
    x: Exonic overlap with reference on the opposite strand

    Cuffcompare使用方法

    $ cuffcompare [options]* <cuff1.gtf> [cuff2.gtf] … [cuffN.gtf]  

    使用例子:  
    $ cuffcompare -o cuffcmp cuff1.gtf cuff2.gtf  

    使用参数

    -h  
    -V  
    -o <outprefix> default: cuffcmp  
    输出文件的前缀  

    -r <reference_mrna.gtf>  
    参考的GFF文件。用来评估输入的gtf文件中gene models的精确性。每一个输入的gtf的is  
    oforms将和该参考文件进行比较,并被标注为 overlapping, matching 或 novel。  
    -R  
    当有了 -r 参数时,指定该参数时,将忽略参考GFF文件中的一些transcripts。这些tran  
    scripts不和任何输入的GTF文件overlapped。  
    -s <seq_dir>/<seq_fastq>  
    该参数指向基因组DNA序列。如果是一个文件夹,则每个contig则是一个fasta文件;如果是  
    一个fasta文件,则所有的contigs都需要在里面。小写字母的碱基用来将相应的transcri  
    pts作为repeats处理。  
  2. 预测编码与非编码RNA

    预测编码与非编码RNA是鉴定lncRNA的关键,CPC、phyloCAF及CNCI可以完成预测,他们的区别如下:

    CPC :算法基于预测基因的开放阅读框

    特点:模型不能跨物种,不适用高通量测序得到的RNA

    PhyloCSF:算法基于物种间的保守性

    特点:依赖于基因组,计算耗时

    CNCI:算法基于二联密码子频率

    特点:可以扩物种预测,人的模型能用其它各种动物上

    有关于这三个软件的用法,见本周主题的后续文章,敬请期待。

参考资料:

  1. 第四讲:转录本构建和lncRNA鉴定。测序中国。

  2. Cuflinks的使用方法。生物日至|鸣一道。

  3. Cuffmerge Cuffcompare Cuffdiff 的使用方法。生物日至|鸣一道。

更多整合精彩见 生信基础知识100讲


还有更多文章,请移步公众号阅读

如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存