lncRNA的鉴定专题-主流的鉴定软件
lncRNA鉴定的思路
lnc鉴定的思路是:先构建转录本并进行组装,然后将组装的转录本去除已知编码基因,最后使用编码评估软件进一步去除编码基因,得到非编码基因候选集,再使用“长度>200”和“外显子数>1”对非编码基因候选集进行过滤即可。
lncRNA鉴定的实现
构建并组装转录本
转录本构建
可以使用Cufflinks或Scripture,其区别是:
Cufflinks(推荐):报出最少的可变剪切组合,力求转录本更长。
Scripture:报出最全的可变剪切组合,力求转录本更全。
Cufflinks使用方法
Cufflinks程序主要根据Tophat的比对结果,依托或不依托于参考基因组的GTF注释文件,计算出(各个gene的)isoform的FPKM值,并给出trascripts.gtf注释结果(组装出转录组)。
cufflinks [options]* <aligned_reads.(sam/bam)>
两个常用的例子:
cufflinks -o cufflinks_output tophat_out/accepted_hits.bam # 构建转录本
cufflinks -p 8 -G transcript.gtf –library-type fr-unstranded -o cufflinks_output tophat_out/accepted_hits.bam # 定量转录本普通参数
-h | –help
-o | –output-dir <sting> default: ./
设置输出的文件夹名称
-p | –num-threads default: 1
用于比对reads的CPU线程数
-G | –GTF <reference_annotation.(gtf/gff)>
提供一个GFF文件,以此来计算isoform的表达。此时,将不会组装新的transcripts,
程序会忽略和reference transcript不兼容的比对结果
-g | –GTF-guide <reference_annotation.(gtf/gff)>
提供GFF文件,以此来指导转录子组装(RABT assembly)。此时,输出结果会包含ref
erence transcripts和novel genes and isforms。
-M | –mask-file <mask.(gtf/gff)>
提供GFF文件。Cufflinks将忽略比对到该GTF文件的transcripts中的reads。该
文件中常常是rRNA的注释,也可以包含线立体和其它希望忽略的transcripts的注释。将这
些不需要的RNA去除后,对计算mRNA的表达量是有利的。
-b | –frag-bias-correct <genome.fa>
提供一个fasta文件来指导Cufflinks运行新的bias detection and correct
ion algorithm。这样能明显提高转录子丰度计算的精确性。
-u | –multi-read-correct
让Cufflinks来做initial estimation步骤,从而更精确衡量比对到genome多个
位点的reads。
–library-type default:fr-unstranded
处理的reads具有链特异性。比对结果中将会有个XS标签。一般Illumina数据的lib
rary-type为 fr-unstranded。丰度评估参数
-m | –frag-len-mean default: 200
插入片段的平均长度。不过现在Cufflinks能learns插入片段的平均长度,因此不推荐自主
设置此值。
-s | –frag-len-std-dev default: 80
插入片段长度的标准差。不过现在Cufflinks能learns插入片段的平均长度,因此不推荐自
主设置此值。
-N | –upper-quartile-form
使用75%分为数的值来代替总的值(比对到单一位点的fragments的数值),作normal
ize。这样有利于在低丰度基因和转录子中寻找差异基因。
–total-hits-norm default: TRUE
Cufflinks在计算FPKM时,算入所有的fragments和比对上的reads。和下一个参数
对立。默认激活该参数。
–compatible-hits-norm
Cufflinks在计算FPKM时,只针对和reference transcripts兼容的fragmen
ts以及比对上的reads。该参数默认不激活,只能在有 –GTF 参数下有效,并且作 RABT
或 ab initio 的时候无效。组装常用参数
-L | –label default: CUFF
Cufflink以GTF格式来报告转录子片段(transfrags),该参数是GTF文件的前缀
–min-frags-per-transfrag <int> default: 10
组装出的transfrags被支持的RNA-seq的fragments数少于该值则不被报道。
–min-intron-length <int> default: 50
最小的intron大小。
–overlap-radius <int> default: 50
Transfrags之间的距离少于该值,则将其连到一起。转录本组装
使用Cuffmerge将构建的多个转录本进行组装:
Cuffmerge将各个Cufflinks生成的transcripts.gtf文件融合称为一个更加全面的transcripts注释结果文件merged.gtf,Cuffmerge不是简单的去重求并集,得到的转录本会更加精准。
Cuffmerge使用方法
cuffmerge [options]* <assembly_GTF_list.txt>
输入文件为一个文本文件,是包含着GTF文件路径的list。常用例子:
cuffmerge -o ./merged_asm -p 8 assembly_list.txt使用参数
-h | –help
-o <output_dir> default: ./merged_asm
将结果输出至该文件夹。
-g | –ref-gtf
将该reference GTF一起融合到最终结果中。
-p | –num-threads <int> defautl: 1
使用的CPU线程数
-s | –ref-sequence <seq_dir>/<seq_fastq>
该参数指向基因组DNA序列。如果是一个文件夹,则每个contig则是一个fasta文件;如果是
一个fasta文件,则所有的contigs都需要在里面。Cuffmerge将使用该ref-sequence来
帮助对transfrags分类,并排除repeats。比如transcripts包含一些小写碱基的将归类
到repeats.
Cuffmerge与Cuffcompare都可以合并转录本,两者的异同为:
相同点:都是合并转录本的工具
输入:若干gtf文件
输出:合并的gtf文件
不同点:
Cuffcompare:得到一个转录本的并集,不丢弃转录本
Cuffmerge:按基因位置深度重新构建转录本,深度优化转录本结构
去除编码基因
使用Cuffcompare将构建组装得到的merge.gtf和reference gtf进行比较,只选择class code为I、U与X。
i: A transfrag falling entirely within a reference intron
u: Unknown, intergenic transcript
x: Exonic overlap with reference on the opposite strandCuffcompare使用方法
cuffcompare [options]* <cuff1.gtf> [cuff2.gtf] … [cuffN.gtf]
使用例子:
cuffcompare -o cuffcmp cuff1.gtf cuff2.gtf使用参数
-h
-V
-o <outprefix> default: cuffcmp
输出文件的前缀
-r <reference_mrna.gtf>
参考的GFF文件。用来评估输入的gtf文件中gene models的精确性。每一个输入的gtf的is
oforms将和该参考文件进行比较,并被标注为 overlapping, matching 或 novel。
-R
当有了 -r 参数时,指定该参数时,将忽略参考GFF文件中的一些transcripts。这些tran
scripts不和任何输入的GTF文件overlapped。
-s <seq_dir>/<seq_fastq>
该参数指向基因组DNA序列。如果是一个文件夹,则每个contig则是一个fasta文件;如果是
一个fasta文件,则所有的contigs都需要在里面。小写字母的碱基用来将相应的transcri
pts作为repeats处理。预测编码与非编码RNA
预测编码与非编码RNA是鉴定lncRNA的关键,CPC、phyloCAF及CNCI可以完成预测,他们的区别如下:
CPC :算法基于预测基因的开放阅读框
特点:模型不能跨物种,不适用高通量测序得到的RNA
PhyloCSF:算法基于物种间的保守性
特点:依赖于基因组,计算耗时
CNCI:算法基于二联密码子频率
特点:可以扩物种预测,人的模型能用其它各种动物上
有关于这三个软件的用法,见本周主题的后续文章,敬请期待。
参考资料:
第四讲:转录本构建和lncRNA鉴定。测序中国。
Cuflinks的使用方法。生物日至|鸣一道。
Cuffmerge Cuffcompare Cuffdiff 的使用方法。生物日至|鸣一道。
更多整合精彩见 生信基础知识100讲
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。