(工具篇):神器之——lncRNA编码能力预测
我们在(文章篇)S3E7:一文掌握lncRNA研究的套路和创新点等文章介绍lncRNA研究套路的时候提到过对于新的lncRNA要做的八部分工作:
1. RNA-seq找差异lncRNA
2. 根据基因位置关系确定候选lncRNA
3. RACE明确lncRNA序列
4. lncRNA在细胞内的定位(空间特异性);
5. lncRNA在组织内表达特异性;
6. lncRNA表达的时间特异性;
7. lncRNA编码蛋白能力预测和验证;
8. lncRNA物种保守性分析;
其中第7条是lncRNA的编码能力的预测和验证,即:对于一条新的lncRNA,需要证明其无蛋白编码能力,我们在(文章篇)S4E06:CncRNA:原来真有这样的RNA!!!中也介绍过,有的RNA既可以编码蛋白,又能以RNA的角色发挥作用。
今天我们就介绍两个网站来预测RNA的蛋白编码能力:
1. Coding Potential Caculator:http://cpc.cbi.pku.edu.cn/
这个网站是2007年的这篇文章里面提出的:CPC: assess the protein-coding potential of transcripts using sequence features and supportvector machine.Nucleic Acids Res. 2007 Jul;35(Web Server issue):W345-9.,也是用的最多的一个预测蛋白编码能力的网站,比如我们开头介绍的这篇文章就是用的CPC网站进行的预测:A Long Non-coding RNA, LncMyoD, Regulates Skeletal Muscle Differentiationby Blocking IMP2-Mediated mRNA Translation. Developmental Cell. (July 27, 2015) (IF9.7)
CPC网站用起来也非常简单:先找到lncRNA的序列(如果是新的lncRNA,要用RACE拿到全长序列),这里以ANRIL为例,通过lncRNAdb找到序列
然后把序列复制或者上传到搜索框中,运行即可:
然后就出来预测结果了:
可以点击detail看到具体的预测结果:
我们再以一个已知的CDKN2B mRNA为例看下预测结果,等结果中:
可以看到lncRNA ANRIL和CDKN2B mRNA差别非常明显。
2. CPAT:Coding-Potential Assessment Tool :http://lilab.research.bcm.edu/cpat/index.php
这个网站是2013年的这篇文章发表的:CPAT: Coding-Potential Assessment Tool using an alignment-free logistic regression model.Nucleic Acids Res. 2013 Apr 1;41(6):e74. 速度比较快,基本不用等。同样我们还是以ANRIL和CDKN2B mRNA为例看一下:
ANRIL
这里需要注意:提交的序列是fasta格式的,要在序列前加">Sequence ID", 否则会报错,预测结果很快,不过也很简单:
CDKN2B mRNA
That’s all. Thank you!
请关注“小张聊科研”:搜索微信号“xzlky2015”,或长按二维码识别关注。
↓↓↓