lncRNA鉴定专题-样本和测序要求
lncRNA测序采用 Illumina HiSeq 平台进行测序,针对有参考基因组样本开展准确的 lncRNA 鉴定和 lncRNA 靶基因预测,同时提供针对测序数据中 mRNA 的分析,结果更全面,广泛应用于医学、农学研究领域。
技术路线
样本要求
lncRNA鉴定
1.文件准备
下载参考基因组及gtf文件,或者自己组装的也可以使用
准备cDNA或mRNA序列,如有lncRNA序列也可直接使用
2.比对基因组
软件:RWA,Tophat,Hisat2
每个样本的测序数据mapping到基因组
3.转录本组装
这里可以选择cufflink或者Stringtie,重点推荐Stringtie。Stringtie能够拼接处更完整、更准确的基因,并且Stringtie采用拼接和定量同步运行,相对于其他方法,其定量结果更准确
根据评测,对于从人类血液中获得的reads,Stringtie正确组装了10,990个转录本,而Cufflinks只组装了7,187个。对于模拟的数据集,Stringtie正确组装了7,559个转录本,比Cufflinks的6,310个提高了20%。此外,它的运行速度也比其他组装软件更快
4.转录本合并
方法:可使用cuffmerge,Stringtie merge,TACO三个软件合并所有gtf文件。而当样本数目急剧增加时,合并得到的转录本数目会增加,假阳性率也会随之升高。这里推荐NATmethods最新发表的软件TACO来进行大样本gtf文件的整合
说明:当样本较少的时候,三种软件整合出的基因亚型相差不大。如果样本数目大于50时,cuffmerge和Stringtie在固定的区域 会整合出长的假的嵌合体和较多的亚型,而TACO结果则保持一致的基因亚型
5.lncRNA过滤
a.可选步骤
根据blast结果过滤与已知lncRNA大于0.9相似的转录本
Nr,Pfam,Dfam,animal/plant nc database都可以进行blast比对来进一步过滤
ORF长度预测,一般过滤大于50AA的转录本
b.软件特有步骤
Cufflink结果中可选择class-code为“i,j,u,o”的转录本作为保留
Stringtie和TACO结果根据位置关系过滤掉与已知转录本位置和方向重合的转录本,保留反义转录本
c.必备步骤
过滤exon小于2,长度小于200bp,FPKM小于1的转录本
分别用CPC,CNCI,PfamScan三个软件来对进行编码潜能预测,保留非编码转录本
d.三大主流网站
PfamScan:http://pfam.xfam.org/
CPC:http://cpc.cbi.pku.edu.cn/
CNC:https://github.com/www-bioinfo-org/CNCI
鉴定标准:
CPC_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA;
CNCI_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA;
PfamScan:比对上Pfam蛋白数据库的为mRNA,没有比对上的为lncRNA;
注意:cpc和PfamScan需要先建立蛋白参考数据库,cpc可以下载Uniprot/swissprot蛋白序列;PfamScan输入的是蛋白序列,可以由cpc的预测结果得出。
【福利】微信后台回复10,即可获得lncRNA课程学习资源。
参考资料
基因帮:lncRNA研究思路与方法
猜你喜欢
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。