查看原文
其他

lncRNA鉴定专题:常规的鉴定"套路"及原理

lakeseafly 生信菜鸟团 2022-06-07

如果你对一门行业没有任何的经验,其中一个快速入门的方法就是掌握其中的套路然后进行理解重复。同样,小编我也没有任何分析lncRNA的经验,在思考许久如何总结相关的思路之后,我决定通过分析我所熟悉领域的相关文献,总结出相关的套路。

文献基本介绍

文章题目

Long noncoding RNAs and their proposed functions in fibre evelopment of cotton (Gossypium spp.)

发表于15年,选自New Phytologist (IF在7以上)。从文章题目可以看出是研究棉花茎端发育长链非编码RNA的鉴定及功能预测。该文章的,可以通过原文链接查看。

分析思路overview

总体的基本分析思路可以分为:

  1. 棉花lncRNA的预测

  2. lncRNA鉴定

棉花lncRNA的预测

首先当然是要知道怎样找到哪些片段是lncRNA。该文章利用利用SOAP2比对软件将clean (去除adaptors还有低quality的redas) 的RNA-seq 比对到核糖体数据上,去除比对上核糖体的reads,将过滤完rRNA 的reads与棉花参考基因组序列比对,组装转录本。下面几点是用以帅选的标准:

  1. 过滤掉表达量比较低的以及长度在200 bp 以下的转录本,得到新的转录本。

  2. 过滤转录比对覆盖率低于转录本一半长度的片段。

  3. 去除比对到功能蛋白质库例如swiss-port还有pfam的片段。(E<0.001)


最后用CPC(coding potential calculator)预测转录本的coding潜力,区分coding和non-coding的部分,从而初步预测到lncRNA。

棉花lncRNA的鉴定

预测完之后,另外一件事当然就是鉴定这些“所谓的lncRNA“”是啥,与什么功能有关。

表达分析

使用TOPHAT将RNA-seq比对到基因组上。Cufflink 用以估算lncRNA的表达量。DESEQ用来寻找差异基因。

临近共表达分析

基于基因组共定位的方法,通过分析与其临近的蛋白编码基因的功能,可以对lncRNA 进行功能注释。皮尔森相关性被用来探索这些lncRNA /蛋白质编码之间的表达关系。基因本体论(GO)分析用于富集分析这些邻近这些lncRNA的基因表达规律。

lncRNA共线性分析

使用lastz,将At和Dt亚基因组的scaffolds比对到基因组上。在At和Dt亚基因组之间至少有五个基因被鉴定共线性块。与syntenic块和这些重叠的同源lncRNA进一步使用BLASTN进行确认(best hits中有90%相似度)。

表达网络构造

然后就是表达网络构造,这个可以参考一下我们之前发的文章。

lncRNA家族预测

Rfam 数据库是一个基于多序列比对和共进 化模型建立的ncRNA家族信息库,利用多序列 比对,根据保守序列及二级结构可以对预测的 lncRNA进行分类,从而在进化层面上对lncRNA 进行功能注释。

总结

虽然我没有太多RNA-seq研究的经验,咋一看来,lncRNA的套路与转录组的研究有着很相似的地方。很多研究方法都是同时适用的。由于没有太多相关经验,本文主要是基于我个人理解,如果有错误欢迎指出。

References:

Long noncoding RNAs and their proposed functions in fibre

development of cotton (Gossypium spp.)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存