我的非编码RNA居然翻译蛋白?这些数据库赶紧用起来!| 转录调控专题
翻译(Translation)是基因表达过程中继转录(Transcription)后的第二个主要步骤,根据遗传密码“读取”mRNA,将DNA序列与蛋白质中的氨基酸序列联系起来。
基因表达的转录和翻译流程
在大量的转录组与蛋白质组关联分析的实践中,发现两者的相关性并没有预期中的高,说明翻译和翻译后修饰对于蛋白水平的显著影响。蛋白质是生命活动的主要承担者,而RNA-seq检测的是基因的转录水平,转录水平的变化不一定意味着蛋白水平发生预期的变化,因为翻译与翻译后修饰也是广泛调控基因表达的重要过程。
转录组测序无法获悉转录出的mRNA有没有在翻译的问题,也不能解决以往认知中的非编码RNA是否能被翻译的问题,而翻译组测序技术则可以为上述问题的研究提供支持。
密码子表
翻译组广义指直接参与翻译过程的所有元件,包括核糖体、正在翻译的mRNA、tRNA、非编码RNA等,狭义上指正在翻译的mRNA。随着翻译组技术和质谱技术的发展与应用,发现先前认为的非编码RNA也能够编码小肽,让我们对非编码RNA的功能与作用机制有了进一步的认识。
多聚核糖体图谱技术(polysome profiling)是研究翻译组的经典技术,近年来发展起来的核糖体图谱(核糖体印迹)技术(Ribosome Profiling,Ribo-seq)、核糖体-新生肽链复合物测序(Ribosome Nascent-chain Complex sequencing,RNC-seq)、核糖体亲和纯化技术(Translating Ribosome Affinity Purification,TRAP)是研究翻译组的主要技术,而其中核糖体图谱技术是使用最广泛的,其利用RNA酶消化细胞中的RNA,得到被核糖体保护的正在翻译的RNA片段(Ribosome Footprints,RFs),然后对这些被核糖体保护的30nt左右的RNA片段进行富集、深度测序、分析。
翻译组相关技术有比较高的实验成本和仪器成本,一定程度上限制了其应用,虽然其可以作为检测可翻译RNA(包括lncRNA、circRNA)的重要技术。
如果对于非编码RNA是否编码小肽感兴趣,不一定需要开展翻译组测序,可以先借助于一些数据库查询相关信息。
下面介绍的5个数据库可以辅助查询可能编码小肽(或多肽)的lncRNA和circRNA。
circRNA的翻译现在越来越受到研究人员的关注,因为circRNA编码的功能性肽作为参与基因表达调控的新参与者正在发挥作用。
riboCIRC(http://www.ribocirc.com/index.html)是面向翻译组数据的circRNA数据库,包含计算预测的6个不同物种(人类、小鼠、大鼠、秀丽隐杆线虫、果蝇和斑马鱼)总共2247个可翻译circRNA和216个经过实验验证的翻译circRNA。
数据共分析了328080种已知人类circRNA的翻译潜能,其中168个circRNA有蛋白质谱(MS)证据,4284个circRNA有核糖体印迹或多聚核糖体分析(RP/PP)证据,301100个circRNA有潜在翻译产物序列分析(SeqComp),314138个circRNA预测到有IRES,39397个circRNA有m6A修饰位点信息,9394个circRNA有翻译起始位点信息(TIS),305016个circRNA有ORF信息。
这些信息可以帮助我们筛选可能能够翻译蛋白质或多肽的circRNA,或者查询自身关注的circRNA是否可能通过翻译出的蛋白或多肽发挥生物学功能。
circRNADb(http://reprod.njmu.edu.cn/cgi-bin/circrnadb/circRNADb.php)汇总可编码蛋白的环状RNA数据库,共收集了超3万条人类外显子环状RNA记录,每条记录都包括基因组位置信息、RNA编辑情况、所对应的基因组序列、IRES序列元件、预测ORF以及相关的参考文献,ORF和IRES元件一般用于预测可翻译circRNA。
circMine(http://hpcc.siat.ac.cn/circmine/home)提供了1821448个条目,由136871个circRNA,87种疾病和120个circRNA转录组数据集组成,来自人体31个部位的1107个样本。
circMine提供了13种在线分析功能,能根据临床数据对样本进行分组,并为不同的分析分配不同的参数。circMine可进行circRNA-miRNA预测、circRNA IRES预测和ribo-circRNA定位等分析。
所见即所得,绘图高规格联川云平台,让科研更自由