我的非编码RNA居然翻译蛋白？这些数据库赶紧用起来！| 转录调控专题

Original 运营部-LH 联川生物 2024-03-27

翻译（Translation）是基因表达过程中继转录（Transcription）后的第二个主要步骤，根据遗传密码“读取”mRNA，将DNA序列与蛋白质中的氨基酸序列联系起来。

基因表达的转录和翻译流程

在大量的转录组与蛋白质组关联分析的实践中，发现两者的相关性并没有预期中的高，说明翻译和翻译后修饰对于蛋白水平的显著影响。蛋白质是生命活动的主要承担者，而RNA-seq检测的是基因的转录水平，转录水平的变化不一定意味着蛋白水平发生预期的变化，因为翻译与翻译后修饰也是广泛调控基因表达的重要过程。

转录组测序无法获悉转录出的mRNA有没有在翻译的问题，也不能解决以往认知中的非编码RNA是否能被翻译的问题，而翻译组测序技术则可以为上述问题的研究提供支持。

密码子表

翻译组广义指直接参与翻译过程的所有元件，包括核糖体、正在翻译的mRNA、tRNA、非编码RNA等，狭义上指正在翻译的mRNA。随着翻译组技术和质谱技术的发展与应用，发现先前认为的非编码RNA也能够编码小肽，让我们对非编码RNA的功能与作用机制有了进一步的认识。

多聚核糖体图谱技术（polysome profiling）是研究翻译组的经典技术，近年来发展起来的核糖体图谱（核糖体印迹）技术（Ribosome Profiling，Ribo-seq）、核糖体-新生肽链复合物测序（Ribosome Nascent-chain Complex sequencing，RNC-seq）、核糖体亲和纯化技术（Translating Ribosome Affinity Purification，TRAP）是研究翻译组的主要技术，而其中核糖体图谱技术是使用最广泛的，其利用RNA酶消化细胞中的RNA，得到被核糖体保护的正在翻译的RNA片段（Ribosome Footprints，RFs），然后对这些被核糖体保护的30nt左右的RNA片段进行富集、深度测序、分析。

翻译组相关技术有比较高的实验成本和仪器成本，一定程度上限制了其应用，虽然其可以作为检测可翻译RNA（包括lncRNA、circRNA）的重要技术。

如果对于非编码RNA是否编码小肽感兴趣，不一定需要开展翻译组测序，可以先借助于一些数据库查询相关信息。

下面介绍的5个数据库可以辅助查询可能编码小肽（或多肽）的lncRNA和circRNA。

1. riboCIRC

circRNA的翻译现在越来越受到研究人员的关注，因为circRNA编码的功能性肽作为参与基因表达调控的新参与者正在发挥作用。

riboCIRC（http://www.ribocirc.com/index.html）是面向翻译组数据的circRNA数据库，包含计算预测的6个不同物种（人类、小鼠、大鼠、秀丽隐杆线虫、果蝇和斑马鱼）总共2247个可翻译circRNA和216个经过实验验证的翻译circRNA。

2. TransCirc

数据共分析了328080种已知人类circRNA的翻译潜能，其中168个circRNA有蛋白质谱（MS）证据，4284个circRNA有核糖体印迹或多聚核糖体分析（RP/PP）证据，301100个circRNA有潜在翻译产物序列分析（SeqComp），314138个circRNA预测到有IRES，39397个circRNA有m6A修饰位点信息，9394个circRNA有翻译起始位点信息（TIS），305016个circRNA有ORF信息。

TransCirc（www.biosino.org/transcirc/）数据库整合了各种与翻译相关的证据，检索的结果能直观的呈现翻译产物的相关证据信息。

这些信息可以帮助我们筛选可能能够翻译蛋白质或多肽的circRNA，或者查询自身关注的circRNA是否可能通过翻译出的蛋白或多肽发挥生物学功能。

3. circRNADb

circRNADb（http://reprod.njmu.edu.cn/cgi-bin/circrnadb/circRNADb.php）汇总可编码蛋白的环状RNA数据库，共收集了超3万条人类外显子环状RNA记录，每条记录都包括基因组位置信息、RNA编辑情况、所对应的基因组序列、IRES序列元件、预测ORF以及相关的参考文献，ORF和IRES元件一般用于预测可翻译circRNA。

4. SPENCER

其使用CPAT筛选可以表达蛋白的lncRNA，使用ORFfinder来预测lncRNA的开放阅读框（ORF）。除了从数据库查询外，也可以参考“lncRNA的翻译潜能预测”章节预测可能编码小肽的lncRNA。

SPENCER（http://spencer.renlab.org/#/home）用来检索肿瘤相关lncRNA编码肽段的数据库，主要利用蛋白质谱的方式来鉴定lncRNA相关的肽段，对跨越不同癌症的1700多个患者样本的公共质谱数据进行了重新注释。

5. circMine

circMine（http://hpcc.siat.ac.cn/circmine/home）提供了1821448个条目，由136871个circRNA，87种疾病和120个circRNA转录组数据集组成，来自人体31个部位的1107个样本。

circMine提供了13种在线分析功能，能根据临床数据对样本进行分组，并为不同的分析分配不同的参数。circMine可进行circRNA-miRNA预测、circRNA IRES预测和ribo-circRNA定位等分析。

相关阅读

多个组学数据筛选利器：Venn与Upset图 | 转录调控专题

除了ceRNA，circRNA研究还能怎么做？|转录调控专题

这个分析可以提升转录组逼格，联川即将更新（文末有彩蛋） | 转录调控专题

miRNA实验建库流程介绍|转录调控专题

八卦时刻：转录调控工具书封面即将揭晓，解密背后诞生的故事（文末有彩蛋）