基础篇:5000字带你了解miRNA测序 | 转录调控专题
MicroRNA(miRNA)是一类内生的、由细胞内源产生的发卡(hairpin) 结构转录本加工而来、长度22nt左右的小RNA,其在细胞内具有多种重要的调节作用。每个miRNA可以有多个靶基因,而几个miRNA也可以调节同一个基因。这种复杂的调节网络既可以通过一个miRNA来调控多个基因的表达,也可以通过几个miRNA的组合来精细调控某个基因的表达。动物体内,miRNA主要通过与mRNA的3’UTR部分相结合抑制mRNA的翻译。在植物中,miRNA会和mRNA碱基互补配对后,对靶基因进行剪切(完全降解),从而达到抑制mRNA翻译的目的。miRNA的生物发生和在动植物中的功能如下:
miRNA的生物发生与在动植物中的功能
miRNA的定义是在动植物中长度约为22nt左右长度的小RNA,不能编码蛋白且在不同物种间比较保守。
一般来说,miRNA通常有两种调控方式:抑制翻译和降解,通常情况下植物和动物有着两种完全不同的调控方式。
在动物中,miRNA通过与mRNA在3’端的UTR(Untranslated Regions)相结合,在不减少mRNA数量的情况下达到抑制mRNA翻译蛋白的功能。一般成熟的miRNA有2~8位的seed种子区域,与AGO蛋白形成复合物后结合在3’的UTR区域(如下图)。图中成熟体miRNA用天蓝色和红色表示,2~8位的seed种子区域用灰色表示,mRNA序列用深绿色和淡绿色表示。当这些成熟体miRNA和AGO蛋白形成复合物时,在3’端的UTR区域(图中用黄色表示)抑制mRNA的翻译。
动物中miRNA作用模式
而在植物中,miRNA会对mRNA进行剪切,mRNA被降解后失去编码蛋白的功能。具体来说,miRNA成熟体与AGO蛋白形成复合物,与靶基因相结合,并且在miRNA最中间的结合位点对靶基因进行剪切(如下图)。当mRNA被降解成片段后,其编码蛋白的功能亦会消失。
植物中miRNA作用模式
得益于高通量测序和生物信息学的发展,人们通过生物信息学的方法在高通量测序的数据中发现了许多传统试验无法挖掘的RNA。近几年大热的lncRNA和circRNA都成为了科研工作者新的研究热点。这类新型的非编码RNA除了转录前调控等功能外,一个重要的功能就是像海绵一样对miRNA有吸附作用。这种具有miRNA吸附作用的RNA,称作竞争性内源RNA(Competitive endogenous RNA, ceRNA),除了lncRNA和circRNA外,mRNA和假基因都可以充当ceRNA。ceRNA不是一类新的RNA,而是新的调控机制。ceRNA的概念中有两个关键词,竞争和内源。内源指的是这个调控机制本来在生物体内就存在,而竞争就是这个调控机制的核心。自2011年哈佛大学医学院的著名癌症遗传学家Pier Paolo Pandolfi教授在《Cell》杂志上提出该假说以来,便引起了科学界的轰动,当然也伴随着质疑,但随后诸多研究表明ceRNA机制的存在。比如研究人员发现在肺鳞状细胞癌中circTP63与miR-873-3p竞争性结合并阻止miR-873-3p降低FOXM1的水平,从而促进肺鳞癌的进展。
目前已知的miRNA与目标区域互补(target complementarity)的方式有以下几种主要类型。在植物中,包含完全降解和target mimics;在动物还是以UTR序列碱基互补配对为主,具体解释如下图所示:
miRNA与Target配对模式
基于miRNA的配对模式可以在miRNA靶标分析的基础上构建一个ceRNA调控网络(ceRNA networks),这些非编码RNA,如lncRNA和circRNA,会竞争结合miRNA,导致miRNA调控的靶基因发生变化,最终体现在蛋白的表达水平上,而miRNA处于ceRNA调控网络中的核心地位。一个ceRNA可以结合多个miRNA,在动物中这些ceRNA上与miRNA结合的位点被称作miRNA识别元件(miRNA recognition elements, MREs);而在植物中,targetmimics的标准则会严格许多,必须符合miRNA在中间位置不符合碱基互补配对原则(有凸起)。如miR-399是植物中用于研究targetmimics非常经典的一个小RNA,当miR-399与目标区域碱基完全互补配对时,会对目标区域降解(图1-10);当miR-399与目标区域不完全匹配且在中间部位有凸起,则会被目标区域竞争结合[14]。
植物中miR-299作用示意图
通常ceRNA上有一个甚至多个MRE,ceRNA调控网络如图(图1-11、图1-12)所示:
动物ceRNA调控网络
miRNA与mRNA、lncRNA、circRNA不同,其序列很短,因此建库时直接利用miRNA的序列特点,直接添加接头,然后进行逆转录扩增,通过PCR扩增添加测序接头,然后使用胶纯化特定片段范围的DNA片段,随后进行上机测序。由于特殊的建库流程,如果需要同时检测miRNA和mRNA,需要分别构建两个文库,因为在mRNA、lncRNA、circRNA相关的建库流程的片段筛选中会过滤掉小RNA片段。
mRNA的切割需要miRNA与靶基因尽可能地匹配,mRNA的切割在动物中并不常见,但依然有相关的报道。在2004年science上报道了miR-196介导的HOXB8切割的案例。miR-196与HOXB8有近乎完全的匹配,导致了mRNA切割的发生,切割之后的HOXB8 mRNA会被降解,表明动物中的miRNA除了抑制翻译外,还可以通过mRNA切割抑制其天然靶标的表达。
miR-196与HOXB8结合位点示意图
另外,关于动物中miRNA在mRNA上的结合位置,一般主要认为是在mRNA的3’UTR上。但是有研究表明,有的miRNA也能结合到mRNA的5’UTR或CDS区上行使功能。目前已有的报道来说,结合到5’UTR的miRNA常常起到转录激活的作用,比如miR-10a可以结合到核糖体蛋白的mRNA的5’UTR上,增强核糖体蛋白的翻译及核糖体的合成,从而提高整体的蛋白合成。而结合到CDS区的miRNA则跟结合到3’UTR的经典负调控方式相同,比如2008年Nature报道了多个miRNA可以结合到Nanog、Oct4和Sox2的CDS区,并且抑制这些蛋白的表达。在2018年武汉大学研究团队发现了一类新型的miRNA识别元件,其仅在CDS区域起作用,miRNA通过靶向这些CDS上的miRNA识别元件,并通过诱导瞬时核糖体停滞来抑制翻译,揭示了靶向CDS区的miRNA与靶向3’UTR的miRNA不同的翻译抑制机制。
mRNA的CDS区和5’UTR包含数目众多的miRNA识别元件,因此如果我们没有在3’UTR区找到感兴趣的miRNA识别元件,可以看看mRNA的CDS区或5’UTR区。
总结:由于大部分动物数据库收录的是miRNA和mRNA 3’UTR区的靶向关系,因此如果关注miRNA在mRNA的CDS区或5’UTR区的靶位点,可以去收录CDS区或5’UTR区miRNA反应元件的数据库查询,或者通过生物信息学预测mRNA的CDS或5’UTR序列上的miRNA反应元件。
参考文献:
1.Yekta S, Shih IH, Bartel DP. MicroRNA-directed cleavage of HOXB8 mRNA. Science. 2004 Apr 23;304(5670):594-6. doi: 10.1126/science.1097434. PMID: 15105502.
2.Orom UA, Nielsen FC, Lund AH: MicroRNA-10a binds the 5'UTR of ribosomal protein mRNAs and enhances their translation. Mol Cell 2008, 30:460-471.
3.Tay Y, Zhang J, Thomson AM, Lim B, Rigoutsos I: MicroRNAs to Nanog, Oct4 and Sox2 coding regions modulate embryonic stem cell differentiation. Nature 2008, 455:1124-1128.
4.Zhang K, Zhang X, Cai Z, Zhou J, Cao R, Zhao Y, Chen Z, Wang D, Ruan W, Zhao Q, Liu G, Xue Y, Qin Y, Zhou B, Wu L, Nilsen T, Zhou Y, Fu XD. A novel class of microRNA-recognition elements that function only within open reading frames. Nat Struct Mol Biol. 2018 Nov;25(11):1019-1027. doi: 10.1038/s41594-018-0136-3. Epub 2018 Oct 8. PMID: 30297778; PMCID: PMC6219929.
同一个miRNA前体可能由于DROSHA和DICER选择性切割、外切核酸酶介导的miRNA末端缩短、通过核苷酸转移酶产生非模板化miRNA变体和miRNA编辑等原因而形成多种长度或序列不同的miRNAs异构体—isomiR。
影响miRNA长度和序列的酶
IsomiR生物发生
isomiRs具有的类型如下,典型的miRNA是miRNA数据库miRBase(https://www.mirbase.org/)中报告的成熟体序列,5' isomiRs和3' isomiRs分别表示在 5' 、 3' 端有长度变化的isomiRs;5' isomiRs会导致miRNA种子序列(2-8位)左移; 5' and 3' isomiRs表示5' 、3' 端都有核苷酸差异,A-I编辑表示isomiRs在第一个和最后一个核苷酸之间的多态异构体,除了成熟序列内的变化外,和典型序列具有相同的长度。最后是混合型 isomiRs,长度和序列均发生变化。由于长度和序列的变化可能导致种子序列的变化或不变化,因此IsomiRs与经典miRNA可以调节同一个靶标,也可以靶向不同的靶标,因此IsomiRs扩大了miRNA调节的范围。
isomiRs示例
虽然茎-环qRT-PCR已成为检测isomiRs最常用的商业技术,但是下一代测序(NGS)仍然是isomiR检测的首选方法,因为待检测序列的性质不会影响NGS检测的效率或特异性,但是isomiR的确会给miRNA的鉴定、定量和命名带来挑战。在下一章节我们会介绍,具有10多年miRNA测序服务经验的联川生物是怎么解决miRNA命名问题的。
Tomasello L, Distefano R, Nigita G, Croce CM. The MicroRNA Family Gets Wider: The IsomiRs Classification and Role. Front Cell Dev Biol. 2021 Jun 9;9:668648. doi: 10.3389/fcell.2021.668648. PMID: 34178993; PMCID: PMC8220208.
Fard EM, Moradi S, Salekdeh NN, Bakhshi B, Ghaffari MR, Zeinalabedini M, Salekdeh GH. Plant isomiRs: origins, biogenesis, and biological functions. Genomics. 2020 Sep;112(5):3382-3395. doi: 10.1016/j.ygeno.2020.06.019. Epub 2020 Jun 16. PMID: 32561347.
miRNA由于序列较短,在NGS测序中无论是SE50还是PE150模式均可以测通从而获得miRNA的实际序列,包含miRNA的标准参考序列(miRBase)和异构体isomiRs。那么我们如何命名这些isomiRs?
为了使得miRNA名称具有广泛的查询和使用价值,我们以miRBase命名为依据,提出了一套命名方式,同时体现经典miRNA以及isomiRs相对于经典miRNA的序列差异。
鉴定和新预测的miRNA命名规则参照miRBase官网blog中的What’s in a name(https://www.mirbase.org/blog/)。植物的物种拉丁名3字母缩写为-miR/MIR-编号,动物物种拉丁名3字母缩写为-miR/mir编号,miR表示的是miRNA成熟体,植物的前体使用MIR,动物的前体用mir,动物的miR/mir与编号之间没有中横线“-”。旧命名采用*来标记miRNA于其发夹前体互补配对位置的互补序列,现使用“-3p”与“-5p”作为区分这两条序列的后缀替代旧的的命名法。结果中部分使用mir/MIR-“p3”、“p5”来表示位于mir/MIR的臂端位置代表只与前体序列(mir/MIR)比对上,而与成熟体(miR)未比对上,与miR-3p/5p立刻被区分开来。全新的miRNA以PC(Predicted Candidate)标记,注明5p或3p臂端位置。
针对新鉴定到的miRNA,我们采用自己特有的miRNA命名方式,以期明晰miRNA在前体臂端位置和异构体形式,当同一条序列同时鉴定到两个miRNA异构体形式时,我们会全部采用。特有命名方式以hsa-miR-299-5p为例,说明如下:
在miRBase收录hsa-miR-299-5p序列如下:
>hsa-miR-299-5p:
UGGUUUACCGUCCCACAUACAU
miRNA测序检测到序列为(将T替换为U即为RNA序列):
TGGTTTACCGTCCCACATACAT
>hsa-miR-299-5p_R+1
TGGTTTACCGTCCCACATACATG
>hsa-miR-299-5p
TGGTTTACCGTCCCACATACAT
R+n表示在miRBase收录miRNA右端多出n个碱基
>hsa-miR-299-5p_R-1
TGGTTTACCGTCCCACATACA
>hsa-miR-299-5p
TGGTTTACCGTCCCACATACAT
R-n表示在miRBase收录miRNA右端少掉n个碱基
>hsa-miR-299-5p_L+1
GTGGTTTACCGTCCCACATACAT
>hsa-miR-299-5p
TGGTTTACCGTCCCACATACAT
L+n表示在miRBase收录miRNA左端多出n个碱基
>hsa-miR-299-5p_L-1
GGTTTACCGTCCCACATACAT
>hsa-miR-299-5p
TGGTTTACCGTCCCACATACAT
L-n表示在miRBase收录miRNA左端少掉n个碱基
>hsa-miR-299-5p_2ss5TC13CG
TGGTCTACCGTCGCACATACAT
>hsa-miR-299-5p
TGGTTTACCGTCCCACATACAT
2ss5TC13TA表示在第5个碱基T由C替换(ss,substitution,2ss表示有两个碱基替换),在第13个碱基C由G替换共计2个替换(2ss)。
在miRNA鉴定时还可以利用miRNA在物种间高度的保守性,在比对miRBase本物种收录成熟体和前体序列后,也可以比对miRBase收录其他物种(动物或植物)的成熟体和前体序列,以获得更广泛的参考信息。因此在人样本的miRNA鉴定分析中可能会出现mmu、rno开头的miRBase收录的其他物种miRNA的名称,这只是为了更广泛的参考miRBase收录信息,而不是人样本中检测出小鼠、大鼠的miRNA,只是在人样本中检测出与miRBase收录小鼠、大鼠miRNA相同或相似的序列,而这些序列目前没有在人中收录,相对于人而言是新鉴定的miRNA,但这些序列可能在其他物种中有收录或相关研究。总结而来,即本物种拉丁名开头的miRNA为已知miRNA及其异构体,而其他物种拉丁名开头的miRNA为新鉴定到的、在本物种和对应物种中保守的miRNA,对于没有在miRBase找到对于信息的为全新的miRNA,被冠以PC开头。
因此我们基于miRNA异构体、miRNA物种高度保守性并基于miRBase命名规则构建了新的miRNA命名规则,能体现实际检测序列、体现序列与标准序列差异。对于后续miRNA相关研究查询,比如hsa-miR-299-5p_2ss5TC13CG和hsa-miR-299-5p_R-1均可以使用hsa-miR-299-5p(hsa-miR-299、miR-299)去查询是否具有相关的研究,或者以hsa-miR-299-5p查询相关的数据库资源,而如果异构体改变了其种子序列,也可以基于实际序列直接预测异构体序列的靶基因及可能涉及的功能。
miRNA虽然只有22个左右核苷酸,却可以通过调控大量靶基因而在基因表达中扮演着重要的角色。那么我们如何预测miRNA调控的靶基因呢?下面介绍几个miRNA靶基因的预测和查询方法。
Targetscan(http://www.targetscan.org/vert_80/)收录了人(Human)、小鼠(Mouse)、大鼠(Rat)、牛(Cow)、狗(Dog)、鸡(Chicken)、青蛙(Frog)、负鼠(Opossum)、猕猴(RHesus)、黑猩猩(Chimpanzee)10种物种的靶基因信息,最新释放版本是8.0,为2021年释放。
RNA22(https://cm.jefferson.edu/rna22/Interactive)能预测miRNA的靶基因,能预测miRNA与mRNA、lncRNA、circRNA等的互作靶点。
RNAhybrid(https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid)是Behmsmeier M等基于miRNA和靶基因二聚体二级结构开发的miRNA靶基因预测软件。RNAhybrid预测算法禁止分子内、miRNA分子间及靶基因间形成二聚体,根据miRNA和靶基因间结合能探测最佳的靶位点。此外,RNAhybrid允许用户自定义自由能阈值及p值,也允许用户设置杂交位点的偏向,如杂交位点必须包含miRNA 5’端2-8nt等。
1.输入miRNA序列和靶序列(FASTA格式)
2.设置参数
(1)输入结果数目,表示输出MFE最小的几个结果(最小自由能值越小,代表结合位点结构越稳定)
(2)设置MFE阈值,即小于此值的结果,建议填写-20。当预测结果较少,可以填写-10
(3)设置种子序列的配对中不允许“G-U”配对
(4)结果显示格式,建议不勾选,否则结果合并为一行,不方便查看
(5)是否显示序列结合的结构图,当(1)中设置不大于5时,才可以显示
(6)设置某段序列必须配对,比如可以设置miRNA 5’端的2-8位碱基(种子序列)必须配对,在(3)处勾选,则此处需设置
(7)设置形成凸环和膨胀环的长度,填写0表示不允许有这些结构,可以不设置
(8)选择是否计算p值,选“nothing”即可
3.计算与结果显示
miRcode(http://www.mircode.org/index.php)增加了ncRNA和非3’UTR区的检索。输入基因名等信息可以查询互作的miRNA。
miRDB(http://mirdb.org)是用于miRNA目标预测和功能注释的在线数据库。miRDB中的所有目标都由生物信息学工具MirTarget预测,该工具是通过分析来自高通量测序实验的数千个miRNA-目标相互作用而开发的。与miRNA结合和靶点下调相关的共同特征已被确定并用于通过机器学习方法预测miRNA靶点。miRDB在五个物种中宿主预测的miRNA靶标:人类、小鼠、大鼠、狗和鸡。miRDB除了检索3’UTR区外,还能搜索编码区和5’UTR区,以及对给定序列进行匹配。
Starbase(https://starbase.sysu.edu.cn/)分析平台用于分析从TCGA项目整合的32种癌症类型的相关数据,数据类型包括lncRNAs,miRNA,snoRNAs,mRNA,circRNA等等,提供了miRNA-lncRNA、miRNA-假基因、miRNA-sncRNA和miRNA-mRNA相互作用的泛癌网络,也提供了CLIP-seq实验验证的RBP-lncRNA、RBP-假基因和RBP-mRNA相互作用的泛癌图谱。由于收录的信息比较广泛,因此在不同组学的数据挖掘中都可以使用到Starbase数据库。
另外Starbase提供mRNA降解组测序(degradome sequencing)数据支持的植物miRNA靶标数据库和基于mRNA降解组数据预测miRNA靶标的网页版工具。
miRTarBase(https://miRTarBase.cuhk.edu.cn)已经积累了超过36万条miRNA-靶标相互作用(MTI), 通常收集的MTI通过了报告分析、蛋白质印迹、芯片和二代测序实验进行实验验证。自miRTarBase数据库于2011年首次亮相以来,miRNA与靶基因相关信息的数据库不断更新,目前更新至9.0,2021年9月释放,该数据库已经收录了超过13000篇关于miRNA-靶标相互作用的实验支持文章,涉及37个物种。miRTarBase支持在线检索,也支持下载相关MTI数据集进行本地筛选。
TarBase收录各种实验验证过的miR-Target数据(只要是人和小鼠的靶基因信息),TarBase将实验证据分为low和high两类,low代表的是传统的实验手段,可靠性相对于高通量测序的分析结果更高一点,我们可以筛选low方法支持的miRNA靶基因信息,得到高质量的miRNA候选靶基因集。TarBase只提供在线检索,可以输入miRNA名称和/或基因名称,miRNA名称为miRBase数据库格式,基因名称支持gene symbol(基因名)和ensembl gene ID。TarBase网址为:
https://carolina.imis.athena-innovation.gr/diana_tools/web/index.php?r=tarbasev8%2Findex
PsRNATarget(https://www.zhaolab.org/psRNATarget/)是一个网页版的植物miRNA靶基因预测工具,由Submit small RNAs,Submit target candidates,Submit small RNAs and targets三个模块构成,其中Submit small RNAs and targets可用于自有非模式生物的miRNA分析。
psRobot(http://omicslab.genetics.ac.cn/psRobot/target_prediction_1.php)是网页版植物小RNAs靶位点预测工具,可以基于新发现或已经发表的小RNAs,预测指定物种转录本中的靶位点。psRobot也可以在使用本地部署实现大规模的植物miRNA靶基因预测。
OmicStudio是联川生物自主开发的在线绘图与分析平台,包含众多绘图与分析工具。靶基因预测云分析(https://www.omicstudio.cn/analysis/targetGene)模块聚焦miRNA的靶基因预测以及靶基因的GO、KEGG富集分析,在预测miRNA靶基因的同时,也可以实现对靶基因的富集分析,预测miRNA可能涉及的生物学过程或KEGG通路。靶基因预测云分析提供基于miRanda和TargetScan的动物模式和基于PsRobot和GSTAr的植物模式预测miRNA的靶基因和靶点(均为本地脚本分析)。需要注意的是TargetScan和PsRobot也提供了网页版的分析或查询工具,与OmicStudio的分析结果可能稍有区别,原因可能是内置背景库、软件默认截止值等导致的。
OmicStudio靶基因预测云分析主要为中文界面,界面简洁,对于绝大部分情况仅输入miRNA序列(支持文本格式、FASTA格式和Excel格式上传)即可预测其靶基因并完成对靶基因的富集分析,单次最多可以对500个miRNA同时进行靶基因预测,适合批量预测miRNA靶基因。结果可以打包下载预测结果,方便后续进行进一步的数据筛选、功能网络图构建或者与其他网站预测结果联合筛选,得到可靠性更高的miRNA靶基因预测结果。
在靶标文件来源部分,可以选择已有库,包括所有模式动植物数据库和部分非模式物种数据库。对于模式物种,支持选择不同来源,比如Ensembl或NCBI数据库。同时在上传靶标文件模块,也支持上传其他自定义序列,比如动物mRNA的CDS、5UTR序列、lncRNA序列、circRNA序列,从而分析目标lncRNA、circRNA上的miRNA识别元件(建议提交自定义序列数目较少时可以选择两款软件并集)。
提交Excel格式的miRNA序列
OmicStudio靶基因预测云分析相对于其他工具在物种数据库更新上具有优势,在页面问题反馈部分可以提交需要添加的物种,维护人员可以添加相关库方便相关研究物种人员预测miRNA可能的靶基因。
靶基因预测云分析参数界面
已有库选择界面
因为同时包含大部分动物和植物的背景库,对于分析miRNA靶基因物种保守性、植物miRNA跨界调控、动物中的miRNA介导的mRNA切割都是非常好用的工具。
miRNA-靶基因互作表格
miRNA靶基因KEGG富集分析结果表
miRNA靶基因KEGG富集分析气泡图
总结:miRNA靶基因预测是研究miRNA调控功能的重要分析内容,市面上有很多miRNA靶基因预测或查询工具(不仅限于上述介绍的),但是建议选择2-3个工具分析即可,选择1款软件的预测结果进入后续实验验证也是可行的(不建议选择多年没有更新维护的数据库)。如果需要预测miRNA在动物中的靶基因,可以使用OmicStudio靶基因预测云分析;如果需要预测miRNA在植物中的靶基因,可以联合使用OmicStudio靶基因预测云分析(基于PsRobot)和psRNATarget。
基础篇:5000字带你了解lncRNA测序 | 转录调控专题
干货:转录组生信分析流程大比拼,你pick哪一款 | 转录调控专题
所见即所得,绘图高规格联川云平台,让科研更自由