近100分的Nature顶级子刊重磅综述揭秘这个研究热点!快收藏!
解螺旋公众号·陪伴你科研的第2950天
近百分重磅综述
本文首发于君莲书院,扫码入群抢先体验,第一时间学习前沿热点,高分综述。
非编码RNA在近几年最为火爆,从miRNA到lncRNA,再到circRNA,一直都是热潮。今天我们就来回顾一下lncRNA的基因调控和生物学功能。
该综述由中科院陈玲玲教授和西班牙纳瓦拉大学Maite Huarte教授为共同通讯作者于今年2月份发表在Nature Review. Molecular Cell Biology期刊(最新影响因子为94.444分)上,截至10月23日该文已被引用147次(数据来源:PubMed)。
作者指出过去十年积累的证据表明,长非编码RNA(lncRNAs)广泛表达并在基因调控中发挥关键作用。最近的研究已经开始揭示lncRNAs的生物发生与mRNAs的不同之处,并与其特定的亚细胞定位和功能相关。lncRNAs根据其定位及其与DNA、RNA和蛋白质的特异性相互作用,可以调节染色质功能,调节无膜核体的组装和功能,改变细胞质mRNAs的稳定性和翻译,干扰信号通路。其中许多功能最终会在不同的生物学和生理病理学环境中影响基因表达。组织特异性和条件特异性表达模式表明lncRNAs是潜在的生物标记物,并为临床靶向它们提供了理论依据。在这篇综述中,研究人员讨论了lncRNA的生物发生机制、在转录、转录后和其他基因调控模式中的定位和功能,以及它们潜在的治疗应用。现在就让我们来一起看看吧。
前言
基因组被广泛转录并产生数千个lncRNAs,它们被定义为长度超过200个核苷酸的RNA,不能翻译成功能性蛋白质。这一宽泛的定义涵盖了一个巨大且高度异质的转录物集合,这些转录物在其生物成因和基因组起源上存在差异。来自人类基因编码的统计数据表明,人类基因组包含16000多个lncRNAs,但其他估计超过100000个人类lncRNAs。这些主要包括RNA聚合酶II(Pol II)转录的lncRNAs,也包括其他RNA聚合酶转录的lncRNAs;基因间区的lncRNAs(lincRNAs)以及与其他基因重叠的正反义转录本。由此产生的lncRNAs通常在其5′端被7-甲基鸟苷(m7G)封端,在其3′端被聚腺苷酸化,并与mRNAs类似地拼接(图1a)。值得注意的是,增强子和启动子区域也分别转录成增强子RNA(eRNA)和启动子上游转录本。
功能性lncRNAs的数量仍有争议。尽管仍缺乏证据支持大多数lncRNAs的功能,从而使其成为转录副产物,但有充分证据表明,越来越多的lncRNAs具有重要的细胞功能。大量lncRNAs的表达受到调控,其中一些在不同的基因调控机制中发挥作用。一些lncRNAs通过影响附近基因的转录来控制其表达,也影响染色质生物学的其他方面,如DNA复制或对DNA损伤和修复的反应。
其他lncRNAs的功能远离其基因座;它们的功能可能具有结构性和/或调节性,涉及mRNA生命的不同阶段,包括剪接、转换和翻译,以及信号通路。因此,lncRNAs影响一些具有重大生理相关性的细胞功能,其表达的改变是许多疾病固有的。这些功能性lncRNAs的特异性表达模式有可能被用作最佳的疾病生物标志物,目前正在开发其治疗靶向性策略。
在这篇综述中,我们讨论了lncRNAs生物学中新出现的主题,包括它们的生物发生及其在转录和转录后水平的顺式和反式调节功能的最新理解。然后,我们讨论lncRNAs失调在神经元疾病、造血、免疫反应和癌症中的病理后果。最后,我们讨论了lncRNAs的现有知识如何允许基于lncRNAs的治疗靶向性的发展。
IncRNAs的生物发生
大多数lncRNAs由Pol II转录。因此,许多具有5′端m7G帽和3′端聚(A)尾,并且被认为与mRNAs类似地转录和处理。然而,最近的研究已经开始揭示lncRNAs的不同转录、加工、输出和转换,这些与它们的细胞命运和功能密切相关。
1
IncRNAs的转录与加工
与mRNAs相比,更大比例的lncRNAs定位于细胞核,这就提出了一个根本问题,即是什么驱动了它们的差异定位。对lncRNAs和mRNAs的整体特征的解剖表明,lncRNAs在进化上不太保守,包含较少的外显子,表达较少。早期研究表明,lncRNA可能比mRNAs包含更少的外显子。最近开发的RNA捕获长序列能够更好地注释lncRNAs的全长,包括它们的5′端,显示与mRNAs的长度差异很小,尽管lncRNAs包含更少和更长的外显子。单细胞测序发现一些lncRNAs可以在人类新皮质中大量表达。
尽管lncRNAs的低表达可能与其基因启动子处存在抑制性组蛋白修饰有关,但它们的转录模式可能部分解释了它们的一些其他独特特征。Pol II羧基末端结构域的磷酸化状态对应于不同的转录阶段,并且相当一部分lncRNAs由磷酸化失调的Pol II12转录。这种lncRNAs似乎是弱共转录剪接的,并且这些基因的转录终止与多聚腺苷酸化信号无关,导致lncRNAs在染色质上的时间积累,随后被RNA外显子快速降解(图1b)。
这些发现提供了lncRNAs经常是核定位的见解,并表明功能性lncRNAs必须逃避这种核监视过程,才能在特定类型的细胞中高水平积累。然而,染色质栓系的lncRNAs可能并不总是核监测过程的目标。一些染色质定位的lncRNAs含有高水平的U1小核RNA结合位点,它们将U1小核核糖核蛋白(U1 snRNP)招募到转录参与的Pol II,导致许多非编码RNA与染色质相连(图1c)。
当Pol II相关延伸因子SPT6的功能被取消时,染色质上可能出现某些lncRNAs的积累。SPT6的缺失导致组蛋白H3在Lys36处三甲基化(H3K36me3;活跃转录的标记)从蛋白质编码基因重新分布到lncRNA,从而增加其转录。同时,SPT6缺失会损害转录终止整合复合物向染色质的补充,导致染色质上长的非编码转录物以DNA损伤相关R-环的形式累积。
总的来说,lncRNAs的拼接效率低于mRNAs。它们的内部剪接信号较弱,3′剪接位点与分支点之间的距离较长,这与增加的核保留有关(图1d)。
其他因素,如某些剪接调节因子的差异表达,也有助于细胞核中lncRNAs的积累。例如,在小鼠胚胎干细胞(mESCs)中,高表达的剪接抑制剂肽基脯氨酰异构酶E抑制lncRNAs子集的剪接,导致mESCs中许多lncRNAs的显著核积累(图1e)。
lncRNAs内的替代多聚腺苷酸化信号也可能调节其亚细胞定位。例如,lncRNA CCAT1产生两种异构体:长异构体(CCAT1-L)是核的,包含一个内部多聚腺苷酸化位点,对应于短异构体(CCAT1-S)的3′端,即细胞质。
除了lncRNA转录和加工的这些一般特征外,lncRNA通常包含嵌入序列基序,可以招募某些核因子,从而促进lncRNA的核定位和功能(图1e)。
例如,lncRNA MEG3包含一个与U1 snRNP相关的356核苷酸核保留元件,而U1 snRNP又将MEG3保留在细胞核中。重复元素也可能在驱动lncRNA核滞留中发挥作用。最近使用高通量大规模平行RNA分析(MPRNA)的研究发现了一个源自Alu重复序列的富含C的序列,该序列可通过与核基质蛋白异质核核糖核蛋白K(hnRNPK)的关联促进lncRNAs的核保留(图1e)。
其他重复也可以指导lncRNAs的核定位。例如,lncRNAs功能性基因间重复RNA元件(FIRRE)包含许多独特的重复,长度从67到804 bp不等 ,称为重复RNA结构域(RRD),通过与hnRNPU相互作用建立FIRRE染色质定位。
总之,lncRNAs的核定位和命运在多个层面上受到协调调控,从转录和加工到核输出,通过顺式中的多个序列基序和反式中的因子。除了与染色质相连外,一些核保留的功能性lncRNAs特别定位于无膜核结构域(见下文)。尽管这种类型的最具代表性的lncRNAs是通过不寻常的生物发生途径处理的,但在特定的核结构域中捕获这种lncRNAs的分子机制仍然基本未知。尽管如此,鉴于lncRNAs的不同形式、大小和功能(表1),有必要开展更多的工作来剖析控制lncRNAs不同核定位模式的机制的区别和共性。
2
IncRNAs向胞质的输出
大部分lncRNAs被输出到细胞质中;这些lncRNAs可能与mRNAs具有相同的加工和输出途径。事实上,最近的一项研究表明,含有一个或只有几个外显子的长的和富含A/U的转录物依赖于NXF1途径进行输出。与mRNAs相比,lncRNAs的外显子较少,因此它们优先利用这种输出途径。到达细胞质后,lncRNAs可能经历特定的分类过程,将不同的lncRNAs分配给特定的细胞器或分布在细胞质中,并与不同的RNA结合蛋白(RBPs)相关(图1f)。
据估计,70%的细胞质lncRNAs中有一半是在多糖组分中发现的。某些顺式元件有助于lncRNAs与核糖体的定位,例如长的“伪“5’非翻译区,之所以称为它,是因为它们位于lncRNAs中的“伪开放阅读框”之前(图1g)。核糖体相关lncRNAs的降解可能由翻译依赖机制触发。核糖体相关的lncRNAs是否由核糖体参与翻译、在翻译中起作用或惰性地存在于核糖体中尚不清楚。
对人类线粒体转录组的分析表明,从细胞核输出的lncRNAs可分类为线粒体。线粒体RNA加工内核糖核酸酶(RMRP)的RNA成分与细胞核中的RBP HuR相关,并通过出口蛋白1出口到细胞质中。一旦RMRP到达线粒体,它就被富含G的RNA序列结合因子1(GRSF1)结合并稳定,从而允许其在线粒体基质处累积(图1h)。
人类血液外显子的RNA测序表明,它们包括许多lncRNAs。目前仍不清楚lncRNAs是如何分类为外显子的,但其机制可能涉及RBPs与特定序列基序的结合(图1i)。考虑到越来越多的细胞质lncRNAs在调节mRNA稳定性、翻译和信号传导途径中起着重要作用(见下文),研究每个功能性lncRNAs是如何被护送到其功能位点的是很重要的。我们目前对lncRNAs生物学这方面的理解仍然非常有限。
IncRNAs的基因调控
基因表达由lncRNAs在多个水平上调节。通过与DNA、RNA和蛋白质相互作用,lncRNAs可以调节染色质的结构和功能以及邻近和远处基因的转录,并影响RNA的剪接、稳定性和翻译。此外,lncRNAs参与细胞器和核凝聚物的形成和调节。
1
染色质调节
在全基因组范围内检测RNA-染色质关联,结合染色质构象捕获技术,揭示了染色质结构和基因表达的复杂lncRNAs调控。虽然这些lncRNAs介导的调节机制应该单独探讨,但RNA具有内在的调节潜力。RNA的负电荷可以中和带正电的组蛋白尾部,导致染色质去紧密,因此RNA介导的染色质打开和关闭可能作为基因表达的快速开关。从机制上讲,顺式和反式作用的核lncRNAs都与DNA建立相互作用,以改变染色质环境,有时是通过它们对可与RNA和DNA结合的蛋白质的亲和力间接实现的,在其他情况下是通过以序列特异性方式结合DNA实现的。
1)蛋白质–lncRNA在染色质上的定位和功能
许多lncRNAs定位于染色质上,在染色质上它们可以与蛋白质相互作用,促进或抑制它们在目标DNA区域的结合和活性(图2a,b)。此外,蛋白质辅助的长程染色质相互作用,如CCCTC结合因子(CTCF)介导的染色质相互作用,也可以作为lncRNAs对靶基因直接转录效应的促进剂。尽管lncRNA与染色质因子的结合引起了人们极大的兴趣,但在评估这种相互作用时应谨慎,在这些研究中应采用严格的方法。此外,特定lncRNAs与其相互作用的因子相关的表达水平可以确定lncRNAs对靶向染色质的影响程度。
多梳抑制复合物2(PRC2)结合和跨靶向染色质扩散已被特别描述为由若干lncRNAs促进,在某些情况下通过特征良好的序列元件。这种类型的相互作用可以顺式和反式发生,lncRNA ANRIL的情况就是如此,它介导PRC1和PRC2向其相邻CDKN2A和CDKN2B基因的启动子募集,从而控制其表达并调节细胞衰老。
此外,ANRIL还可以通过Alu序列反式作用,从而促使ANRIL将PRC1和PRC2蛋白招募到远处的靶点。尽管PRC2需要RNA与染色质有效结合,但鉴于PRC2与RNA结合的低特异性,lncRNAs在PRC2染色质靶向中的作用仍存在争议。其中一个例子是关于反式作用的lncRNA HOTAIR在招募染色质修饰复合物以抑制远端HOXD基因方面的争议,这一点已在别处详细描述。
其他因素可能参与调节lncRNA介导的PRC靶向。例如,在小鼠身上进行的广泛研究表明,hnRNPK和其他染色质相关因子与X-非活性特异转录物(Xist)和印迹基因组位点上的其他lncRNAs相互作用,如Kcnq1ot1和IGF2R非蛋白编码RNA(Airn)的反义促进多梳复合物在不同染色质区域的传播。转录因子,如广泛表达的YY1,也能够将lncRNAs结合的染色质修饰物和其他新生RNA靶向特定的基因组位点。
除了基因沉默因子外,lncRNAs还可以招募染色质修饰剂来促进基因激活。lncRNA HOTTIP是调节HOXA基因簇的几个lncRNAs之一——它通过染色质环在簇的5′区域结合几个HOXA基因,其表达有助于维持该区域的染色质组织。HOTTIP将WDR5–髓系/淋巴系或混合系白血病(MLL,也称为KMT2A)组蛋白甲基转移酶复合物驱动至基因启动子,从而通过H3K4me3促进基因表达,并作为小鼠造血干细胞的重要调节因子(图2a)。
最后,lncRNAs可以充当诱饵,而不是招募染色质修饰剂。p53调控的lncPRESS1是一种多能性相关的lncRNA,作为脱乙酰基酶sirtuin 6的诱饵,抑制多种多能性基因,从而促进分化。在人类胚胎干细胞(HESC)中,lncPRESS与sirtuin 6相互作用,并将其从染色质中分离,从而在Lys56(H3K56ac)和H3K9ac处维持多能性相关基因的转录允许H3乙酰化(图2b)。
2)lncRNAs与DNA的直接相互作用
lncRNAs的一个基本特征是它们有可能与DNA产生杂交结构,从而影响染色质的可及性。这种相互作用可以采取三联体或R环的形式。由于难以在体内检测到这两种结构,因此这两种结构的实际患病率仍然未知。然而,三联体和R环的形成可能是许多lncRNAs调节活性的广泛和必要的。
RNA–DNA–DNA三联体被认为是介导基因沉默或激活的非编码RNA–DNA相互作用的一个例子。形成三联体的可能性主要取决于RNA序列。最近,TrIP-seq(靶向RNA免疫沉淀测序)已被开发用于研究三联体形成序列。三联体介导的基因调控的一个例子将lncRNA的功能与eRNA在邻近原癌基因鞘氨醇激酶1(SPHK1)激活中的作用联系起来。为了响应细胞增殖信号,lncRNA KHPS1在SPHK1增强子上游形成一个三联体,这有助于招募染色质修饰剂,激活eRNA-SPHK1的转录并促进SPHK1的表达。值得注意的是,通过将KHPS1三联体形成区与MEG3三联体形成区交换,使KHPS1将其特异性转换为MEG3靶基因,进一步显示了三联体在驱动基因调控中的作用。
一种更广泛研究的lncRNA与染色质相互作用模式发生在R环上。长期以来,R环一直被认为是对基因组稳定性的威胁。然而,R环的瞬时性质使其成为理想的调节中枢,最近的研究结果表明,它们作为基因表达的调节器和DNA修复的协调者,需要重新评估(框1)。
一些lncRNAs通过识别这些结构的蛋白质,在R环的背景下调节基因表达,从而产生广泛的结果(图2a)。
在MESC中,lncRNA TARID在TCF21基因富含CpG的启动子处生成R环,该启动子以相反方向转录。GADD45A识别并结合TCF21启动子处的R环,招募DNA去甲基化因子TET1,导致TCF21的转录激活(图2c)。
尽管许多R环形成的lncRNAs在顺式中起作用,但这些R环也可以在反式中产生,以调节蛋白质编码基因的表达。例如,作为广泛调控生长素反应基因的一部分,lncRNA-APOLO能够在拟南芥中形成反式R环(图2c)。
2
转录调控
lncRNA与其相邻基因之间的相对位置是其调控关系的关键决定因素。由于发现广泛的反义和双向lncRNAs转录在进化上是保守的,lncRNAs的非随机基因组分布可能代表基因的进化适应,以特定于上下文的方式调节自身的表达。例如,不同lncRNAs的基因组排列是cis82基因调控的关键。这种调节可由两种主要的非互斥机制介导:lncRNA转录物可调节相邻位点,和/或lncRNA的转录或剪接行为可产生染色质状态或空间障碍,影响附近基因的表达。因此,需要解释几个正交函数损失和函数增益实验,以识别lncRNA功能的这些可能模式。
1)lncRNAs的基因沉默
lncRNAs介导的最著名的基因抑制机制与基因剂量补偿有关。这种功能的主要代表是lncRNA XIST,它负责雌性哺乳动物细胞中X染色体的失活。在胚胎发育过程中,XIST分子扩散到两条X染色体中的一条,导致其大部分基因沉默。XIST能够沉默大的染色体区域,即使它是从不同的染色体体异位表达的。蛋白质相互作用子的复杂相互作用导致XIST介导的基因沉默。
此外,mESCs的一项研究表明,Xist对X染色体的快速包衣取决于lncRNA利用3D染色质组织的能力,这使其能够从空间上接近其基因座的位点传播到遥远的基因座,而它通过与染色质修饰剂的相互作用来修饰目标染色质结构。这赋予XIST在形成失活X染色体的3D结构中的作用,这一过程一旦启动,即使在缺少XIST的情况下也会持续,从而确定lncRNAs作为表观遗传记忆启动子的作用,在X染色体失活的后期,由XIST招募到染色质的蛋白复合物维持。
在其他基因座上,顺式作用的lncRNAs可通过直接或间接与靠近其转录位点的染色质相互作用,促进染色质的非活性状态。例如,lncRNA ANRASSF1在顺式结构中形成的R环将PRC导向其目标,以调节基因表达。在拟南芥中,低温在开花位点环境诱导的lncRNA COOLAIR在其转录位点徘徊,并覆盖该位点以促进PRC2依赖的H3K27me3。
lncRNAs可以通过干扰转录机制来抑制基因表达,从而导致转录因子或Pol II在被抑制启动子处的募集发生改变,组蛋白修饰发生改变和染色质可及性降低。这组调节因子的一个例子是小鼠印记的lncRNA Airn,它决定了mESC分化过程中等位基因特异性表达的开始。来自父系等位基因的Airn转录导致Pol II从重叠的Igf2r启动子移位,导致转录暂停和基因沉默(图3a)。
lncRNA调节广泛转录干扰的另一种机制是位于染色质重塑器CHD2基因上游的保守lncRNA CHD2相邻抑制性调节RNA(Chaserr)。Chaserr缺失增加了Chd2启动子以及其他几个启动子的可及性,这些启动子均受Chd2调控。在Chaserr突变小鼠模型中,Chaserr对Chd2的等位基因特异性证实了Chaserr在cis中的严格功能。有趣的是,CHD2结合新生RNA,包括Chaserr,并促进其表达。CHD2和Chaserr的相互调节代表了一个调节反馈回路,其中CHD2使用Chaserr作为CHD2水平的传感器来调节其自身的表达。
2)在增强子处转录的lncRNAs
活性增强子可以转录成两种主要的非编码RNA:eRNAs和增强子相关的lncRNAs(elncRNAs)。这两组转录本的主要区别在于它们的特征:eRNAs是相对较短的双向封顶转录本,通常为无片段、非聚腺苷酸化和不稳定的。相比之下,elncRNAs大多是单向、多聚腺苷酸化和拼接的。这两种转录本类型之间的区别并不总是明确的,它们在文献中可能会混淆。尽管增强子活性和eRNAs表达之间的相关性已经很好地确定,但eRNAs转录本本身是否具有功能仍在争论中。然而,一些eRNAs在功能上与基因表达有关。除了通过预先存在的染色质构象发挥作用(图3b),
一些eRNAs还可以通过与支架蛋白(如介体或染色体复合体的结构维持)相互作用促进或直接驱动染色质循环。这些相互作用在增强子和启动子之间产生调节性接触,这些增强子和启动子可以定位在可相隔数个兆基的位置(图3c)。
一些增强子位点产生elncRNAs,其表达与其增强子元件的表达相关。值得注意的是,elncRNAs剪接与相关增强子的活性呈正相关,并与邻近蛋白质编码基因的丰度呈正相关。此外,elncRNAs可以与染色质调节蛋白协同调节染色质的结构和拓扑结构。描述eRNAs功能的基因激活机制也可以定义elncRNAs的功能(图3b,c)。
elncRNAs的基因激活通常导致与人类疾病相关的复杂表型。lncRNA SWIGN位于包括其目标基因GAS6的拓扑结合域的边界。SWIGN促进SWI/SNF染色质重塑复合物与GAS6转录起始位点之间的相互作用,但也促进与恶性表型相关的其他远距离位点之间的相互作用,解释其致癌作用。此外,一些lncRNAs能够促进包含许多位点间相互作用的基因组结构域的形成,如lncRNAs ESR1位点增强和激活非编码RNA(ELEANORs)。与其他类似作用的lncRNAs一起,这些转录物是转录如何调节基因组隔间的形成以驱动基因表达的例子。
如上所述,应当认为lncRNAs能够以转录本无关的方式激活基因表达,从而增加了其基因调节功能解释的复杂性。例如,嵌入lncRNAs基因座的功能性DNA元件可以激活邻近基因的表达。lncRNA Bendr通过Bendr中的增强子元件(其转录激活)顺式调节其相邻基因Bend4。Bendr启动子的缺失,但不在Bendr第一外显子中插入早熟poly(A),抑制了Pol II对BEND4启动子的占用(图3d)。其他lncRNAs在激活近端增强子方面也有类似的作用。
3)涉及顺式作用lncRNAs的调控网络
越来越清楚的是,lncRNAs对cis的调控不仅取决于lncRNAs对邻近基因的一对一效应。lncRNAs是复杂调控单元的一部分,其中蛋白质编码基因的表达可能由两个或多个lncRNAs以及转录依赖和转录非依赖机制的协同活动调控。其中一些单位作用于基本发育基因或在维持正常和过度增殖过程之间平衡方面具有重要功能的基因座。
Hand2基因编码心脏发育所必需的转录因子,其中剂量失衡可导致严重畸形。在Hand2附近发现了两个lncRNAs位点,它们通过不同的机制调节其表达(图3e)。
这些lncRNA基因在小鼠中的缺失会导致胚胎死亡。其中一个lncRNAs,Upperhand由一个双向启动子转录,与Hand2启动子不同。一项通过将Hand2和Upperhand敲除杂合子小鼠杂交,分析Upperhand缺失对Hand2的影响的研究表明,Upperhand控制着cis118中Hand2的转录。此外,在Upperhand转录起始位点下游插入多聚腺苷酸化信号(从而取消转录)会影响Hand2的表达,而Hand2的表达不受成熟Upperhand转录物缺失的影响,这也证明了Upperhand以转录依赖但转录独立的方式控制着顺式构象中的Hand2。
另一项研究报告了从三种不同的敲除小鼠模型中获得的关于Upperhand缺失结果的部分相互矛盾的数据,其中对Hand2表达的影响更为微妙。然而,在这两项研究中,Upperhand表达的改变导致与Upperhand介导的Hand2调节相关的强烈心脏异常。需要更多的研究来全面揭示Hand2和调控Hand2的lncRNAs之间的复杂相互作用(图3e)。
lncRNA Handsdown位于Hand2下游几千碱基处,在CTCF121介导的预成形染色质环内抑制Hand2的表达。这一调控机制涉及小鼠胚胎心肌细胞中Hand2基因上游调控元件和Handdown启动子之间的环介导相互作用,因此Hand2激活变得不可用(图3e)。Upperhand和Handsdown举例说明lncRNAs如何协同作用来微调基本基因的表达。
另一种调节可能性是lncRNAs转录本和基因座的功能是不耦合的,并促进相反的结果。lncRNA HOXA上游非编码转录本(VEUNT)的位点包含激活HOXA基因表达的增强子。相比之下,Haunt转录本充当嵌入其自身基因座的增强子的诱饵,从而抑制HOXA基因的表达。这些相反的结果与阻止HOXA异常表达有关。
总之,几个相互依赖的因素成为lncRNAs功能的关键调节因子:lncRNAs和靶基因的相对位置,共同转录RNA–DNA和RNA–蛋白质相互作用的形成,以及调节作用是由lncRNAs转录物还是由其转录物介导。这些因子的细胞特异性共存决定了单个lncRNA的调节潜力。
3
脚手架和凝聚物中的作用
核凝聚物是一种无膜RNA——参与许多细胞过程的蛋白质隔间。由于其支架或调节活动,一些丰富的lncRNAs对于不同核凝聚物的组装和功能至关重要。
lncRNA NEAT1是副小分子复杂组织和功能的基础(图4a)。
NEAT1基因产生两种亚型,它们共享一个共同的5′端,但有不同的3′端。NEAT1的长度到底是如何组装到副微粒的球形核心中的,目前尚不清楚。未来对NEAT1关键结构模块的解剖应有助于获得NEAT1脚手架和凝聚物的力学见解。然而,有趣的是,全局RNA结构图显示NEAT1 long可能不包含长程分子内相互作用和结构。
lncRNA MALAT1可能是大多数培养细胞中最丰富的lncRNA。它特异性定位于核斑点,在mRNA前体剪接和转录中发挥重要作用,并参与癌症进展和转移。尽管MALAT1与许多蛋白质相互作用,但MALAT1的缺失并不影响核斑点的形成,而是导致其成分的缺陷。每个核斑点是一个多层隔室,其中核斑点蛋白如剪接因子SON和SC35(也称为SRSF2)位于中心,MALAT1位于外围(图4b)。
MALAT1这种独特的结构如何促进核斑点的形成和功能还有待研究。与NEAT1不同,MALAT1形成许多长程结构,这些结构可能与不同RBP和前mRNA的多价相互作用有关。
最近开发的RNA原位构象测序(RIC-seq)的应用表明,MALAT1作为许多高表达RNA的RNA枢纽发挥作用。例如,一项高置信度NEAT1–RNA相互作用分析表明,NEAT1的5′区与MALAT1在反式结构中相互作用。RIC-seq还揭示了U1小核RNA和MALAT1之间的多个相互作用位点),这也是通过补骨脂素分析RNA相互作用和结构发现的(图4b)。
鉴于MALAT1在核斑点中的周边定位,了解MALAT1的RNA中枢功能是如何在核斑点表面实现的将是有趣的。这些研究揭示了一个复杂的调控网络,可以通过进一步剖析MALAT1的结构模块及其支架不同RBP的功能来揭示。
lncRNA介导的基因调控的支架性质也通过小核仁RNA相关的lncRNAs和SPA来说明,它们是由Prader–Willi综合征(PWS;一种神经发育障碍)染色体15q11–13的最小缺失产生。尽管来自PWS患者的诱导多能干细胞明显缺乏这些lncRNAs,但它们在正常人胚胎干细胞中大量表达并以顺式聚集,并分离超过1%的每个测试剪接因子,包括RBFOX2、TDP43和hnRNPM(图4c)。
重要的是,缺乏PWS相关lncRNAs的人胚胎干细胞表现出选择性剪接模式的改变以及与神经元功能相关的前mRNA的蛋白结合。类似地,在核周区中也发现了通过lncRNAs和RBPs之间的多价相互作用对PNCTR的基因调控(图4d)。
PNCTR是由核糖体DNA基因间间隔区产生的一种短的、串联重复序列丰富的RNA,它在癌细胞中高度表达,是肺癌细胞生存所必需的。这种lncRNA含有数百个PTBP1结合基序,因此将PTBP1隔离到核仁周围隔室,并抑制其在核质其他部位的剪接活性。总之,这些研究表明lncRNAs和RBPs之间的多价结合是调节疾病特异性选择性剪接的有效机制。
核应力体是另一种核凝聚物。它们的形成需要热休克转录因子1和异质性lncRNAs高度重复卫星III(HSATIII)在高温和化学应激条件下的转录。HSATIII lncRNAs在其转录位点累积,隔离支架附着因子B、富含丝氨酸和精氨酸(SR)的蛋白质和转录因子,并将它们组装成核应激体。HSATIII lncRNAs被提出通过调节SR蛋白的磷酸化来促进数百个mRNAs的内含子保留。在热休克和其他应激下,基因间间隔区RNA也发现了类似的lncRNA诱导的应激体。
除了在核凝聚物上作为蛋白质和RNA的脚手架外,lncRNAs还可以使不同的染色体在核区域接近。FIRRE由许多从X染色体转录的RNA变体组成;它与核基质因子hnRNPU相互作用,通过其脚手架功能维持核结构域(图4e)。
在小鼠中,通过表达转基因Firre RNA,Firre缺失引起的基因表达变化可以部分挽救,这表明它在反式中具有功能。事实上,Firre定位于X染色体以及小鼠第2、9、15和17号染色体上其基因座附近,并作为染色体支架lncRNAs在反式中发挥作用(图4e)。这种lncRNA锚定的染色体间结构是否是相分离的仍有待确定。
4
转录后调控中的作用
除了在转录调节和核组织中的作用外,lncRNAs还控制着基因表达的其他几个方面,一些lncRNAs甚至被翻译成功能肽。然而,作为真正的非编码RNA,lncRNAs主要通过其与蛋白质和核酸建立相互作用的能力发挥作用(图5)。在这里,我们强调了lncRNAs作为转录后、翻译和翻译后调节器的许多不同模式。
1)lncRNA-蛋白质直接相互作用的模式
lncRNAs通过其与RNA序列基序或结构的结合来隔离蛋白质,形成特定的lncRNA-蛋白质复合物(lncRNPs),从而参与转录后调节,导致mRNA剪接和转换的改变,在某些生物学背景下,还参与信号通路的调节(图5A)。丰富的lncRNAs,如上述PWS区域(图4c)和PNCTR(图4d)中的小核仁RNA相关的lncRNAs和SPAs,包含序列不同剪接因子的基序簇,包括UGCAU和GCAUG基序,它们由RBFOX2结合,UG丰富的序列由TDP43结合以及与PTBP1结合的YUCUYY和YYUCUY基序,从而抑制含有相同基序的前mRNA的剪接(图5A)。
lncRNAs介导的剪接调控的其他机制包括lncRNAs调节剪接因子的翻译后修饰,通过与靶前mRNA形成RNA-RNA杂交抑制剪接,以及通过染色质重塑微调靶基因剪接。在细胞质中,NORAD在DNA损伤后高度表达,并通过分离Pumilio蛋白保持基因组稳定性。Pumilio蛋白与mRNA 3′非翻译区的特定基序结合,并通过去烯基化和去修饰促进mRNA衰变。每个NORAD分子包含15个Pumilio结合基序,因此,单个HCT116细胞中表达的约500–1000个NORAD拷贝可以隔离约7500–15000个Pumilio蛋白质分子,从而将大多数Pumilio从参与维持基因组稳定性的靶mRNA中隔离(图5A)。
然而,应注意的是,尽管NORAD提供了足够数量的Pumilio结合位点来隔离Pumilio蛋白,但该数量可能只是所有细胞转录物提供的Pumilio结合位点总数的一小部分。
除了与序列基序结合外,lncRNAs还可以折叠成与关键信号通路中的蛋白质相互作用的结构。例如,FAST转录自FOXD3基因的反义链,在人胚胎干细胞中高度表达,是维持人胚胎干细胞多能性所必需的。由于WNT信号受损,快速耗竭导致hESC分化。每个快分子形成五个干环,为与E3泛素连接酶β-TrCP相互作用并阻止其与磷酸化β-catenin结合并介导其降解提供了一个多价平台。
因此,FAST使β-连环蛋白易位进入细胞核,从而激活WNT依赖性多能性基因的转录(图5A)。其他lncRNAs阻断翻译后修饰位点;例如,NKILA形成两个不同的发夹,发夹A(核苷酸322-359)和发夹B(核苷酸395-418),它们都与p65结合。发夹B可稳定NKILA与NF-κB转录复合物之间的联系,并与激酶IκB通过抑制NF-κB活性调节T细胞活化诱导的细胞死亡。这些非标准RBPs蛋白如何与lncRNAs相互作用的分子基础仍有待探索。尽管如此,这组lncRNAs与其相互作用蛋白之间的化学计量关系仍应仔细评估。
2)与其他RNA配对以招募蛋白质复合物
一些lncRNAs可以直接与其他RNA进行碱基配对,然后招募参与mRNA降解的蛋白质。例如,Staufen介导的mRNA衰变是由双链RNA结合蛋白Staufen同源物1(STAU1)进行的,它结合正在翻译的mRNA的3′非翻译区。在人类中含有Alu逆转录酶元件的lncRNAs或在小鼠中含有其他短散布元件(SINEs)的lncRNAs可通过招募STAU1促进Staufen介导的mRNA衰变,这些mRNA与这些重复序列具有部分或完全互补性。
相比之下,在表皮分化过程中高度表达且表皮分化所需的lncRNA TINCR含有几个25个核苷酸基序,这些基序与分化mRNA中的互补序列配对;TINCR还招募STAU1,TINCR–STAU1复合物稳定分化mRNAs(图5B)。值得注意的是,最近的一项研究表明TINCR可能编码肽。
在另一个例子中,反式中的碱基配对似乎对于在活性多核糖体上装载mRNAs至关重要(图5B)。泛素羧基末端水解酶L1反义(AS-Uchl1)是一种含有SINEB2重复序列的核lncRNA,参与小鼠的脑功能和神经退行性疾病。在应激信号通路激活后,例如在雷帕霉素抑制mTORC1后,AS-Uchl1从细胞核穿梭到细胞质,其SINEB2元件与Uchl1的5′端进行碱基配对,以增强mRNA的翻译。
反式作用lncRNAs正在成为重要的转录后调节因子。未来的研究不仅需要通过识别lncRNAs的功能模块更好地剖析单个lncRNA-蛋白质相互作用的分子基础,还需要揭示不同lncRNAs之间的机制共性。
3)miRNA海绵
一些含有miRNA互补位点的大量lncRNAs可作为竞争性内源性RNA或miRNAs的“海绵”调节基因表达,从而降低靶向mRNAs的miRNA可用性(图5C)。潜在竞争性内源性lncRNA和miRNA之间的化学计量关系对于实现对靶mRNA表达的可测量效应非常重要。
在肿瘤中,lncRNA PNUTS由PNUTS前体mRNA的选择性剪接产生,其通过hnRNPE1的结合介导(图5C)。由此产生的lncRNA PNUTS包含miR-205的七个结合位点,miR-205是转录抑制子ZEB1和ZEB2的一个成熟抑制剂,也是上皮细胞维持所需的一个因子。lncRNA PNUTS隔离miR-205导致ZEB1和ZEB2上调,从而促进上皮-间质转化和乳腺癌细胞迁移和侵袭。
4)细胞器的调节功能
有趣的是,许多lncRNAs定位于特定的细胞器,如外泌体和线粒体(图1h,i)。由于外泌体定期释放到细胞外环境中,外泌体定位的lncRNAs可分泌并最终进入受体细胞,在受体细胞中发现此类lncRNAs参与表观遗传调节、细胞类型重编程和基因组不稳定性。
线粒体定位的lncRNAs可由核DNA和线粒体DNA编码,通常与线粒体代谢、凋亡以及线粒体与核酸的串扰有关。核编码的SAMMSON控制线粒体内稳态、线粒体16S核糖体RNA成熟和线粒体编码多肽的表达。三种丰富的线粒体编码的lncRNAs lncND5、lncND6和lncCyt b与mRNAs形成分子间双链体,并调节其稳定性和表达。其他细胞器特异性lncRNAs的发现可能为lncRNA调节和细胞器内稳态之间的联系提供更多的机制性见解。
病理生理作用
lncRNAs的各种基因调节活性影响生理学的不同方面,从细胞分化、生长和对各种应激和刺激的反应,到在神经、肌肉、心血管、脂肪、造血和免疫系统及其相关病理学中的关键作用。在此,我们重点介绍lncRNAs生理作用的一些方面和例子。
1
神经元分化与疾病
中枢神经系统的发育是一个特别复杂的过程,需要精确的时空基因调控。哺乳动物的大脑是一个转录高度复杂的器官,表达大约40%的哺乳动物lncRNAs。细胞培养和小鼠模型表明lncRNAs参与损伤后神经元的分化和再生。这些lncRNAs通常与在神经发生中具有特定作用的蛋白质编码基因有关。例如,lncRNA Silc1和转录因子SOX11在小鼠背根神经节细胞中精确共表达,并在神经损伤后共同诱导。
在损伤反应期间,顺式作用的Silc1对于激活SOX11转录程序和神经再生是必需的。Silc1与Sox11位点相互作用以促进其激活的机制尚不清楚,但已知其具有等位基因特异性。根据其在神经元分化中的作用,一些lncRNAs的去调节与帕金森病、亨廷顿病、侧肌萎缩性硬化症或阿尔茨海默病有关。例如,编码β-位点淀粉样前体蛋白裂解酶1(BACE1;也称为β-分泌酶1)的基因的反义BACE1-AS促进了BACE1 mRNA的稳定性,导致阿尔茨海默病患者大脑中神经毒性淀粉样蛋白板的水平增加。BACE1-AS可在这些个体的血浆中检测到,因此可作为潜在的疾病生物标记物。
2
造血与免疫反应
广泛研究的lncRNAs在造血细胞分化中的作用强调了分化驱动转录因子和lncRNAs的协同活动。因此,lncRNAs在激活或抑制编码炎症分子的基因表达方面具有决定性作用。有趣的是,关键免疫基因的诱导可能取决于炎症刺激前其调节lncRNAs的表达,这是免疫基因启动训练免疫的必要步骤。
其中一种免疫基因启动的lncRNAs,命名为UMLILO,在单核细胞中具有特征性,它在位于同一拓扑结合域内的几个趋化因子基因的启动子上顺式发挥作用,从而促进启动处理后WDR5–MLL1复合物沉积H3K4me3。其他几种免疫调节性lncRNAs参与染色质调节。在红细胞、巨噬细胞和树突状细胞中表达的lincRNA红系存活前体(lincRNA EPS)和在巨噬细胞中表达的lnc13抑制免疫基因的转录。lnc13与炎症性疾病有关,因为影响其表达的SNP导致lnc13调节基因水平升高,并易患腹腔疾病。
除了与适应性免疫有关的基因外,哺乳动物的lncRNAs还与控制先天免疫以应对病毒感染有关,这依赖于干扰素反应作为其主轴之一。lncRNAs的一个特征是由病毒感染引起的,包括SARS相关冠状病毒、流感病毒、单纯疱疹病毒1型和丙型肝炎病毒,这些lncRNAs的一个重要子集在干扰素的作用下上调。干扰素诱导的lncRNA干扰素反应负性调节因子(NRIR)是几种抗病毒基因的负性调节因子,因此有利于乙型肝炎病毒的复制。类似地,嗜酸性粒细胞个体发育转录本(EGOT)在肝细胞中被干扰素-α和流感、丙型肝炎病毒和Semliki森林病毒感染强烈上调,抑制一组干扰素反应基因。
总之,lncRNA活性参与对诱导基因表达程序的分化线索和应激的反应,其中它们表现出正确分化和组织内环境稳定所需的高度特异性调节功能。
3
具有癌症相关功能的IncRNAs
与癌症发生和进展相关的lncRNAs数量不断增加,可以在Lnc2Cancer或癌症LncRNA普查等管理数据库中找到。lncRNAs参与获取癌细胞的每一个特征,从增殖和生存的内在能力,通过增加代谢,到与肿瘤微环境的关系。lncRNAs参与癌症的早期证据来自其由关键致癌或肿瘤抑制转录因子(如p53、MYC、雌激素受体)或信号级联(如Notch途径)进行的转录调节。这些lncRNAs有助于致癌或肿瘤抑制反应的功能输出。
一些lncRNAs在DNA损伤后被p53激活。小鼠lincRNA-p21通过以细胞周期素依赖激酶抑制剂1的转录非依赖性方式促进p53依赖的反式转录抑制和顺式激活,从而促进细胞凋亡。人PANDA调节p53依赖的细胞凋亡和细胞周期阻滞;DINO在细胞核中稳定p53,从而增强其转录活性;GUARDIN通过两种独立的细胞质和核机制保持基因组完整性(图6a,b)。此外,MEG3等lncRNAs参与p53调控网络,而不是p53的转录靶点。MEG3在多种癌症中表达下调,并且包含一种进化保守的RNA结构,该结构在反式细胞中介导p53激活。
与这些p53相关的功能相反,许多lncRNAs要么受原癌基因MYC的调控,要么受原癌基因MYC的表达调控。MYC基因座周围存在一个复杂的调控网络,涉及许多非编码基因组元件。MYC位于频繁扩增的8q24染色体区域,该区域包含增强子内的几个癌症相关SNP,这些增强子与MYC基因形成组织特异性、长程染色质相互作用。
几个lncRNAs在该区域表达,它们也跨越易患癌症的SNPs。例如,CCAT1-L通过促进长程染色质循环在MYC转录调控中发挥作用(图6c)。PVT1在癌症中与MYC共扩增,在小鼠中通过稳定MYC蛋白发挥致癌基因的作用。有趣的是,在某些人类细胞类型中,PVT1启动子通过顺式竞争使用特异性增强子和作为DNA边界元素调节MYC的表达来限制MYC转录,其方式与PVT1 lncRNA无关(图6c)。
总之,有大量证据表明细胞内稳态依赖于lncRNAs的作用。尽管在癌细胞中表达的数千个lncRNAs中只有一小部分可能在某种程度上发挥作用,但这些仍然在很大程度上未被研究。lncRNAs在化疗和免疫治疗反应中的作用、它们与肿瘤预后的关系以及它们对肿瘤微环境的影响等相关问题需要进一步研究。
IncRNAs作为治疗靶点
在疾病中起关键作用的lncRNAs可能成为治疗靶点。这种可能性得到了代表其若干特征的理论临床优势的支持。高组织特异性和细胞网络特定方面的调节表明,lncRNAs在与靶向相关的潜在、不希望的毒性作用方面优于蛋白质。此外,缺乏翻译、快速转换和低表达水平可能有助于以较低剂量获得更快的效果。
目前,治疗性lncRNAs靶向的最先进尝试是基于反义寡核苷酸(ASOs)的使用。这些分子本质上是单链DNA寡聚体,可以根据序列同源性和RNA可及性快速设计。重要的是,ASO适合下调保留在细胞核中的lncRNA:它们通过Watson–Crick碱基配对与靶RNA结合,并可在ASO结合位点诱导RNase H介导的共转录裂解,导致转录提前终止和lncRNA水平降低。
ASOs在细胞中具有很高的功效,尽管临床上使用ASOs存在局限性,主要是因为体内毒性和缺乏适当的输送系统,这阻碍了足够剂量的治疗性ASOs的组织靶向性。为了改善其药理学特性,通常对ASO进行化学修饰,以增强其与靶RNA的杂交亲和力,从而增强对核酸酶降解的抵抗力并降低非特异性免疫刺激活性。这些化学变化包括GapmeR ASOs、RNA–DNA–RNA单链寡核苷酸链,其中核糖核苷酸可能包含2′-O-甲氧基乙基修饰的糖主链或附加修饰,例如锁定的核酸和S-限制的乙基残基。
此外,融合适体也可用于这些寡基药物的靶向细胞内递送。一些靶向ASOs的mRNA已经获得FDA和欧洲药物管理局的批准或已进入临床试验,一些靶向致癌lncRNAs的ASOs正在开发中,并受到专利保护。
较不发达的是使用小分子靶向lncRNAs。获得高亲和力和特异性结合lncRNAs的成功分子需要鉴定具有足够结构复杂性的相关RNA基序。到目前为止,这一层次的结构知识仅适用于有限数量的lncRNAs,这表明lncRNAs通常折叠成几个可能参与不同分子相互作用的模块化结构域。从治疗角度来看,阻断lncRNAs和蛋白质之间的功能性相互作用可能是可取的。或者,模拟lncRNAs结构和结合特性的合成分子可以作为诱饵,与lncRNAs竞争蛋白质结合,从而干扰其功能。随着lncRNAs的结构和分子特征得到更好的理解,所有这些有希望的方法将变得更加实用。
最后,基于CRISPR–Cas系统的工具在精确调节lncRNAs方面是最通用和最有前途的工具之一。CRISPR–Cas工程分子的不同版本允许lncRNA编码基因的缺失(使用CRISPR–Cas9)、抑制(CRISRPi)或激活(CRISPRa),以及转录本本身的降解(CRISPR–Cas13)。这些技术能够相对快速地敲除、敲低或过表达lncRNAs,已经广泛用于单个lncRNA基因座的研究应用,并且越来越多地应用于数千个基因座,以便在不同的实验环境中进行高通量功能丧失和功能获得筛查。然而,由于缺乏功能性开放阅读框,使用CRISPR–Cas在体内靶向lncRNAs比靶向蛋白质编码基因更困难。因此,预计CRISPR–Cas系统在lncRNA位点的治疗应用将落后于蛋白质编码基因。
总结
近年来,我们在理解lncRNAs方面取得了显著进展,现在我们对这些分子的特征和功能多样性有了更清晰的了解。然而,这些知识只代表了它们基因调控潜力的一小部分。lncRNAs生物学的几个方面仍然需要严格的研究,例如,考虑到lncRNAs序列的非编码性质和低序列保守性,我们仍然远未了解lncRNAs序列和结构特征如何与其功能相关。
有趣的是,最近的一项研究表明,尽管缺乏线性同源性,但具有相似k-聚体含量的lncRNAs具有相关功能。这项研究表明,lncRNAs中的短序列元件介导与蛋白质(和/或其他分子)的相互作用,因此是lncRNAs功能的关键决定因素。然而,这种相互作用的性质和动力学仍然需要阐明。越来越明显的是,lncRNAs的多种功能可以定义其功能。这些特征包括它们的序列、表达水平、加工、细胞定位、结构组织以及与其他分子的相互作用。所有这些特征的综合知识有望增加功能性lncRNAs的识别和分类。
lncRNAs如何影响复杂的生理过程和疾病的发生是非常相关的问题。我们目前的知识表明lncRNAs可以微调细胞规格和疾病。这些功能需要更深入的理解,不仅是为了提供生理病理过程的完整图像,而且因为lncRNAs可以以高度特异性作为治疗靶点。考虑到它们的特点,疾病相关的lncRNAs在个体化医疗的背景下将获得更大的相关性。随着对lncRNAs基因调控模式的更好理解,这一领域的进展将齐头并进。
除了本文,还有更多其他精彩综述,包括经典必读综述《癌症的特征》中文版全文尽在君莲书院!
君莲书院是
专业医学科研知识学习社区
每日发布全新精选科研内容
互动即获得针对性学习资源
快来加入学习小组共同进步
当然大家有什么想要看的综述、文献都可以留言中告诉我们哦~
—END—
撰文丨阿波没有罗
排版丨豨莶
太惨了!研究生遇到水导师,反复换过10次课题后,被延毕了……
河南大学女生身亡,疑因120接线员感觉她没事!官方已介入调查
有什么书推荐给医学生医生看?(第四期)