基础篇:5000字带你了解lncRNA测序 | 转录调控专题
lncRNA(long non-coding RNA),长链非编码RNA,是一类长度大于200nt但不翻译蛋白质的非编码RNA,广泛存在于动、植物中。lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II(Pol II)转录的副产物,不具有生物学功能。然而,后续有大量的研究表明lncRNA参与生物体内多种调控过程,比如染色质重塑、可变剪切和翻译调控等,可以作为复合体支架或miRNA海绵(miRNA sponge)发挥功能,但仍有大量lncRNA的功能未明确。
大多数lncRNA由Pol II转录,但也有其他RNA聚合酶转录的。lncRNA来自基因间区域 (lincRNA) 与其他基因重叠的有义或反义转录本。许多lncRNA具有5'端m7G帽和3'端poly(A)尾,并且被认为与mRNA 类似地转录和加工,其表达具有组织特异性和时空特异性。
lncRNA的细胞功能
对lncRNA和mRNA的全局特征剖析表明lncRNA基因在进化上的保守性较低,包含较少的外显子并且表达量较低,而lncRNA的低表达可能与基因启动子存在抑制性组蛋白修饰有关。目前发现的许多lncRNA都具有保守的二级结构、一定的剪切形式以及亚细胞定位。
长链非编码RNA测序(lncRNA-seq)是检测样本中lncRNA和mRNA序列信息和表达量信息的技术。考虑到lncRNA带/不带polyA尾巴,因此使用的是阴选,即通过试剂盒尽可能去除占比最高的rRNA,然后对剩下的mRNA、lncRNA和circRNA(环状RNA)等进行建库测序。
lncRNA-seq建库流程如下,lncRNA-seq和普通转录组测序建库的区别是目标RNA的富集方法,前者通过阴选去除rRNA,后者通过阳选富集mRNA(主要),后续步骤是一致的。
lncRNA-seq建库示意图
lncRNA-seq分析流程和转录组测序分析的最大区别之一是需要区分mRNA和lncRNA。由于mRNA和lncRNA的核心区别是lncRNA不编码蛋白,因此基于编码潜能可以区分mRNA和lncRNA。由于当前,即使是模式物种,参考基因组收录的lncRNA也并不是非常完善,因此在分析时往往需要组装或预测新转录本(参考基因组未收录的转录本),随后需要对于这些新组装转录本进行编码潜能预测,以获得新预测lncRNA的序列信息和表达信息。
lncRNA-seq分析流程可以分析mRNA的表达和差异信息,分析已知lncRNA(参考基因组收录的)和新预测lncRNA的表达和差异信息,并且分析lncRNA和mRNA间可能的调控关系,当然普通转录组测序中可以开展的分析,在lncRNA-seq分析中均是可以开展的。
尽管lncRNA的定义是不编码蛋白的长度大于200bp的RNA,最近的研究发现lncRNA内部的一小部分开放阅读框是有翻译功能的,然而这些隐藏的多肽的生物学意义仍不为人知。
近年的研究表明部分lncRNA可以翻译短肽,比如2014年Science杂志报道了斑马鱼胚胎形成早期,一种由lncRNA生成的Toddler短肽发挥了G蛋白偶联受体激活因子的作用,促进原肠胚形成。2016年Nature杂志报道了由lncRNA LINC00961编码的多肽并命名为微小氨基酸应答调节多肽SPAR(small regulatory polypeptide of amino acid response),为lncRNA编码多肽调节特定组织生物功能提供的新的范例。SPAR在人和小鼠中相当保守,其定位于晚期的细胞核和溶酶体,并与溶酶体V型ATP酶相互作用,从而抑制mTORC1的活性。LINC00961在某些组织中高表达,使用CRISPR/Cas9技术制作了仅敲除多肽而保留主体lncRNA的基因敲除小鼠,发现SPAR可以降低mTORC1的活性并促进肌肉再生。在2020年Advanced Science上也发表了相关研究。研究者利用翻译组测序、转录组测序等技方法发现lncRNA LOC90024可以编码一个在组织细胞中内源性表达和天然存在的SRSP小蛋白。SRSP而不是LOC90024 lncRNA本身能够促进结肠癌的发生发展和侵袭转移,文章为ncRNA可编码小肽的检测和功能验证提供了很好的借鉴思路。
随着更多的研究者将目光聚焦在非编码RNA编码生成的小肽上,相信将会有越来越多小肽的生物学意义被揭示。
lncRNA编码肽在癌症中的作用
参考文献:
1. Pauli A, Norris ML, Valen E, et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 2014;343(6172):1248636. doi:10.1126/science.1248636
2. Matsumoto A, Pasut A, Matsumoto M, Yamashita R, Fung J, Monteleone E, Saghatelian A, Nakayama KI, Clohessy JG, Pandolfi PP. mTORC1 and muscle regeneration are regulated by the LINC00961-encoded SPAR polypeptide. Nature. 2017 Jan 12;541(7636):228-232. doi: 10.1038/nature21034. Epub 2016 Dec 26. PMID: 28024296.
3. Kong S, Tao M, Shen X, Ju S. Translatable circRNAs and lncRNAs: Driving mechanisms and functions of their translation products. Cancer Lett. 2020 Jul 28;483:59-65. doi: 10.1016/j.canlet.2020.04.006. Epub 2020 Apr 28. PMID: 32360179.
4. Meng N, Chen M, Chen D, Chen XH, Wang JZ, Zhu S, He YT, Zhang XL, Lu RX, Yan GR. Small Protein Hidden in lncRNA LOC90024 Promotes "Cancerous" RNA Splicing and Tumorigenesis. Adv Sci (Weinh). 2020 Mar 11;7(10):1903233. doi: 10.1002/advs.201903233. PMID: 32440474; PMCID: PMC7237858.
5. Zhou B, Yang H, Yang C, Bao YL, Yang SM, Liu J, Xiao YF. Translation of noncoding RNAs and cancer. Cancer Lett. 2021 Jan 28;497:89-99. doi: 10.1016/j.canlet.2020.10.002. Epub 2020 Oct 7. PMID: 33038492.
lncRNA与mRNA的主要区别是翻译的潜能性,因此基于翻译的潜能性预测可以分析哪些序列为lncRNA。下面介绍几种lncRNA翻译潜能的预测方法。
1. ORF finder
通过https://www.ncbi.nlm.nih.gov/orffinder/访问orf finder;
按照下边的说明,直接输入序列,然后Submit;
等待结果刷新出来如下:
由上图可以得知输入序列的长度,ORF的位置(包括示意图、在序列中的起始位置Start和终止位置Stop)、翻译的氨基酸长度和序列,利用页面中链接的blast工具,可以将翻译出的氨基酸进一步与蛋白质数据库进行比对,获得可能的同源蛋白信息。
2. CPC2
访问http://cpc2.gao-lab.org,输入FASTA序列,然后可以预测编码潜能。
预测结果会输出序列的编码潜能,如下:
3. CPAT
访问http://lilab.research.bcm.edu,输入FASTA格式序列,可以预测编码潜能。
前三种可以基于网页预测序列的编码潜能,下面三种方式适合有一定代码基础的研究人员。
4. CNCI
源码:https://github.com/www-bioinfo-org/CNCI#install-cnci
CNCI是由中科院研发的一款基于SVM(支持向量机)的lncRNA预测软件,它可以不依赖于已知的RNA注释信息来进行预测,同时其对不完全转录和反义的RNA有着良好的分类效果。
CNCI软件基于三联体碱基的构成来区分coding和noncoding转录本,在CNCI的分析结果中可以基于index区分coding和noncoding。
5. PLEK
源码:https://sourceforge.net/projects/plek/files/
PLEK是一个非常有价值的非序列比对工具,能够准确、可靠、快速的在大量的转录本中鉴别出LncRNAs。
6. PhyloCSF
源码:https://github.com/mlin/PhyloCSF/wiki
PhyloCSF是一种区分蛋白质编码区和非编码区的比较基因组学方法,基于系统发生密码子模型的一个正式统计比较,分析一个多物种核苷酸序列比对以确定它是否可能代表了一个保守的蛋白质编码区。
总结:一般推荐使用一款或两款软件预测序列的编码潜能即可,随后可以用体外翻译实验证明RNA能否编码多肽,如研究者发现Chaer具有开放阅读框(下左图中的红色区域表示开放阅读框),体外翻译实验(分别以mRNA GFP和lncRNA Hotairx作为阳性对照和阴性对照)表明Chaer与Hotairx相似,不具有编码多肽的能力,因此说明Chaer是lncRNA。
参考文献:
1. Kang YJ, Yang DC, Kong L, Hou M, Meng YQ, Wei L, Gao G. CPC2: a fast and accurate coding potential calculator based on sequence intrinsic features. Nucleic Acids Res. 2017 Jul 3;45(W1):W12-W16. doi: 10.1093/nar/gkx428. PMID: 28521017; PMCID: PMC5793834.
2. Wang L, Park HJ, Dasari S, Wang S, Kocher JP, Li W. CPAT: Coding-Potential Assessment Tool using an alignment-free logistic regression model. Nucleic Acids Res. 2013 Apr 1;41(6):e74. doi: 10.1093/nar/gkt006. Epub 2013 Jan 17. PMID: 23335781; PMCID: PMC3616698.
3. Sun L, Luo H, Bu D, Zhao G, Yu K, Zhang C, Liu Y, Chen R, Zhao Y. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts. Nucleic Acids Res. 2013 Sep;41(17):e166. doi: 10.1093/nar/gkt646. Epub 2013 Jul 27. PMID: 23892401; PMCID: PMC3783192.
4. Li A, Zhang J, Zhou Z. PLEK: a tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme. BMC Bioinformatics. 2014 Sep 19;15(1):311. doi: 10.1186/1471-2105-15-311. PMID: 25239089; PMCID: PMC4177586.
5. Lin MF, Jungreis I, Kellis M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 2011 Jul 1;27(13):i275-82. doi: 10.1093/bioinformatics/btr209. PMID: 21685081; PMCID: PMC3117341.
6. Wang Z, Zhang XJ, Ji YX, Zhang P, Deng KQ, Gong J, Ren S, Wang X, Chen I, Wang H, Gao C, Yokota T, Ang YS, Li S, Cass A, Vondriska TM, Li G, Deb A, Srivastava D, Yang HT, Xiao X, Li H, Wang Y. The long noncoding RNA Chaer defines an epigenetic checkpoint in cardiac hypertrophy. Nat Med. 2016 Oct;22(10):1131-1139. doi: 10.1038/nm.4179. Epub 2016 Sep 12. PMID: 27618650; PMCID: PMC5053883.
非编码RNA的研究是一个迅速扩展的领域,在这个过程中不同开发者开发了非常多优秀的数据库资源,为领域内的研究者提供了广泛的信息参考。但是不同数据库之间往往缺乏统一的或通用的lncRNA基因名,导致各自为政,因此为非编码RNA基因提供官方基因符号和名称会给原本潜在的混乱带来些秩序,更有利于研究领域的快速发展。
一般lncRNA基因由研究者进行发现、功能研究并基于功能研究进行命名与发表,但是建议命名遵循以下原则:
1.唯一性
“名字唯一性”这条原则很重要,一般不能违反,它能让我们在研究分析某个基因时不会产生基因重名问题。
2.基因缩写或反映功能
每条lncRNA的标识都应是一个描述该基因的“缩写”或者“首字母简写”;例如BANCR就是由“BRAF-activated non-protein coding RNA”短语的首字母排列而成,这样能让人们容易理解名字的含义。另外名称尽可能的反映其功能;例如:“XIST”基因是“X (inactive)-specific transcript”的缩写,该基因的作用是参与沉默一对X染色体的转录。命名的时候尽量反映基因通常的功能,而不体现其突变表型。
3.由拉丁字母和阿拉伯数字组成
每条lncRNA的标识中不应出现标点符号,但可以用字母或者数字来代替标点符号。连字符仅在特殊场合使用,例如:反义编码蛋白基因可在标识中加连字符(BACE1-AS就是BACE1 antisense RNA的名字)。
4.lncRNA名称字母大小写问题
lncRNA或RNA基因也属于基因的范畴,在命名时可以参考蛋白编码基因的名称大小写原则。为了与其它种类物种的基因区别开来(如啮齿动物基因的标识只要求首字母大写,其余小写),人类基因标识中的字母都应为大写。例如“热气”(HOTAIR)基因,在人类中叫HOTAIR,而在老鼠中写成Hotair。
5.不应涉及具体的物种类型
例如:如果基因名字中有H/h(代表人类),由于牵涉到同源基因的问题,就会造成一些疑惑和误导。(在命名时不建议加入拉丁名前缀以体现物种性,从而降低名称的物种适用性)
6.避免采用一些常用的词汇
基因的名字中出现的常用词汇会带来一些混乱,给分析研究带来很多问题,因此,在命名中应避免出现常见词汇。例如:“AIRN”基因最初公布时叫“AIR”,从公共数据库中搜索可得到22万条不相关的信息,而搜索“AIRN”则只有10条信息。可见“AIRN”的搜索效率有效得多。为了避免以后同行的麻烦,建议命名时不要太任性,虽然您有权力那么做。
7.蛋白编码基因(或假基因)来源的(转录的)lncRNA名称中应包含来源基因名称
目前,一些数量较少的转录假基因被发现具有功能性,例如PTENP1基因就与“PTEN-targeting” miRNA结合一起参与调节PTEN的表达水平。具有功能的转录假基因在命名时应保留它们的假基因名称,并且不应改变其基于功能的名称。为了方便搜索,这个功能应加在标识的最后。PTENP1的命名就是这方面的例子。PTENP是“phosphatase and tensin homolog pseudogene 1 (functional)”。
如果有一个很接近的蛋白编码基因或直接来源于该蛋白编码基因座的lncRNA,lncRNA的名称应该以这个编码基因名称开始,然后制定后缀,这个后缀可以参考以下方式分类:反义(antisense,AS),BACE1-AS;内含子(intronic,IT),例如,SPRY4-IT1;重叠(overlapping,OT),例如,OSX2-OT;长链基因间lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,例如LINC00485。如果一个lncRNA基因编码的转录本跨多于一个蛋白编码基因,可以用lncRNA的5’末端的第一个蛋白编码基因来命名,例如GENE-AS2。
在2020年EMBO J上发表了关于人类的非编码RNA基因的命名指南,HUGO基因命名委员会 (HGNC, http://www.genenames.org) 是唯一有权批准人类基因符号的组织。HGNC与不同类别ncRNA的专家顾问合作,以确保ncRNA命名法尽可能准确且信息丰富。文章提供了包括MicroRNA、Transfer RNAs、Small nuclear RNAs、lncRNA等非编码RNA基因的命名指南。
用于命名时没有公开信息的lncRNA基因的lncRNA命名模式
A.与蛋白质编码基因相关的基因间LncRNA的格式为:根符号为LINC#,后跟一个5位数字。
B.与蛋白质编码基因的基因组跨度反义的LncRNA被分配的符号格式为:[蛋白质编码基因符号]-AS#。
C.与蛋白质编码基因方向不同(共享双向启动子)的LncRNA被分配符号格式为:[蛋白质编码基因符号]-DT。
D.包含在同一链上蛋白编码基因的内含子中的LncRNA被分配符号格式 :[蛋白质编码基因符号]-IT#。
E.与同一链上的蛋白质编码基因重叠的LncRNA被分配符号格式[蛋白质基因编码符号]-OT#。
F.在内含子或外显子中含有microRNA或snoRNA基因的LncRNA被称为宿主基因。
参考文献:
Seal RL, Chen LL, Griffiths-Jones S, Lowe TM, Mathews MB, O'Reilly D, Pierce AJ, Stadler PF, Ulitsky I, Wolin SL, Bruford EA. A guide to naming human non-coding RNA genes. EMBO J. 2020 Mar 16;39(6):e103777. doi: 10.15252/embj.2019103777. Epub 2020 Feb 24. PMID: 32090359; PMCID: PMC7073466.
干货:转录组生信分析流程大比拼,你pick哪一款 | 转录调控专题
所见即所得,绘图高规格联川云平台,让科研更自由