Nature Genetics|lncRNA测序新策略(重大突破)
iNature:基因及其转录本的准确注释是基因组学的基础,但是目前还没有注释技术将高通量测序和准确性结合起来。因此,参考基因的收集仍然不完整 - 许多基因模型是片段化的,还有数以千计的未被注释的转录本,特别是对于长的非编码RNA (lncRNA)。为了加速lncRNA注释,GENCODE联盟开发了RNA捕获长序列(CLS)的方法,将靶向RNA捕获和第三代长读测序相结合。在这里Johnson等人提出了GENCODE基因间lncRNA群体,在匹配的人类和小鼠组织中的重新再鉴定,分别发现了3,574和561个新转录本。 CLS大约是目标基因座标注的复杂度的两倍,优于现有的短读技术。由CLS产生的全长转录物模型使我们能够明确地阐述lncRNA的基因组特征,包括启动子和基因结构以及蛋白质编码潜力。因此,CLS消除了转录组注释中长期存在的瓶颈。
LncRNA代表了哺乳动物基因组中广泛且相对未开发的组分。 lncRNA功能的分配取决于高质量转录组注释的可用性。目前这样的注释还很简单:我们对lncRNAs的总数没有多少了解,对于已经确定的那些,结构大体上还是不完整的,对于进一步研究功能,存在很大的瓶颈。
lncRNAs作用
使用不同方法的项目有助于增加可用lncRNA注释的数量和大小。通过FANTOM cDNA测序工作和公共数据库【1,2】得到了早期基因组与通过染色质特征,并鉴定了长基因间非编码RNA(lincRNA)【3】。最近,研究人员已经应用转录本重构软件,如Cufflinks【4】,在短读RNA测序(RNA-seq)数据集中鉴定新基因【5-9】。然而,lncRNA的标准参考文献目前是定期更新来自GENCODE的手动注释,这些注释是基于cDNAs的管理,并大部分来自表达序列标签【10,11】,并已被国际基因组学会所采用【12-15】。
lncRNAs典型例子
目前,注释工作面临高通量和质量之间的必要折衷。基于短读的转录组重构方法提供大量的注释,而且在资源和时间上投资较低,而手动注释较慢,需要长期的资金资助。然而,由于从较短的序列读取重建转录本结构的固有困难,软件重构的注释的质量通常是可疑的。这种结构往往是不完整的,往往缺乏相邻外显子之间的末端外显子或剪接点【16】。这尤其影响lncRNAs,其低表达导致读取覆盖率低【11】。结果是在质量不确定的大型自动化注释(例如,NONCODE【8】的101,700个基因)和使用“保守”策略的GENCODE集合【11】(25,757个基因)之间分歧越来越大。
方法流程
注释不完整有两种形式。首先,基因可能完全从注释中缺失;许多基因组区域被怀疑转录RNA,但不包含注释,包括推测长前体【17】,增强子【18】和超保守元件【19,20】及“孤儿”小RNA。其次,注释的lncRNA可能代表部分基因结构。最初,发展了一种快速扩增cDNA末端,然后测序(RACE-seq)的方法来完成lncRNA注释,其中,尽管通量相对较低【21】。
CLS方法产生长读的转录组数据
lncRNA注释的主要障碍之一是它们的低表达水平【3,11】。为了克服这个问题,RNA捕获测序(CaptureSeq)【22】被用来提高cDNA文库中低丰度转录物的浓度。 这样的研究取决于短读取测序和计算机转录本重建【22-24】。因此,虽然CaptureSeq达到高通量,但其转录本结构缺乏包含在GENCODE中所需的置信度。
lncRNA基因结构
在本文中,Johnson等人描述了一种新的方法,即CLS,它将目标RNA捕获与第三代长读cDNA测序相结合。 使用CLS在6个人类组织和6个小鼠组织中去检测基因间lncRNA的GENCODE目录,以及数千个疑似新基因座。 另外证明CLS将CaptureSeq的高通量与长读取测序的高置信度,完整转录模型相结合,从而在转录组注释中取得进展。
lncRNA全长转录本注释
全长注释提供了迄今为止对lncRNA基因性质最可靠的观点。 LncRNAs比以前认为的剪接长度和外显子数更接近于mRNA。Johnson等人注意到启动子的类似趋势:当lncRNA启动子被CLS准确定位并与表达匹配的蛋白质编码基因比较时,发现它们在激活修饰方面令人惊讶地相似。这意味着以前的研究应该重新评估TSS的注释。另一方面,lncRNA启动子确实具有独特的性质,包括抑制性组蛋白修饰水平的富集,招募Polycomb组蛋白以及与绝缘子蛋白CTCF相互作用。据作者所知,这是第一个提出lncRNAs和绝缘子元件之间关系的报告。总体而言,这些结果表明,在表达差异归一化之后,lncRNA基因特征本身通常与mRNA类似。
lncRNA全长转录本特征
尽管成功地绘制了注解lncRNAs中的新颖结构,但是同时作者也观察到的惊人的低数目的转录模型,来源于对较少的未注释基因座相数目,包括超保守元件和增强子。这表明至少在此处测序的组织样品中,这样的元件不会产生大量的lncRNA样聚腺苷酸转录物。
潜在的新的lncRNA全长转录本鉴定
总之,通过解决lncRNA转录本注释中长期存在的障碍,CLS方法有望加速进展到最终的“完整”哺乳动物转录组注释。这些更新的lncRNA目录代表了基因组和生物医学界的宝贵资源,并解决了lncRNA生物学的基本问题。
原文链接
https://www.nature.com/ng/journal/vaop/ncurrent/full/ng.3988.html
猜你喜欢
重磅推荐|CRISPR领域的20篇奠基性文章解析(张锋达到5篇,值得收藏)
Nature Communications|柴继杰揭示花粉管吸引肽受体识别机制
2017年研究前沿|生物科学-冷冻电镜,环状RNA等上榜(值得收藏)
2017年研究前沿|农业、植物学和动物学领域-CRISPR及DNA甲基化入选(值得收藏)
2017年研究前沿|临床医学领域-心血管疾病诊疗,肠道菌群代谢等上榜(值得收藏)
参考文献
1. Carninci, P. et al. The transcriptional landscape of the mammalian genome. Science 309, 1559–1563 (2005).
2. Jia, H. et al. Genome-wide computational identification and manual annotation of human long noncoding RNA genes. RNA 16, 1478–1487 (2010).
3. Guttman, M. et al. Chromatin signature reveals over a thousand highly conserved large non-coding RNAs in mammals. Nature 458, 223–227 (2009).
4. Trapnell, C. et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat. Protoc. 7, 562–578 (2012).
5. Cabili, M.N. et al. Integrative annotation of human large intergenic noncoding RNAs reveals global properties and specific subclasses. Genes Dev. 25, 1915–1927 (2011).
6. Hangauer, M.J., Vaughn, I.W. & McManus, M.T. Pervasive transcription of the human genome produces thousands of previously unidentified long intergenic noncoding RNAs. PLoS Genet. 9, e1003569 (2013).
7. Iyer, M.K. et al. The landscape of long noncoding RNAs in the human transcriptome. Nat. Genet. 47, 199–208 (2015).
8. Zhao, Y. et al. NONCODE 2016: an informative and valuable data source of long non-coding RNAs. Nucleic Acids Res. 44, D203–D208 (2016).
9. Trapnell, C. et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28, 511–515 (2010).
10. Harrow, J. et al. GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res. 22, 1760–1774 (2012).
11. Derrien, T. et al. The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression. Genome Res. 22, 1775–1789 (2012).
12. Bernstein, B.E. et al. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57–74 (2012).
13. Chen, L. et al. Transcriptional diversity during lineage commitment of human blood progenitors. Science 345, 1251033 (2014).
14. Kundaje, A. et al. Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015).
15. Forrest, A.R.R. et al. A promoter-level mammalian expression atlas. Nature 507, 462–470 (2014).
16. Steijger, T. et al. Assessment of transcript reconstruction methods for RNA-seq. Nat. Methods 10, 1177–1184 (2013).
17. Georgakilas, G. et al. microTSS: accurate microRNA transcription start site identification reveals a significant number of divergent pri-miRNAs. Nat. Commun. 5, 5700 (2014).
18. Ørom, U.A. et al. Long noncoding RNAs with enhancer-like function in human cells. Cell 143, 46–58 (2010).
19. Ferdin, J. et al. HINCUTs in cancer: hypoxia-induced noncoding ultraconserved transcripts. Cell Death Differ. 20, 1675–1687 (2013).
20. Calin, G.A. et al. Ultraconserved regions encoding ncRNAs are altered in human leukemias and carcinomas. Cancer Cell 12, 215–229 (2007).
21. Lagarde, J. et al. Extension of human lncRNA transcripts by RACE coupled with long-read high-throughput sequencing (RACE-Seq). Nat. Commun. 7, 12339 (2016).
22. Mercer, T.R. et al. Targeted RNA sequencing reveals the deep complexity of the human transcriptome. Nat. Biotechnol. 30, 99–104 (2011).
23. Bussotti, G. et al. Improved definition of the mouse transcriptome via targeted RNA sequencing. Genome Res. 26, 705–716 (2016).
24. Clark, M.B. et al. Quantitative gene profiling of long noncoding RNAs with targeted RNA sequencing. Nat. Methods 12, 339–342 (2015).
温馨提示:iNature是介绍一流的,最前沿的科研成果,提供专业的完整的同行解析;另外也会介绍全世界知名的实验室及业界大师;同时为公众提供一个了解生命科学及科研过程的平台。扫描或长按下方二维码可关注“Plant_ihuman”,了解科学领域最新研究进展。另外,iNature公众号也开通了“爱科学爱自然”头条号,欢迎大家关注。
投稿、合作、转载以及招聘信息发布等事宜请联系liupan@sibs.ac.cn 或微信号“13701829856”。