查看原文
其他

三代全长转录组,到底“长”在哪儿?

2015-10-27 华大科技BGITech

随着高通量测序技术的发展,RNA测序(RNA-seq)已经成为一种研究基因表达的强大工具。基于二代测序的转录组分析,可以快速地获得某一物种特定细胞或组织在特定状态下的几乎所有转录本的序列信息和表达信息,进而揭示特定生物学过程中的分子机理,已广泛应用于基础研究、临床研究、药物研发等领域。


从原理上来说,RNA测序本应该是一个简单的过程,只需要分离得到RNA样本,然后对RNA进行高通量测序,最后拼接出来的RNA应该具有很高的准确性和可重复性。但是,国际RNA测序基因组注释评价项目协会(internationalRGASP consortium)在2013年发表的两篇论文报道了一场竞争程度相当激烈的、大规模的RNA测序热潮,各国的科学家们都在寻求最佳的RNA测序分析算法,而结果却是出人意料的丰富多样。


即便是对于人类基因组,甚至没有哪个转录本重构(transcript reconstruction)方法的准确率能够达到60%。只有线虫和果蝇的结果相对好一些,但要知道的是,这两种生物的基因组要比人类的小得多,也简单得多。就更不用说那些才完成基因组测序工作的物种,对于这些物种而言,转录本重构的准确性会更低。


那么,是什么阻碍了转录本重构的准确性?

我们先看一下现在的二代测序流程(图1)。


1 Transcriptomereconstruction—akin to reassembling magazine articles after they have beenthrough a paper shredder


相对于基因组的“生命之书”,转录组可以看成是“生命之报刊亭”——每一个转录本可以看作是一本杂志。

有很多杂志(即RNA)每一期都“印刷”了很多本,其中有一些可能还有存货,还有一些留在报刊亭里,可是有一些却早就被“卖光”了。

在过去,经销商们只会关注销量最好的杂志,并且这种杂志每一本都非常贵,所以你可能也就买得起几本而已。

可是现在(由于测序及相关技术的飞速发展),你可以用便宜的价格把整个报刊亭里的杂志都买回去。唯一的区别就是经销商卖给你的并不是一本本的杂志,而是先把所有的杂志全都放进碎纸机里,然后把一大堆碎纸条卖给你。

幸运的是,在这个虚拟的世界里,还有那么一大帮热心的社会改良家(这帮人就是我们现实生活中的程序开发人员)来帮助我们将碎纸条还原成一本本的杂志。


在这个过程中,3个困难会导致还原的“杂志”很可能不是真实的。


  1. 我们获得的RNA样本与我们拿来做比较的基因组可能不是同一个来源的;

  2. RNA样本的制备过程可能有问题,其中包含了未经充分处理的RNAs,或者其它转录本的噪音。当测序深度越深的时候,这些稀有的现象出现的也越多,这也就解释了为什么测序深度比较深的时候转录本重建工作的准确率会下降;

  3. 测序技术本身的问题。绝大部分测序技术都会使用到PCR反应,而我们都知道,PCR反应对GC含量高的序列比较“排斥”,所以这个测序过程本身就会自然而然地“偏向”GC含量低的序列。

对于第1个问题,一般的研究并没有什么好的办法,只有在实验设计时尽量选取一致的样本。但是对于第2和第3个问题,基于PacBio公司的第三代测序技术,给这两个问题的解决迎来了曙光。


目前PacBio平台的平均读长已达到10Kb,最长可达40Kb,其长度大大超过一般转录组中典型基因的长度,所以利用第三代PacBio RS II测序平台进行转录组的研究,依靠其长读长测序的优势,文库构建时不再需要将转录本打断,信息分析不再需要组装,就能够直接得到高质量的全长转录本序列。同时,由于PacBio的测序不依赖PCR,自然也就避免了测序中出现的GC偏向性问题。


下面的两篇文献,可以进一步帮助我们了解PacBio技术相对于二代测序技术在转录组研究上的优势。


文献一:PacBio和四种二代测序平台相比,转录本覆盖更均匀。



2 Transcript coverage across all genes detected


通过比较Roche454、Illumina Hiseq、Pacific Biosciences RS、Life Tech PGM及Proton平台的数据,发现大部分平台在转录本的5’和3’端的覆盖度要低一些,PacBio平台覆盖度更均匀。


文献二: PacBio测序,可以发现新的转录异构体和新基因。




3 Identification of new isoforms and genes


通过第三代PacBio转录组测序,完善了鸡的基因组注释的结果,新增9221个新基因的注释并发现539个新基因。


从华大内部的测试结果也显示,PacBio结果明显优于二代测序结果。


HiSeq测序,得到的转录本较短,不完整,分布偏向于短转录本。而PacBio测序,无需组装,直接得到全长转录本,转录本的平均长度是HiSeq平台的3倍,且长度分布更接近于转录本真实的分布。


近两年来,由于技术的优势,以及不断下降的测序成本,用PacBio技术研究转录组的文章逐渐成为了新的热点。后续科技君将选出几篇经典的文献进行解读,给大家提供一些研究思路。


读到这里,您是不是也想开展PacBio 转录组测序呢。告诉您一个好消息,华大基因在2015年引进了PacBio RS II 大型测序仪,目前借助PacBio RS II单分子测序平台的长读长的优势,推出三代全长转录组产品。现在正是新品促销期,现在起凡订购1个三代全长转录组产品,就送2个CG RNA-Seq定量产品。下面我们来看看这两个产品分别的优势吧。


  • 高精准第三代全长转录组,重新定义转录组

无需组装,直接得到完整的全长转录本序列,不再有组装错误;

开发严格的算法,准确性≥99%;

PacBio转录本平均长度是HiSeq平台的3倍,且长度分布更接近于转录本真实的分布;


  • 高性价比CG RNA-Seq,满足您定量的需求

定量准,与qPCR相关性达到0.86以上,与Hiseq平台的相关性系数达到0.98以上;

兼容强,提供FASTQ数据文件,可自主分析,结题报告文章化,使用更方便;


PacBio+CG 黄金组合,打造无参考基因组物种的RNA研究最强方案!

您还在等什么呢?赶紧体验吧!

参考文献

Korf I.Genomics: the state of the art in RNA-seq analysis. Nature methods. 2013, 10(12): 1165-1166.

Steijger T,Abril J F, et al. Assessmentof transcript reconstruction methods for RNA-seq. Nature Methods, 2013 ,10:1177-1184

Engström P G,Steijger T, et al. Systematicevaluation of spliced alignment programs for RNA-seq data. NatureMethods. 2013, 10(12):1185–1191.

Li S, Tighe SW, Nicolet C M, et al. Multi-platform assessment of transcriptome profilingusing RNAseq in the ABRF next-generation sequencing study. Nature biotechnology. 2014, 32(9):915-925.

Thomas S,Underwood J G, Tseng E, et al. Long-read sequencing of chicken transcripts andidentification of new transcript isoforms. PloS one. 2014, 9(4).

本文部分内容摘自生命奥妙网站



关注科技君,获取更多精彩内容


电话:400-706-6615

邮箱:info@bgitechsolutions.com

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存