查看原文
其他

同1个cell,5倍有效数据!华大5X全长转录组如何实现的?

张义 华大科技BGITech 2019-12-12
 

PacBio的Sequel测序平台测转录组,因其长读长优势,可以直接得到全长转录本信息,已被越来越多地用于构建/完善参考物种基因集。尤其是近年来,随着sequel测序芯片和试剂的升级,测序产量和读长得到了很大的提升,单G测序成本也大幅下降。大家开始对全长转录组的应用前景充满预期。


图1 UHRR(Universal Human Reference RNA,通用人参考RNA)基因饱和度分析。左边是全长转录组测序对应的reads数,1,2,3分别代表1个cell,2个cell,3个cell。以现有sequel测序的通量,1个cell测序(约20W reads)仅能检测到约62%的基因,随着测序数据量的提升,检测到的基因数目可以提升,相应的测序成本也会大幅提高。

 

然而,现实却远没有想象那么简单。对于全长转录组产品,以下这些误区还是要细细甄别!


1. 数据量增加=转录本数目增加?

相对sequel试剂升级带来的数据量增加,其带来的转录本数目增加几乎可以忽略不计。


虽然sequel试剂在不断升级,每个SMART Cell上的数据产出在不断提升。然而,该数据产量增加主要是通过读长增加做到的。也就是说,测的越来越长(如表1所示,从2.0芯片到3.0 LR芯片,测序长度提升了5倍),得到的数据量越来越高了(从2.0芯片到3.0 LR芯片,数据量提升了8倍),转录本数量却未必增加了多少!


表1. Sequel平台不同版本试剂数据表现



2. 测序长度越长=得到转录本越长?

目前的测序长度几乎可以覆盖所有的转录本长度,继续增加读长,得到更长转录本的概率极低。


也许有人会说,测得长也挺好啊,我需要的就是全长转录本啊。那么,是不是测得越长得到的全长转录本数目越多呢?事实上,绝大部分的转录本长度都在2Kb以下,在sequel 2.1芯片测序平均读长23K的情况下,就可以覆盖到几乎所有的转录本;sequel3.1 LR芯片测序读长可达80K,得到更长转录本概率极低。如何让多出来的读长发挥更大的价值,可能是我们需要考虑的问题。

图2 转录本长度分布图。

左,UHRR转录本长度分度;右,玉米转录本长度分布。



3. 测序长度越长,序列准确度越高?

测序长度越长,序列准确度越高,但增加测序长度不是提高序列准确度的唯一方法,且该方法性价比不高。


Sequel测序中构建哑铃型文库,在插入片段比酶读长短的情况下,通过环形比对测序(Circular Consensus Sequencing, CCS),同一个片段可以被循环测到很多次,这在很大程度增加最终得到的序列准确性。目前2.1试剂测序得到的CCS序列准确度在0.93左右,随着测序长度不断增加,CCS序列准确度会得到进一步提升。

图3 CCS测序示意图。

 

在sequel数据分析中,为了提高最终得到的转录本序列的准确度,得到CCS序列之后会进行reads聚类和isoform校正,进一步提高isoform准确度,同一isoform测到的条数越多,校正后的准确度越高。这一步可以通过阈值设定,筛选准确度达到要求的用于后续分析,目前一般将isoform校正后准确度在0.99以上判定为高质量isoform。


所以,随着sequel测序读长的增加,得到isoform准确度会增加;同时我们还可以通过isoform校正来提高isoform准确度,同一isoform测到的条数越多,校正后的准确度越高。相对来说,提高测序reads数既能提高isoform准确度又能增加基因/isoform检出量,性价比更高。


图4 Isoform校正过程示意图。


综上所述,目前sequel试剂升级带来了数据产量和测序读长的大幅提升,但并不能提高最终检测到的转录本数目和长度,在提高测序准确度方面性价比也不高,很大程度上浪费的sequel的数据量和读长。



那么如何让sequel试剂升级发挥更大的价值呢?


为什么不试试5X全长转录组?!



为了充分利用sequel测序越来越多的数据,华大基因Dr.Tom主导研发5X全长转录组产品,在建库过程中将多个转录本首尾相连构建sequel文库;通过CCS测序,一条CCS read可得到多条转录本,大幅提升sequel测序全长reads的获得率。


图5 5X全长转录组建库示意图


5X全长转录组可将单个Sequel cell测序得到的全长reads数提升5倍;检测到的基因和转录本数目都有明显提升,并结合UMI可实现准确的基因或转录本定量。


1)全长reads数提升可达7倍以上

同样的测序数据量,5X全长转录组产品测序一个cell检测到的reads数是常规sequel检测方法的3-5倍,最高可达7倍以上。


图6 Reads数统计。排除原始数据产量的影响,5X全长转录组测序得到的全长reads数可高达常规文库的7倍以上。


2)转录本检测数目可提升1倍以上

5X全长转录组产品1个sequel cell检测到的基因和转录本数目远高于常规文库,转录本数目检测数目可提升1倍以上。

图7 转录本检测数目。

5X全长转录组产品测序1个cell检测到转录本数目可提升1倍以上。


3)序列准确度高

5X全长转录组产品下,同一序列CCS测序得到的full-pass数会减少,但isoform校正过程中可用的reads数会相应增加,最终得到的序列准确度并不会降低。如下表所示,同样数据量情况下,普通文库CCS测序full-pass数是5X全长转录组产品的3.1倍,而5X全长转录组产品在isoform校正过程中的平均reads数是常规文库的2.9倍左右。

 

表2. 5X全长转录组文库和常规文库测序平均pass数比较


表3. 5X全长转录组文库和常规文库测序每条转录本平均reads数比较

 

4)基因定量结果更准确

5X全长转录组产品将UMI(Unique molecular identifier,特异性分子标识符)和数据量提升完美结合,全长转录组也可以做基因定量了!如下图所示,5X全长转录组基因定量结果和短读长测序(PE测序)定量结果一致性好,后者是目前普遍认可的基因定量方法。而常规全长转录组测序和PE测序的一致性极差,完全不能用来定量。

图8 基因定量一致性。左,spearman系数;右,pearson系数。


5)测1个sequel cell就可满足需求

有了5X全长转录组产品,对于转录本复杂度不是太高的物种,一般测1个cell数据就可满足研究需求,再也不用在数据量和测序成本间做取舍了!以下是科技君整理的已发表物种全长转录组测序数据量,选择转录本复杂程度相近的物种作参考效果更佳哦:


更多5X全长转录组产品信息,请访问华大科技官网或咨询华大基因当地科技代表。

 


撰稿:张   义

编辑:市场部


最新热文

危中有机,大豆能否成为中国农业崛起的支点?

培训 | 单细胞技术攻坚!华大特邀讲师全力助攻CNS!

哎呀,外显子测序的这些坑,千万不能再踩了 | 端午节大促

育种研究者的福音!华大基因携手NRGene,为复杂多倍体基因组提供可靠解决方案

顶级作物研究大咖齐聚华大Workshop | PAG ASIA参会邀请



请继续关注“华大科技BGITech”,

科技君将一如既往为您提供精彩内容!

如有相关问题,欢迎后台留言~~

关注华大科技,尽享精彩科研!


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存