查看原文
其他

技术比较| Nanopore全长转录组 VS二代转录组

西早 百迈客生物 2022-08-10


2020年即将过半,是时候来盘点一下Nanopore全长转录组(后简称ONT全长转录组)和二代转录组了。有没有必要做全长转录组?全长转录组数据好在哪里?希望这篇分享,能够帮您解答一二。



自从测序成本不断降低,分析流程不断完善,分析内容不断深入,转录组测序基本已经成为各个课题不可或缺的部分。无论是在项目前期筛选目标通路和基因,还是在后期做基因功能验证,调控网络挖掘,亦或是通过SNP/INDEL,SSR等针对物种、品种、突变体的深入研究,转录组的应用大部分还停留在基因表达量这个层面上。正是因为研究目标物和切入点的单一性,近些年通过转录组发表文章更加难了。我们不乏看到各种软文分享,“一文教你转录组数据如何挖掘”,“转录组文章怎么展示结果”,“转录组文章思路和常用软件”,这些也仍然是基于基因的表达量来做深入的数据解读。根据NCBI的数据显示,从2015年开始,转录组文章的发表数量有逐年回落的趋势,也正是从2015年开始,国内外发表的文章中使用ONT全长转录组技术的越来越多。那么这些“异军”如何凭借新技术突出重围的呢?我们先来看看二代和三代技术的区别。

1

测序技术

ONT全长转录组测序基于牛津纳米孔公司(Oxford Nanopore Technologies,ONT)三代测序平台,当碱基通过纳米孔时,会产生不同的阻碍作用,纳米孔两端施加有电压,因此会产生不同的电信号变化,通过识别不同的电信号来判读碱基信息。相较于二代转录组,ONT全长转录组实验过程中,无需打断,直接获取转录本的5ˊ到3ˊ高质量全长序列,而且做到实时测序。Illumina平台一般读长为双端150bp,而ONT平台最长读长可达到2.3Mb不打断建库超长读长这两点保证了一次性读出mRNA整条序列,得到真正意义上的全长信息。有文章[1]显示,ONT全长转录组直接测到一个12.7 kb的复杂转录本,由63个外显子组成,通过比对发现测得的转录本完全匹配现有数据库的注释结果AT1G48090.4 isoform。

 

ONT检测到拟南芥复杂转录本

 

基于全长的信息,ONT全长转录组有独特的优势,尤其是在转录本定性定量方面,在可变剪接鉴定方面也有了极大的提升。与此同时,很多老师担心ONT全长转录组的碱基准确性和错误类型,具体信息可以见表1。

表1 技术比较 

2

转录本鉴定

ONT全长转录组的碱基质量,读长情况,比对率,转录本鉴定到底如何,我们根据真实项目的数据来看看。各个物种测序数据量从2G到10G不等,N50都在1.1Kb-1.5Kb,属于正常范围,质量值平均达到Q10,全长率基本在80%左右,与参考基因组的比对率基本都在90%以上(表2)。在转录本鉴定方面,ONT全长转录组可以鉴定到大量已知基因的新转录本。同一个拟南芥样品,二代转录组比对率是90.35%,而ONT全长转录组达到了97.74%,鉴定到的转录本总数量提升了46.6%,其中新转录本数量从179提升到了22807。(表3)


表2 ONT全长转录组特征值统计


表3 转录本数量比较ONT vs Illumina

2020年1月发表文章[1],作者使用ONT技术直接对RNA进行测序,并展示了FLM基因的转录本异构体情况。如下图,黑色箭头表示互斥的外显子;蓝色是AtRTD2数据库和ONT共同识别的异型;绿色ONT识别的新异型。通过ONT技术揭示了一些迄今在拟南芥转录组中未发现的复杂剪接异构体。

ONT技术揭示可变剪接的复杂性


3

多比对

基因组上许有多位点序列信息相似或者同源,当reads很短时,会出现reads多比对的情况,导致在后期做基因定量时会有一定的偏差。比如,基因A和基因B存在高度相似的保守区域(蓝色方块),当进行二代测序时会有完全属于该保守区域的reads出现,这些reads在比对时可以同时比对到2个基因组区域,而三代测序由于直接测到2个基因的全长转录本,因此不会出现多比对的情况。

根据拟南芥的实测项目,我们发现二代转录组确实会出现2个以上位点比对的情况,最多可达到8个位点;而ONT全长转录组只有极少的reads出现多比对情况,而且最多只有5个位点,比对位点越多,reads数量越少。由于二代和三代的多比对reads数不在一个数量级,对reads数进行log10变换后合并展示,ONT全长转录组的多比对明显降低。由此可见,通过ONT全长转录组对转录本进行定量更加准确,获得的转录本序列信息更加真实

 多比对示意图

(来源于Oxford Nanopore Technologies官方白皮书)

 


 拟南芥实测多比对reads分布图

(横坐标为多比对次数,纵坐标为对应的reads数)

 

 多比对分布合并展示图

(横坐标为多比对次数,纵坐标为log10(reads数)

4

饱和度

大家习惯了转录组6G或者Pacbio系列几十G的数据量,ONT全长转录组如何选择数据量呢?各个物种的基因组大小从Mb到Gb不等,然而,其转录组大小都是在Mb水平。因此转录组数据量的选择不会特别受物种影响。当选择2G数据量时,对于二倍体来说,除极低丰度表达基因未达到饱和外,其他表达水平的基因均可以测得饱和,这与二代的6G数据饱和度相似。故而2G ONT数据能达到6G Illumina检测效果。而对于多倍体生物,尤其是异源多倍体生物,若想让数据达到饱和,则需要加大数据量才能满足后续分析要求,实测数据饱和评估图如下。

饱合度图

 

定量相关性图

5

 GC偏好性

二代转录组由于测序片段短,且存在桥式扩增,会有GC含量和PCR碱基偏好性,在定量上并不能真实的反映转录本/基因的表达情况。我们通过实测数据,将Nanopore与Illumina平台进行比较,发现Nanopore测序数据的GC含量偏好性要明显小于Illumina,因此,ONT平台可以更真实的反映生物体内转录本的表达情况,定量更为准确。

GC偏好性图


综上,我们不难发现,ONT全长转录组在转录本定量全长序列信息上有压倒性优势,这是二代转录组无法实现的。或许有老师会问,转录本定量有什么用?全长转录组的结果数据怎么用到文章中?不妨看看下面这个图[2],两种情况下鉴定到的差异表达基因A和B,以及这2个基因鉴定到的各转录本差异表达情况。DGE表示差异表达基因,DTE表示差异表达转录本。可见,对于B基因,虽然基因水平并没有显著差异表达,但是转录本水平,B.1和B.2都发生显著变化,并且呈“此消彼长”的变化趋势。生命体可能通过控制不同转录本的表达来调控功能性蛋白的合成。

 两个水平差异分析展示


下一期,我们将围绕全长转录组在动植物学研究中的应用方向进行全面展示,敬请期待。


百迈客作为国内高通量测序领域的领先者,为了让更多用户受益于三代测序,已与牛津纳米孔公司(简称ONT)达成长期合作,为用户提供更丰富优质服务。目前实验室内Nanopore平台仪器除了MinION、GridION X5、PromethION Beta以外,还配备了三台PromethION 48测序仪!百迈客是目前国内ONT全长转录组平台最完善,通量最高的公司!

专业测序资质

中国大陆唯一通过 PromethION/GridION 双平台 DNA/RNA 全种类样本认证的公司,并且是大陆推出ONT全长转录组测序的公司。

专业技术团队

依托于高学历研发团队和10年测序行业的项目经验,ONT全长转录组已经已经检测过人、鼠、鸡、牛、羊、猪、拟南芥、小麦、茶树、水稻、玉米、辣椒、草莓、蛾、仿刺参、贝母、鱼、虾等物种,涉及模式动物,经济作物,蔬菜,水果,水产等多个领域。截止目前,已经有多篇成功案例预印发表,后续我们将持续推出成功案例的相关介绍。

 

百迈客将长期致力于
更全面、更高效、更优质的科技服务
长按识别二维码开启三代测序之旅


百迈客现提供测序分析+分子试剂一站式解决方案:基因表达量验证:反转试剂盒+qPCR试剂盒;SNP验证:PCR Mix;克隆验证:PCR Mix+无缝克隆;DNA、RNA提取试剂盒解决疑难物种提取。期待与您的合作!!!

具体可咨询当地销售!

咨询热线:400-600-3186

咨询邮箱:tech@biomarker.com.cn



文:西早

排版:市场部


 参考文献:

[1] Parker M T , Knop K , Sherwood A V , et al. Nanopore direct RNA sequencing maps the complexity of Arabidopsis mRNA processing and m6A modification[J]. Elife Sciences, 2020, 9:e49658.

[2]Froussios K , Kira Mourão, Simpson G , et al. Relative Abundance of Transcripts (RATs): Identifying differential isoform abundance from RNA-seq[J]. F1000 Research, 2019, 8:213.

  

新品推荐:

推荐阅读:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存