全长转录组到底长在哪儿
说起最新的测序技术,强大的三代测序技术可以说无人不知,其中受到大家吹捧的全长转录组当然也不负众望,把科研那点儿事儿说的清楚明白,让人不得不服,今天小编就通过一篇精彩的文章和大家看看全长转录组到底“长”在哪儿。
高粱(Sorghum bicolor (L.) Moench),禾本科、高粱属一年生草本植物,是重要的模式C4植物,也是重要的食物、饲料、纤维和能源来源,具有广泛的适应性,抗旱、耐涝。目前有几个品系的高粱已经完成基因组测序,但是转录组注释信息尚不完善,特别是由于可变剪接和可变聚腺苷酸化形成的转录本还知之甚少。
虽然二代高通量测序大量开展,但是收效较少。于是,研究者基于Pacbio RSII平台,通过全长转录组测序在转录组水平对高粱的抗旱性做了深入分析。
下面我们来全面地看看作者是怎么做的~
实验材料:高粱BTx623品系的幼苗,分成对照组和处理组(培养基中加20%PEG,作为干旱处理)
测序方法:Pacbio RS,构建1-2K,2-6K,两种文库,数据量分别为5cell 和7cell,两种样品共测序28cell 。
1.序列比对
对照和干旱处理组各测序14cell,获得1,838,330 ROI,全长的占48%,其余为非全长的,序列长度20bp-3886bp,平均长度为1042bp。
在测序量不足的情况下,三代测序数据有相对较高的碱基识别错误率(由于成本的限制),研究者开发了一套流程-TATPIS:这套流程是针对Pacbio RSII 测序平台的转录组数据分析的流程,可以进行校正错误、序列与参考基因组比对、鉴定所有的由于3’端APA位点不同和可变剪接事件形成的转录本。
经过TATPIS反复地与参考基因组比对,接近95%的序列比对到了参考基因组(只用3代数据);LoRDEC 和Proovread用短片段数据(2代数据)先对3代数据校正,再比对到参考基因组,比对率最低可达到77%;混合方式中,先用2代数据校正3代数据,将校正后的数据反复与参考基因组比对,比对效率达到96%。这说明不使用2代数据也可以使3代数据的比对效率达到很高的水平。(3代数据准确性低的问题再也不用担心啦~)并且,本次研究中一共有14550个基因的转录本被检测到。
图1 通过多种数据纠错的方法比较最终的比对效率
2.可变剪接及其形成的转录本分析
前人报道高粱中大约1500个基因的pre-mRNA 会经历可变剪接(AS)。本研究中发现这个数目很庞大,一共有10,053个可变剪接事件,只有2950个被报道过。这表明已发表的高粱基因组中有很多AS事件未被注释。
图2 (a)3代测序检测到的可变剪接与已有注释信息比较;
(b) 基因可形成不同转录本个数统计
更令人惊喜的是下面这个例子:一个已知的基因以前被认为只产生一种转录本,但该研究发现这个基因可形成14种可变剪接转录本,也就是另外发现了13种新的转录本,如下图所示:
图3 一个基因通过可变剪接形成14种不同的转录本
为了验证3代测序中检测到的转录本的准确性,作者随机选取6个基因(这些基因在参考基因组中只有一种转录本,但是3代测序检测到2个及以上转录本),设计引物在对照和干旱处理组高粱中进行RT-PCR验证。并且对PCR片段切胶回收构建载体进行测序,结果表明所有的转录本都是真实存在的。同时发现,有些转录本会特异表达(表达或不表达,表达量高低不同),例如: 下图中sb04g021010在对照中表达,干旱处理后不再表达(蓝色箭头指向);sb040066450的两种转录本在不同环境下表达量不同(蓝色和黑色箭头指向)。
图4 鉴定到的可变剪接形成的转录本的PCR验证(对照,T:干旱处理;)
3.可变聚腺苷酸化(APA)
大多数的mRNA 3’端聚腺苷酸化(APA)是真核生物转录本一种重要的共转录修饰,来源于同一基因由于APA导致包含不同的3’端,从而形成不同的转录本,增强了转录组的多样性。
在该研究中发现:14550个表达的基因中11013个基因有至少一个支持的polyA位点,其中,有20.9%的(2301)基因的A位点可以比对到起始和终止密码子。分析发现7700个基因形成的转录本包含2个及以上聚腺苷酸化位点(如下图a所示),其中,3%的位点在编码区的3’UTR。为了检测编码基因剪接位点下游的A延伸是出现在基因编码区且没有A富集的基因区剪接位点下游,可以表明这不是因为oligod(T)引起的。(图b)展示了一个基因的多个转录本在3’UTR具有多种多聚腺苷酸化位点;(图c)对polyA尾做PCR验证;随机选择几个基因做3’RACE获得3’端完整的cDNA扩增验证APA事件。比如sb04g028450中红色、黑色、蓝色箭头指出的APA事件形成的转录本是与干旱处理相关的。
图5 可变聚腺苷酸化分析
4.不同基因的表达分析
尽管在表达定量分析方面,与二代测序数据量相比,三代数据量有些不足,本文还是使用3代测序的数据粗略的进行了基因表达量分析,发现186个差异表达的基因,并随机选择10个基因进行了RT-PCR验证。
5.基因及非编码分析
与参考基因组比对发现2171个是基因组中没有注释的,对这些基因通过tblastx 和blastx进行分析,总共发现971个新转录本。在全部数据中有不足1%的reads比对到非编码序列,发现149个有注释的miRNA,20个新miRNA;另外发现540个lncRNA。
首创性地开发了TATPI流程分析三代转录组数据,特别在数据校正比对方面,对数据质量提升显著(只可用于有参);
由于可变剪接形成的新转录本,随机选取进行验证,用PCR及一代测序验证结果一致,并且揭示,同一基因的不同转录本在不同环境下表达模式不同;充分表明可变剪接研究的必要性;
聚腺苷酸化(APA)分析,发现了一个基因可能发生的APA事件并进行了PCR验证,同时,细致的分析A可变剪接位点的特征;
分析内容包括编码RNA和非编码RNA,从基因序列结构分析到基因表达量分析均有涵盖,内容丰富、新颖;
只利用三代数据做了全面的分析,生物信息分析也是亮点。
百迈客生物科技有限公司拥有Pacbio RSII 测序平台,实验平台和信息分析平台成熟稳定,利用此平台已完成多个物种基因组Denovo、全长转录组测序,欢迎前来咨询,期待与您合作。
长按识别指纹加关注
为您的科研保驾护航