查看原文
其他

转录调控相关名词解释(一)——转录组

红皇后学术 红皇后学术 2022-06-07

转录相关名词

内含子 (Intron):真核生物细胞DNA中的序列,间隔存在,这些序列被转录时会保留在前体mRNA中,但经过剪接过程被去除,最终不存在于成熟的mRNA分子中。

外显子 (Exon):真核生物细胞DNA中的序列,与内含子相对应,这部分序列在mRNA前体剪接后仍会被保存下来,并可在翻译过程中用于指导蛋白质合成。

基因间区 (Intergenic):在基因组中位于基因与基因之间的间隔序列,其不作为转录和翻译的模板,但是参与转录后调控影响其相关基因的表达。

UTR (Untranslated Regions,非翻译区域):位于信使RNA分子两端的非编码片段,5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽直至AUG起始密码子,3'-UTR从编码区末端的终止密码子直至PolyA尾的前端,参与mRNA的转运、核糖体识别和转录后调控影响蛋白质的合成水平。

转录本 (Transcript):由基因通过转录形成的一条编码蛋白质合成的成熟mRNA。

同源异构体 (Isoform):同一个基因经可变剪切或内含子选择机制产生的不同转录本,这些不同转录本即称isoform。

可变剪切:从同一个mRNA前体出发,通过不同剪接方式、选择不同的剪接位点,产生不同的mRNA剪接异构体的过程。

融合基因:来自不同基因的外显子进行了组合,形成新的mRNA,最终产生与外显子来源基因表达产物所不同的蛋白质。

RNA-Seq

RNA-Seq:应用高通量测序技术对样品中的mRNA、small RNA和non-coding RNA进行测序的技术,针对不同的目的RNA,构建不同的文库进行测序,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息。

RNA-Seq能够在全基因组水平研究基因表达的差异,其优势在于定量准确、可重复性高、检测范围广、分析结果可靠

RNA-Seq不仅能够获得已知转录本的表达信息,还能够发现新的转录本、SNP、可变剪切,并提供等位基因特异的基因表达。

转录组

转录组 (Transcriptome):是指特定生物体在某种状态下所有基因转录产物的总和,转录组研究是功能基因组研究的一项重要内容。转录组是连接基因组遗传信息与生物功能(蛋白质组)的必然纽带。

链特异性文库:一种特殊的转录组测序文库,主要用于鉴定真核生物的反义转录本或原核生物的ncRNA。其建库原理与普通转录组类似,不同之处在于合成第二链cDNA时,用dUTP代替dTTP,此时第二链cDNA上布满了含dUTP的位点,之后应用一种能够特异性识别尿嘧啶的酶消化掉第二链cDNA,得到只含第一链cDNA信息的文库。

有参转录组:进行转录组测序的物种已有参考基因组,在进行数据分析时,无需进行转录本拼接,只需将转录组测序数据与参考基因组进行比对,即可确定各基因的表达水平。

无参转录组:进行转录组测序的物种并无参考基因组,需先对转录组数据进行拼接得到样品中的转录本信息,进而对这些拼接得到的转录本进行功能注释,之后才能将转录组数据与拼接到的转录本进行比对,计算其表达水平。

Unigene:在无参转录组中,经过拼接的到的转录本并不一定完全是正确的,同时还会得到许多相似度很高、但长度不等的转录本,Unigene即为这些相似转录本的集合,根据设置的相似度阈值,将拼接组装的到的转录本进行聚类,得到的每一个聚类即为一个Unigene,属于同一Unigene的转录本被认为是同一个基因,从中挑选出长度最长的转录组作为该Unigene的代表进行后续的功能注释和表达水平计算。

全长转录组测序:应用以PacBio公司的SMRT单分子实时测序技术(Single molecule real-time sequencing)为代表的三代测序技术对样品的转录组进行高通量测序,与传统转录组测序相比,三代测序技术长读长的特点允许mRNA不经打断即可直接进行测序,从而能够直接获得mRNA的全长序列,保证了mRNA序列的精确性,该技术能够更好的识别普通转录组测序无法准确识别的Isoform、融合基因、可变剪接等

互作转录组

互作转录组 (Dual RNA-Seq):同时检测两个相互作用物种的转录组,之后利用生物信息学分析,获得物种特异性的基因表达和物种间的基因互相作用,主要用来解决宿主防御病原菌以及病原菌侵染宿主机制、易感和抗感基因筛选、共生物种协同进化等问题。

互作转录组在构建测序文库时,无需将互作的两个物种分离,而是选择互作部位提取两个物种的总RNA进行建库和随后的RNA-Seq,再利用生物信息学手段将测序得到的Reads分别与两个物种的参考基因组进行匹配,从而识别各物种特异的转录本信息,因此需要进行研究的两个物种均具有参考基因组

基因表达

RPKM值 (Reads Per Kilobase of exon model per Million mapped reads):衡量基因表达水平的标准,具体意义为每一百万条与转录本匹配的序列中,目的基因每1000个碱基范围内匹配的reads数目。

RNA-Seq的测序过程是将转录组中各转录本打碎后进行随机测序,因此,当某基因表达水平较高时,匹配到该转录本上的reads数目就应该较多,当某基因的长度较长时,匹配到该转录本上的reads数目也同样较多,基于此,提出了RPKM的概念,通过对基因长度和测序深度的均一化,得到RPKM数值用于比较基因的表达水平。

差异基因:根据设定的阈值和统计学检验结果,在不同组样品中表达水平具有显著差别的基因。

富集分析:当分析差异基因时,根据特定的分类方法 (GO、KEGG等) 对基因进行分类,因为不同分类所包含的基因数目不同,如果只通过某一类基因中差异基因的数目评估这一类基因是否具有差异表达,得到的结果是不准确的,富集分析就是利用超几何分布或Fisher精确检验的方法,消除测序总体背景值和基因分类背景值的影响,能够准确阐明样品间不同类别功能基因是否具有差异。


高通量测序技术基础简介


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存