基因组研究相关名词解释(二)——基因注释和进化
相似性和同源性
在进行基因组数据分析时,最重要的一步就是与参考基因数据库进行比对注释,根据数据库比对结果,确定基因组中所包含基因的类别和功能。
数据库比对结果中最重要的评价指标就是相似性 (Similarity),相似性是指序列比对过程中用来描述检测序列和目标序列之间相同顺序DNA碱基或氨基酸残基所占的比例。
相似性在蛋白质序列比对中,有时也指两个残基是否具有相似的特性,如侧链基团的大小、电荷性、亲疏水性等。此外,相似性概念还常常用于蛋白质空间结构和折叠方式的比较。
相似性是数据库比对的直接结果,但数据库比的主要目的是寻找同源序列。同源序列是指从同一个共同祖先经趋异进化而形成的不同序列。
当两条序列的相似性高于50%时,比较容易推测这两条序列可能是同源序列;而当相似性低于20%时,就难以确定或者根本无法确定其是否具有同源性。
相似性和同源性 (Homology) 是两个完全不同的概念,相似性是一个准确的量化指标,具有明确的数值 (0%-100%),而同源性是一个二维性质,只具有“有”和“无”两种情况。
“具有80%同源性”或“这些序列高度同源”等说法,都是不正确的。
CDS与ORF
开放阅读框 (Open reading frame, ORF):在DNA中,从一个起始密码子开始到一个终止密码子结束的一段碱基序列。
编码序列 (Coding sequence, CDS):在DNA中,能够转录合成信使RNA并能翻译合成蛋白质的区域。
ORF和CDS的区别:
不是所有得ORF都能表达合成出蛋白产物;
CDS必定是ORF,但可能不是单一的ORF,也可能包括很多ORF;
不是所有的ORF都是CDS;
ORF是理论上能够翻译形成蛋白质的区域,但是不一定确实能够产生蛋白质。
CDS是一定能够转录形成mRNA的区域。
进化相关名词解释
Synteny: physical co-localisation of genetic loci and/or genes on the same chromosome and/or linkage group within an individual or genome.
同线性:一个个体或物种基因组的不同基因位点位于相同染色体的相同位置的现象。
Conserved and/or shared synteny: preserved co-localisation of genetic loci and/or genes on chromosomes and/or linkage group of different species, also referred as macrosynteny (based on large portions of a chromosome) and microsynteny (based on only a few genes at a time).
保守同线性:在不同物种中具有相同的基因同线性的现象,也就是在相差较远的生物中存在的最为相似的基因区域。
Collinearity: a more specific form of conserved synteny, requires co-localisation of genes on the same chromosome within an individual or species with common gene order.
共线性:是一种特殊的保守同线性,只指不同物种基因组中同源基因以相同顺序排列的现象,两个物种之间的共线性程度可以作为衡量它们之间进化距离的尺度。
Ortholog: Orthologs arise by speciation, genes in different species that originated from a common ancestor.
直系同源:不同物种中来源于同一个祖先的基因。
Paralog: Paralogs arise by duplication, genes in an organism that are duplicated to occupy two different positions in the same genome.
旁系同源:一个物种内由同一个祖先基因通过复制而产生的基因,其在基因组中所处的位置不同。
高通量测序技术基础简介
基因测序技术的原理和应用
高通量测序技术的研究相关概念
基因组研究相关名词解释 (二)——基因注释和进化
基因组研究相关名词解释 (三)——表观遗传学和泛基因组
转录调控研究相关名词解释
微生物群落谱研究相关名词解释
宏组学研究相关名词解释