查看原文
其他

生物信息学常用名词解释(六)

王通 基因学苑 2023-08-18

在生物信息中会出现很多的特殊名词,从这次内容开始,我们将逐渐推送一些生物信息相关的一些名词解释。

Read:高通量测序平台产生的短序列就称为reads,也称为一个读段,reads可以是单独一条,成为Single End reads,简称SE read,也可以是两条具有物理关系的一对reads,根据reads方向,可以分为Pair-end reads和mate-pair reads,简称为PE reads。在很多分析中会利用管道reads之间的关系。

Contig:来自于单词contiguous,拼接软件基于reads之间的overlap关系,连接成为更长的序列为contig,contig序列之间不再具有overlap关系,也不包含N碱基。

Scaffold:基因组拼接得到contig序列之后,通过reads之间的pair-end或者mate-pair关系,连接成更长的片段成为scaffold,scaffold序列一般包含N碱基。

N50:N50是基因组拼接之后一个评价指标,将拼接得到的所有的序列,根据序列大小从大到小进行排序,然后逐步开始累加,当加和长度超过总长一半时,加入的序列长度即为N50长度。N50越长,拼接得到的更长的序列越多,类似的还有N90等。

Coverage depth:(覆盖深度,亦简称覆盖度,也叫乘数),指每个碱基被测序的平均次数,是用来衡量测序量的首要参数。

Coverage ratio :(覆盖比率,亦简称覆盖率),指被测序到的碱基占全基因组大小的比率。覆盖比率随覆盖深度升高而提高,亦受测序bias的影响,如illumina测序会受到GC bias的影响而导致测序不均匀。

回文序列:palindromic sequence;palindrome具有反向重复的DNA序列。通常是DNA结合蛋白的识别部位,也是限制性核酸内切酶识别位点的序列特征。

串联重复序列(Tandem Repeat sequences):在染色体上一段序列的多次重复,称为串联重复序列。常用来作为物理图谱中的标记子。

LTR:长末端重复转座子(long terminal repeat),是由RNA反转录而成的元件,它在两端有长大数百碱基对的LTR。Length:1.5-10kbp  Encode reverse  transcriptase  Flanked  by 300-1000bps terminal repeats。

LINE:长散在重复序列(long interspersed nuclear elements),意为散在分布的长细胞核因子,是散在分布在哺乳动物基因组中的一类重复,这种重复序列比较长,平均长度大于1000bp,平均间隔3500-5000bp,如:rRNA,tRNA基因,形成基因家族。

SINE:为短散在重复序列(short interspersed nuclear elements)。SINE是非自主转座的反转录转座子,来源于RNA聚合酶III 的转录物,它的平均长度约为300bp,平均间隔1000bp,如:Alu家族,Hinf家族序列。

SNP:单核苷酸多态性(英语:Single Nucleotide Polymorphism,简称SNP,读作/snip/)指的是DNA序列上发生的单个核苷酸碱基之间的变异,在人群中这种变异的发生频率至少大于1%,否则被认为是点突变。在人类遗传基因的各种差异,有90%都可归因于SNP所引起的基因变异。在人基因组中,每隔100至300个碱基就会存在一处SNP。每3个SNP中有两个会是胞嘧啶(C)和胸腺嘧啶(T)的相互转变。
同义突变(synonymous mutation):由于生物地遗传密码子存在兼并现象,是碱基被替换之后,产生了新地密码子,但新旧密码子是同义密码子,所编码的氨基酸种类保持不变,因此同义突变并不产生突变效应。

错义突变(missense mutation):是编码某种氨基酸的密码子经碱基替换以后,变成编码另一种氨基酸的密码子,从而使多肽链的氨基酸种类和序列发生改变。错义突变的结果通常能使多肽链丧失原有功能,许多蛋白质的异常就是由错义突变引起的。

无义突变(nonsense mutation ):是指由于某个碱基的改变使代表某种氨基酸的密码子突变为终止密码子,从而使肽链合成提前终止。编码氨基酸的密码子突变为终止密码子,使肽链合成中断。

移码突变(frameshift mutation):在正常地DNA分子中,碱基缺失或增加非3地倍数,造成这位置之后的一系列编码发生移位错误的改变,这种现象称移码突变。

InDel:一般把基因组突变小于50bp的插入和缺失成为InDel,一般50bp小于一个reads长度,可以通过reads进行检测。

CNV:copy number variation:基因组拷贝数变异,基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。

基因组结构变化,Structure Variation,简称SV:染色体结构变异是指在染色体上发生了大片段的变异。分为广义和狭义之分,广义上来说基因组上所有的变化都可以成为SV,目前主要使用其狭义的概念,主要是指基因组结构变化超过50个碱基的突变,包括染色体大片段的插入和缺失,染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosometrans-location)等。

Segment Duplication:一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。

NT库:NCBI非冗余的核酸数据库,包括GeneBank、Refseq和PDB。

NR 库 :NR库是由NCBI收集的非冗余蛋白数据库,包括所有非冗余GeneBank CDS的翻译序列 + 参考序列蛋白 + PDB数据库 + SwissProt蛋白数据库 + PRF蛋白数据库,内容丰富。

SwissProt:SwissProt数据库是经过注释的蛋白序列数据库,由欧洲生物信息学研究所(EBI)维护。每个条目包括蛋白质序列、引用文献、分类学信息和注释等。注释包括蛋白质的功能、转录后修饰、特殊位点、二级结构等信息。

TrEMBL :TrEMBL数据库中大多数蛋白序列不是直接由实验得到,而是通过DNA序列翻译而得到,是一个计算机注释的蛋白质数据库,作为SwissProt的补充。该库主要从EMBL/GeneBank/DDBJ核酸数据库中根据CDS翻译而得到蛋白质序列。

---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存