查看原文
其他

变异形式专题-SV

hope 生信菜鸟团 2020-02-03

简介

变异是一个相对的概念,只有在彼此的比较中才有存在的意义。目前关于人类基因组变异的讨论,都是以“人类基因组计划”中所组装出来的人类基因组作为参照物。人类基因组上的变异主要分为三大类:

  1. 单核苷酸变异 (通常称为单核苷酸多态性,通俗的说法就是单个DNA碱基的不同,简称SNP);

  2. 小的Indel (Insertion 和 Deletion的简),指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在50bp以下 (这个长度范围的变异可以利用Smith-Waterman 的比对算法来获得) ;

  3. 大的结构性变异,这种类型比较多,包括长度在50bp以上的长片段序列的插入或者删除、染色体倒位,染色体内部或染色体之间的序列易位,拷贝数变异,以及一些形式更为复杂的变异。为了和SNP变异作区分,第2和第3类变异通常也被称为基因组结构性变异 (Structural variation,简称SV) 。

分类

传统意义上结构变异是相较于参考基因组存在有大于1Kb的变异,现如今随着测序技术的发展,大于50bp作为检测indels和CNVs的标准序列长度。上图描述了SV的通常分类:缺失,异常序列的插入,转座子插入,串联/散布重复片段, 倒位和易位。

结构变异的检测

目前主要有4种检测基因组上结构性变异的策略,分别为:

1. Read pair (Pair-end Mapping, PEM)

理论上来讲,PEM方法能够检测到的变异类型包括:序列删除 (deletion) ,序列插入 (insertion) ,序列转置 (inversion) ,染色体内部和染色体外部的易位 (intra- and inter-chromosome translocation) ,序列串联重复 (tandem duplications) 和序列在基因组上的散在重复 (interspersed duplications) 。

2. Split read (SR)

Pindel1是目前唯一一个使用SR方法进行变异检测的软件。首先,在获得了单端唯一比对到基因组上的PE read之后,Pindel会将不能比上的那条read切开成2或者3小段,然后再分别重新按照用户所设置的最大序列删除长度去比对,并获得最终的比对位置和比对方向,而断点位置的确定则是根据soft-clipped的结果来获得。 Pindel 理论上能够检测所有长度范围内的deletion,和小片段的insertion (长度在50bp以下) ,inversion,tandem duplication和一些large insertion。Split-reads的一个优势就在于,它们精确到单碱基。但是也和大多数的PEM方法一样,Pindel同样无法解决复杂结构性变异的情形。

3. Read Depth (RD)

目前存在两种利用Read depth的信息检测大拷贝数变异 (Copy number variation,包括丢失序列和序列重复倍增,简称CNV) 的策略。一种是,通过检测样本在一个参考基因组上read的深度分布情况来检测CNV,适用于单样本;另一种则是通过和识别出比较两个样本中所存在的丢失和重复倍增区,以此来获得相对的CNV,适用于case-control模型的样本。RD的方法能够很好地用于检测一些大的deletion或者duplication事件,但是对于小的变异事件就无能为力了。

4. 基于de novo组装的方法

De novo assembly 的方法应该要算是基因组变异检测上最有效的方法了。就目前来说,它能够提供 (特别是) 对于long insertion和复杂结构性变异的最好检测方法。现在虽然研究人员开发了很多基于第二代测序技术数据来进行组装的软件,但是组装却仍然是一件棘手的事情,特别是脊椎动物的组装则更是如此。其中最主要的原因在于,脊椎动物基因组上所存在的重复性序列和序列的杂合会严重影响组装的质量,除去资金成本,这也在很大程度上阻碍了利用组装的方法在基因组变异检测方面的应用。

变异检测软件

结构变异与人类疾病

与其他形式的遗传变异相比,结构变异为人类基因组赋予更高的多样性。不过,这种变异很难利用短读长技术来鉴定;最近,人类基因组结构变异联盟近日对人类基因组中的结构变异 (SV) 进行了深入研究。他们利用Illumina短读长测序、PacBio长读长测序、BioNano图谱绘制等多项技术来全面分析结构变异。研究人员在评估技术贡献后表示,PacBio测序在检测结构变异上的灵敏度是Illumina的三倍,基于短读长数据的变异检出算法往往错过了大多数 (77%) 的插入,PacBio测序技术的发展有望更好地发现中等大小的结构变异 (50+bp到500+bp) ,并改善插入序列的检测分辨率。【点击阅读原文,查看推荐图片】PacBio超长读长的特点,可以准确地鉴定二代测序无法检测的结构变异的同时,确定结构变异的断裂位点位置。如图所示,二代测序没有办法看出KRTAP1-1中的一个deletion的断点,但是三代测序可以很明显的把断点找出来,因为一半的reads 跨越了断点(IGV图中黑色的区域)。【Long-read sequencing and de novo assembly of a Chinese genome】

参考链接

  1. http://blog.csdn.net/alex6plus7/article/details/50236375

  2. http://www.ebiotrade.com/newsf/2017-10/20171016170249756.htm

  3. https://en.wikipedia.org/wiki/Structural_variation

专题学习目录

生信菜鸟团-专题学习目录(1)

生信菜鸟团-专题学习目录(2)

还有更多文章,请移步公众号阅读


如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存