查看原文
其他

lakeseafly 2018-06-04

De Novo sequencing (重头测序) 的基本介绍

定义

为了获得未知植物,野生动物和新病原体的基因序列,由于这些基因组没有可用于比对的参考序列,因此必须重新进行全基因组测序。这种测序称为从头测序。通常,对从基因组DNA合成的不同长度的DNA片段进行下一代测序,并使用称为组装的程序重新组装基因组序列。

De Novo测序的优点

  1. 将重叠的短读集合到更长的重叠群中,生成准确的参考序列,即使是复合或多倍体基因组

  2. 提供有用的信息,用于绘制已知生物体的新生物或整理基因组的基因组

  3. 查清高度相似或重复的区域,用于准确的从头装配

  4. 识别结构变体和复杂的重排,例如 deletions, inversions, or translocations


标准工作流程

主要的工作流程包括新数据的预处理,标准的数据分析步骤和特殊分析。 数据预处理:这包括检测数据的完整性和数据的测序深度等。

足够的测序深度是De novo 测序的关键。测量不同物种所需要的测序深度也不同,例如如果是植物的,推荐测序深度至少50X以上。另外,paired end的数据能取得更加准确的组装结果。(关于paired end data这反方面的知识,会以后在我们公众号中详细讲解)

下面主要介绍标准数据分析中的核心步骤:de novo assembly(组装)在短序列组装中,主要有三种策略: Greedy extension (基于字符串的方法), de Bruijn 图 and 重叠布局(基于图的方法)

对于有超过数亿个短序列的大数据集,基于De Bruijn的组装工具是最合适的。(基于De Bruijn的组装工具有 : AbySS, ALLPATHS, Edena, Velvet and SOAPdenovo)

具体例子:熊猫🐼基因的de novo Sequencing

熊猫测序数据的设置

  • 37 paired-end insert libraries with insert sizes of 150 bp, 500 bp, 2 kb, 5 kb and 10 k were constructed.

  • Illumina Genome Analyzer platform.

  • 176 Gb of usable sequence, 73 x coverage of the whole genome.

  • Average read length of 52 bp.

  • SOAPdenovo assembler, using the de Bruijn graph algorithm.

使用paired end reads进行组装

  • 从最小的read(<500bp)开始组装

  • 使用paried end 数据的信息将contigs组装成scaffolds

  • 填充scaffolds中的gaps

组装结果的总结

  • 最终基因重叠大小 2.2Gb vs 预测基因组大小2.4Gb 

  • de novo sequence and assembly 很好的测量了熊猫的基因组 

resequencing 的基本介绍

定义

通过已经测序的基因组,可以确定某个个体的基因组序列和外显子区域(exome)的序列,并使用序列的均匀性作为指标来绘制参考基因组序列。目前,这种称为基因组的重新测序。对于人类来说,在不久的将来,基于通过与相应的参考基因组序列比较,获得的构象多态性(个体基因组信息)的信息将诊断和治疗疾病。

标准工作流程

主要目的:识别单核苷酸多态性(SNP),插入/缺失,结构变异等。

主要的工作流程:

  1. 创建一个用于搜索参考基因组的索引。

  2. 使用索引,将短序列比对到引用上。

  3. 形成一致的序列片段

  4. 识别SNP,基因注释等

下面主要介绍标准数据分析中的核心步骤:比对 (mapping) 和 识别单核苷酸多态性 (snp calling)

比对 (mapping):
  • 其中最重要的成分是索引:查找结构快速找到短序列。

主要的比对工具包括:基于hash表的方法例如BLAST,基于前缀后缀的特里数组的Burroughs-Wheeler变换(BWT)。例如BWA

  • 短序列比对存在的挑战

  1. 人类基因组由非常多重复的序列组成,导致比对的定位模糊。短序列长度短,如果它们属于重复区域,很难确认它们到底真正比对到哪个位置。

  2. 我们必须考虑到测序列(机器)中产生的错误和样本和参考序列之间产生的差异

识别单核苷酸多态性 (snp calling):
  • 在将短序列与参照基因组比对后,鉴定不同于参考的核苷酸。 

  • 后续可选择的分析:全基因组关联研究(GWAS)旨在寻找与某些表型相关的SNP。主要用于检查不同个体的许多常见遗传变异体,并鉴定其相关的特定性状,例如主要疾病的遗传特定性状。

具体例子:The 1000 Genomes Project

  1. 1000基因组计划旨在提供人类基因组序列变异的重要的表征,作为调查基因型与表型之间关系的基础。这是第一个对大量人群基因组进行排序的项目,为人类遗传变异提供了一个全面的资源。

  2. 该项目计划将每个样本序列到4x基因组覆盖率;在这个测序深度上,排序不能发现每个样本中的所有变体,但可以允许检测频率低至1%的大多数变体。在项目的最后阶段,合并了2,504个样本的数据,以便在项目发现的所有变体位点,对每个样本中的基因型进行高度准确的测量。

参考

  1. http://genome.nig.ac.jp/english/glossary_e/resequencing-and-de-novo-sequencing.html

  2. http://foreign.macrogen.co.kr/chn/service_ngs02.html

  3. https://www.illumina.com/techniques/sequencing/dna-sequencing/whole-genome-sequencing/de-novo-sequencing.html

  4. Li et al. (2010) The sequence and de novo assembly of the giant panda genome. Nature 463, 311–317.

本文作者:lakeseafly

还有更多文章,请移步公众号阅读

如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存