变异形式专题-INDEL
近年来,随着芯片技术和第二代高通量测序技术的发展,人类基因组上的结构性变异图谱才被真正全面而又集中地进行了研究。生物信息研究人员已针对这两种不同的技术开发了许多相对应的软件用于检测基因组的结构性变异。相比较而言,虽然成本较高,但是基于测序的方法要明显优于芯片的检测,其中最重要的一个方面是,高通量测序技术能够在单碱基精度之下对全基因组范围内所有类型的变异进行检测,而芯片技术实际上只对大片段的序列删除比较敏感。
概念理解
经过前面系列专题的介绍,我们可以知道人类基因组上的变异主要分为三大类:
单核苷酸变异,(通常称为单核苷酸多态性,通俗的说法就是单个DNA碱基的不同,简称SNP);
小的Indel(Insertion and Deletion),指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在50bp以下(这个长度范围的变异可以利用Smith-Waterman 的比对算法来获得1,2);基因组上小片段(>50bp)的插入或缺失,形同SNP/SNV。指的是两种亲本(注意是亲本)中在全基因组中的差异,相对另一个亲本而言,其中一个亲本的基因组中有一定数量的核苷酸插入或缺失,根据基因组中插入缺失位点,设计一些扩增这些插入缺失位点的PCR 引物。
大的结构性变异,这种类型比较多,包括长度在50bp以上的长片段序列的插入或者删除、染色体倒位,染色体内部或染色体之间的序列易位,拷贝数变异,以及一些形式更为复杂的变异。为了和SNP变异作区分,第2和第3类变异通常也被称为基因组结构性变异(Structural variation,简称SV)。
新发现:癌症PD-1检测
七月柳叶刀杂志发表了一篇重磅文章:癌细胞中除了常见的点突变外,不少插入突变(Insertion)、缺失突变(Deletion),合在一起就是Indel,也会导致异常蛋白的产生,也会导致免疫系统的激活。因此,Indel越多的肿瘤组织,可能对PD-1抑制剂等免疫治疗更敏感。
相关分析软件
计算全基因组的indel变异和基因型检出值的过程 计算过程主要包含3步:(1)潜在的indel的探测;(2)通过局部重匹配计算基因型的似然值;(3)基于LD连锁不平衡的基因型推断和检出识别。Indel在X,Y染色体上没有检出值得出。
以下为一些Call Indel的软件及使用流程(基本上都是针对Illumina的paired-end数据)
Samtools mpileup
GATK UnifiedGenotyper GATK使用方法详解(变异检测) https://www.plob.org/article/7023.html
Shore http://www.1001genomes.org/software/shore.html Ossowski, S. et al. Sequencing of natural strains of Arabidopsis thaliana with short reads. Genome Research 18, 2024–2033 (2008).
VarScan http://varscan.sourceforge.net/ Koboldt, D. C. et al. VarScan: variant detection in massively parallel sequencing of individual and pooled samples. Bioinformatics 25, 2283–2285 (2009). Koboldt, D. C. et al. VarScan 2: Somatic mutation and copy number alteration discovery in cancer by exome sequencing. Genome Res. 22, 568–576 (2012).
专门用于Call Indel的软件
Dindel http://www.sanger.ac.uk/resources/software/dindel/ Albers, C. A. et al. Dindel: Accurate indel calls from short-read data. Genome Res. 21, 961–973 (2011).
Pindel https://trac.nbic.nl/pindel/ Ye, K., Schulz, M. H., Long, Q., Apweiler, R. & Ning, Z. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinformatics 25, 2865–2871 (2009).
SOAPindel
scalpel软件找indel + 在IGV看看indel是啥样子
搬运一下团长的直播~
【直播】生信编程直播第11题:区分染色体分别运行scalpel软件!(shell) http://www.biotrainee.com/thread-817-1-1.html
【直播】我的基因组73:在IGV看看indel是啥样子 http://www.biotrainee.com/thread-1645-1-1.html
参考
http://www.jianshu.com/p/b04a04a8e0d4 Turajlic S, Litchfield K, Xu H, et al. Insertion-and-deletion-derived tumour-specific neoantigens and the immunogenic phenotype: a pan-cancer analysis. Lancet Oncol. 2017 Jul 7. pii: S1470-2045(17)30516-8
专题学习目录
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。