查看原文
其他

【直播】我的基因组 42: 不同lane的variation的比较

2017-01-09 生信技能树

这里还是直接用现成的工具:snpEFF软件套装里面的SnpSift工具,具体安装教程见前面第5讲。

【直播】我的基因组(五):测试数据及参考基因组的准备  

(

可以看到5个lane得到的variation的总数差异主要取决于数据量的多少。


java -jar  ~/biosoft/SnpEff/snpEff/SnpSift.jar  concordance -v L*.vcf 1>concordance.txt 2>SnpSift_Concordance.log


用的时候,才意识到这个工具只能比较两个样本得到的variation文件的区别。但是因为这个软件运行的速度非常快,我们可以写一个脚本做批量的两两比较。

查看summary文件可知,它们两两之间在同一个坐标的variation的差异非常少,一万出头的区别,而查看具体为什么有差异的文件如下:

可以看到它们的差异都是在INDEL上面,而这个INDEL本来就不准确,尤其是把我的全基因组测序数据拆分成了不同的lane之后,测序深度对每个lane来说,都严重不足,当然,里面也有一些是SNV的差异,这个就很值得细究了,为什么同一个位点在这个lane里面测到的变异是T,而在另一个lane里面测到的G呢?(因为比例很少,所以我们仍然认为这些lane都是来自于同一个样本的!)


所以一般标准流程里面想判断样本是否来源于同一个个体,只会挑选一些金标准位点,通常是hapmap计划里面的一些位点,也不需要比较全部的几百万位点,选一千个位点就足够了。



文:Jimmy、阿尔的太阳

图文编辑:吃瓜群众







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存