其他
【直播】我的基因组 42: 不同lane的variation的比较
这里还是直接用现成的工具:snpEFF软件套装里面的SnpSift工具,具体安装教程见前面第5讲。
(
可以看到5个lane得到的variation的总数差异主要取决于数据量的多少。
java -jar ~/biosoft/SnpEff/snpEff/SnpSift.jar concordance -v L*.vcf 1>concordance.txt 2>SnpSift_Concordance.log
用的时候,才意识到这个工具只能比较两个样本得到的variation文件的区别。但是因为这个软件运行的速度非常快,我们可以写一个脚本做批量的两两比较。
查看summary文件可知,它们两两之间在同一个坐标的variation的差异非常少,一万出头的区别,而查看具体为什么有差异的文件如下:
可以看到它们的差异都是在INDEL上面,而这个INDEL本来就不准确,尤其是把我的全基因组测序数据拆分成了不同的lane之后,测序深度对每个lane来说,都严重不足,当然,里面也有一些是SNV的差异,这个就很值得细究了,为什么同一个位点在这个lane里面测到的变异是T,而在另一个lane里面测到的G呢?(因为比例很少,所以我们仍然认为这些lane都是来自于同一个样本的!)
所以一般标准流程里面想判断样本是否来源于同一个个体,只会挑选一些金标准位点,通常是hapmap计划里面的一些位点,也不需要比较全部的几百万位点,选一千个位点就足够了。
文:Jimmy、阿尔的太阳
图文编辑:吃瓜群众