查看原文
其他

【直播】我的基因组 41:按照不同的lane来call variation

2017-01-09 生信菜鸟团 生信技能树

我现在已经有了5条lane的测序数据合并后的bam比对文件,也对这个文件做了过滤和找变异。但是不能忽略的是这些测序数据的确是来自于不同的lane,我们有必要回过头去检查一下这些lane的样本都是我本人的吗?有没有可能公司做错了呢?而按照不同的lane来call variation后得到的变异就可以相互比较了。



首先要把bam文件根据lane的标记来拆开,前面我们提到了把bam文件根据染色体来拆开的软件是bamtools,它还可以指定 -tag RG 来把这个bam文件按照原来的测序上样品的lane给分离开(因为本身测序文件就是多个,比对后merge的bam)

命令如下:

~/biosoft/bamtools/bamtools/bin/bamtools split -in ~/data/project/myGenome/bamFiles/P_jmzeng.final.bam -tag RG

从输出的bam文件的大小,就知道每条lane的上样量不一致。

对上面不同lane的bam文件,统一进行过滤掉低质量比对reads,multiple mapped reads和PCR duplication的reads情况。可以看到它们用同样的过滤参数,过滤掉的reads差不多,说明这些lane还是比较稳定。



然后对它们批量找variation,我们还是使用最方便的bcftools和freebayes吧:

软件用法见:

【直播】我的基因组25:用bcftools来call variation

软件的下载和用法,都在前面的帖子里面已经详细说明了,就不赘述啦!但是有很多朋友关心过这个过程耗费的时间,所以我刻意在脚本里面记录了一下时间。

【直播】我的基因组(四):计算资源的准备 (所有软件安装教程)

输入的bam文件大小看上面的截图,用freebayes来call variation耗时如下(单位是秒):


用bcftools来call variation耗时如下(我只调用了一个线程):

似乎bcftools会更慢一些,而且很明显,call variation这一个步骤的耗时主要取决于你的bam文件的大小。



文:Jimmy、阿尔的太阳

图文编辑:吃瓜群众




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存