查看原文
其他

【直播】我的基因组 29:统计1000 genome hom-het ratio

2016-12-30 生信菜鸟团 生信技能树

在千人基因组计划的ftp服务器下载所有个体的突变信息文件如下:

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502


其中MT(线粒体),X,Y染色体比较特殊,Y染色体不可能有杂合的variation,当然这是从理论而言。

这些文件本质上也是vcf格式的文件,只需要对vcf文件有足够的了解,就很容易从里面提取出纯合和杂合的信息,而且也还区分的出snp或indel,脚本略微有点复杂,我这里就不列出了。(可以去生信技能树论坛上面看我的代码: ,或者点击阅读原文查看)

重点就是要明白第9列后面的是一个个样本,我们只需要关注 0|1、1|0、1|1 这3种情况就好了。请自行阅读vcf说明书:

GT : genotype, encoded as allele values separated by either of ”/” or “|”. The allele values are 0 for the reference allele (what is in the REF field), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and so on. For diploid calls examples could be 0/1, 1|0, or 1/2, etc.


但是值得注意的是”/” or “|”分割是不一样的,前者不需要care每个allele来自于哪条染色体,后者缺不一样。(应该是只有在大人群队列里面才能做到区分染色体来源的allele吧!)

直接给出结果吧,对snp来说,每条染色体的杂合/纯合的范围如下:

由图可以看出,千人基因组计划的2540个人里面的 snp位点的het/hom的范围是1.5~1.8,暂时没有考虑人种的区别,但可以说明,我的vcf文件没有问题,是正常的。






文:Jimmy

图文编辑:吃瓜群众


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存