点击上方蓝字“ActionFree”一起玩耍
Hi~各位客官~ 今天代班的是Lunar!第一次见面想大家一起聊一聊关于曾经困扰我多时的一个概念
连锁不平衡
(LD, Linkage disequilibrium)
在遗传学相关文献中总是看到这个词,却百思不得其解。连锁不平衡是啥?完全连锁是啥?r2又意味着啥?wiki上对于连锁不平衡的解释是:In population genetics, linkage disequilibrium is the non-random association of alleles at different loci in a given population.
我:???
以至于后来每每在文献中遇到连锁不平衡的时候,我的内心就开始不太平衡。经过我闭关修炼,终于让我自己给总结出了最简单最白痴最容易记的定义。(大神可以无视)
连锁不平衡指的是染色体上两个位点(也可以是基因)同时出现的概率不是随机的,他们总是同时出现。也就是有A总有B。match
这就很容易理解,让我们想象一个极端情况,当我们说A位点上的碱基C与B位点上的碱基T完全连锁的时候,我们的意思是这两个位点处于完全连锁不平衡的状态,也就是说,当我们看到A位点为C时,可以百分百确定B位点的碱基一定是T。而r2代表着这两个位点的连锁程度,当r2 越接近于1时这两个位点的连锁程度越大。当r2 越等于1时也就意味着这两个位点完全连锁。
了解了基本概念之后自然而然就出现一个问题了。当我们讨论连锁不平衡的时候,我们在讨论着什么?
在遗传学研究中,连锁不平衡常常有着这三个作用
在lunar眼中,总觉得imputation是个很高级的事情。在lunar博士师兄一次又一次介绍之后,我恍然大悟!嗨,不就是填空嘛!上文既然说过了连锁不平衡指的是染色体上两个位点(也可以是基因)他们总是同时出现。 我们就可以根据这个现象来推测哪些未被检测出的SNP的位点的情况。至于基因组上位点连锁的概率,千人基因组计划已经为我们准备好啦!
首先,啥是tag SNP呢?它是一种在高度连锁不平衡的基因组区域中具有代表性的SNP,在经费不足的情况下通过检测tag SNP的方法相当于能够检测和它LD的这一片区的情况。那tag SNP有啥用呢?我们举个例子来看:
请大家想象一下,如果我们选择S1, S2, S3三个SNP能够区分出四个不同的单倍型吗?
明显是不行的,因为p1和p4是一样的
那么选择S3, S4, S5三个SNP的结果又是怎样呢?
很容易就选出来了对不对!
这就是通过tag SNP 来区分单倍型的基本原理。
所以当你的GWAS结果是下图时,你心中就要拉起警报了!因为这很有可能是一个假!阳!性!的点
而一般来讲,结果应该是这样的
好啦,今天关于连锁不平衡的知识就介绍到这里了~最后告诉大家一个小秘密其实两个tag SNP就能做到区分四个单倍型的工作哦!你找到了吗?不如在评论区告诉其他小伙伴⬇️ ⬇️ ⬇️
作者:Lunar
封面图片:吴晓欣,摄于澳大利亚~拜伦湾
文章图片:来源于网络及文献
1. Wang W B, Jiang T. A new model of multi-marker correlation for genome-wide tag SNP selection[J]. Genome Informatics, 2008, 21: 27-41.
2. Qin H, Samuels J F, Wang Y, et al. Whole-genome association analysis of treatment response in obsessive-compulsive disorder[J]. Molecular psychiatry, 2016, 21(2): 270-276.