PopLDdecay | 群体研究的加速器
导读
有这么一款软件,在文章还没发表前,就已被开发者发布到网上供其他研究人员使用,并在文章发表前,在google学术上搜索引用使用此软件包的文章已有16篇。
图1 2016年PopLDdecay软件信息出现于网络
图2 PopLDdecay软件引用文章搜索
今天,科技君要给大家推荐的就是这款PopLDdecay,研究连锁不平衡(LD)的利器。近期,华大在《Bioinformatics》正式发布了这个软件[1]。
PopLDdecay相较于其他常用的LD decay分析软件如Plink和Haploview,运行速度更快,使用内存也大大降低。
表1 不同分析软件运行时间和使用内存比较
注:统计结果是利用1000个基因组chr22的VCF文件同时使用PopLDdecay、Haploview和PLINK软件进行分析所得。
PopLDdecay的输入文件是VCF文件(变异检测的结果文件),可由开源软件GATK产生。通过“-MAF”、“-Miss”和“-Het”参数根据MAF值、缺失率和杂合率过滤SNP。最后会输出D’ 、r2值和LD decay图。如果输入文件是phased VCF文件,那么PopLDdecay软件包还可以用于计算EHH值,这个参数在群体选择分析研究中有时也会用到。
图3 PopLDdecay操作流程
在2017年,这款软件就受到了信息分析届的关注,还有人针对其给出了攻略☞
连锁不平衡系列:PopLDdecay,软件使用过程可以参考其中的方法,但部分信息有些不准确。PopLDdecay软件经多次和Haploview、plink1.9比较,发现从计算速度和使用内存都有很大的优势。不过软件默认不输出两两比对的-OutType 【PairWise SNP LD info】信息,但这是出于为了减少使用的盘阵空间而设定的。如果需要,可以根据-OutType参数说明,选择输出两两比对更多信息。
值得一提的是,我们的小伙伴不仅为信息分析工作者分享了PopLDdecay,而且还在GitHub上公开了许多好用的开源软件https://github.com/BGI-shenzhen/BamDeal,并保持升级更新。
图4 GitHub分享软件示例
在动植物、医学、微生物领域我们积累了丰富的信息分析经验。自1999年成立以来,华大共发表论文2,586篇,其中被SCI收录的有2146篇,华大一作文章1276篇、通讯文章1094篇、一作且通讯文章940篇、第一作者第一位或通讯作者最后一位单位发表论文928篇,SCI总被引次数合计140,466次。丰富的经验和不断提升自我修养的伙伴是我们能提供优质服务的强大支撑。
连锁不平衡(LD)的背景小知识
连锁不平衡(LinkageDisequilibrium, LD)指在同一条染色体上,两个等位基因间的非随机相关。
例如:假设有两个相邻的基因X和Y,对应的等位基因分别是A、a和B、b,如下图所示:
图5 基因和等位基因
如果A与B独立遗传的话,那么在群体中单倍型为AB的频率为fAB=fA*fB(fA代表A等位基因的频率和fB代表B等位基因的频率),如果A与B紧密连锁,fAB≠fA*fB,则代表基因A和B连锁不平衡,连锁不平衡度D=fAB-fA*fB。理论上LD的强度与两个基因(或两个位点)间的距离相关,距离越小发生重组的机会越小,LD强;距离越大发生重组的机会越大,LD弱。但是D值的计算严重依赖于等位基因频率,所以不适合描述实际的LD强度,尤其是进行不同研究LD值的比较。所以常用的度量LD的是D’和r2,两者计算公式如下:
当D'=0、r2=0时处于完全连锁平衡状态,D'=1、r2=1时处于完全连锁不平衡状态。r2和D’反映了LD的不同方面。r2包括了重组和突变,而D’只包括重组史。D’能更准确地估测重组差异,但样本较小时低频率4种等位基因组合的可能性大大减小,因此D’不适合小样本研究。LD作图中通常采用r2来表示群体的LD水平。r2受基因频率的影响,基因频率的改变会引起LD的改变。
迁移、突变、选择、有限的群体大小或群体经历的其他遗传变异都会引起连锁不平衡的增加。LD发挥着很大的作用,譬如全基因组关联分析就是基于连锁不平衡检测与目标性状相关的基因位点;育种过程中使用标记辅助育种,也是基于对与功能基因紧密连锁的标记进行选择实现目的基因被选择。检测某个物种的LD衰减速度,有助于判断分析或应用需要的标记密度。
我们经常用LD衰减距离及LD系数降低到一定大小(如降到最大值得一半或LD系数降低到0.2以下等)时对应的物理距离来描述LD衰减速度的快慢(LD decay)。对于不同物种,其LD衰减距离不同,如栽培大豆~150kb、野生大豆~75kb、玉米<1kb、水稻 <1kb、拟南芥~3-4 kb[2],猪<1kb[3]、牛<1kb。对于LD衰减速率慢的物种来说,距离比较远的标记也可以与目标基因紧密连锁,用于标记辅助选择,但是同时也比较难打破目标基因与其他负效应基因的连锁。另外进化过程中与驯化相关的基因受到选择,由于邻近效应,其侧翼的序列也受到选择,最终使得这个区域LD值变大。这个也被用于作为进化分析中筛选selective sweep区间的候选参数。
图6 利用r2值展示野生大豆和栽培大豆LD decay[2]
用来度量LD常用的参数是D’和r2,随着测序技术的不断进步,现在越来越多的研究使用SNP作为标记来进行群体方面的研究。研究中,在获得LD衰减图前,需要将VCF文件转换为“PED”或“bed+bim+fam” 文件格式,然后用Haploview或PLINK软件计算D’ 或r2值,在此过程中会产生大量的D’或r2结果。当SNP标记数上百万时,计算效率和存储都受到了挑战。为此,科技君的小伙伴开发了PopLDdecay软件包[1],有此利器,无需再进行文件格式的转换,同时无需存储D’或r2数据,为进行LD decay计算缩短了时间,节约了资源。
【参考文献】
[1] Chi Zhang, Shan-Shan Dong, Jun-Yang Xu, Wei-Ming He, Tie-Lin Yang; PopLDdecay: a fast and effective tool for linkage disequilibrium decay analysis based on variant call format files, Bioinformatics, bty875, https://doi.org/10.1093/bioinformatics/bty875
[2] Lam H M, Xu X, Liu X, et al. Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection.[J]. Nature Genetics, 2010, 42(12):1053-1059.
[3] Renata Veroneze, John WM Bastiaansen, Egbert F Knol, et al. Linkage disequilibrium patterns and persistence of phase in purebred and crossbred pig ( Sus scrofa ) populations[J]. BMC Genetics,15,1(2014-11-25), 2014, 15(1):126.
撰稿:小 萍
编辑:市场部
【近期热文】
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!