查看原文
其他

一款计算亲缘关系和祖先分析的软件-AKT

生信阿拉丁 生信阿拉丁 2022-05-16


一款计算亲缘关系和祖先分析的软件-AKT


俗话说:磨刀不误砍柴工。对大样本的WGS和WES分析,亲缘关系和祖先分析是一个非常重要的质控点,可以用来保证实验的稳定性。做好了数据质控,对下一步分析大有裨益,接下来的分享不可以错过喔~


一般来讲,亲缘关系的计算有以下几方面作用:
  • 检测关联样品

  • 确定样品祖先

  • 计算突变之间的相关性

  • 检查孟德尔遗传一致性

  • 进行样品聚类


在2017年,illumina开发的一款名为AKT的工具,可以很快速地进行这方面的分析,是一个很方便使用的软件。下面我们来看看吧。







软件安装






从github上下载安装

git clone https://github.com/Illumina/akt.git
cd akt/
make






使用说明







./akt COMMAND <options>

总共有五个命令分别为:
  • pca :对样品进行主成分分析
  • kin :计算两两间的亲缘关系相关性
  • relative:给出有家系关系的个体
  • unrelated:给出无关的个体
  • pedphase:孟德尔遗传的phasing结果

PCA

  • 普通用法
    ./akt pca multisample.bcf -R data/wgs.grch37.vcf.gz -O b -o pca.bcf > pca.txt
    其中-R :区域文件,其他参数见网页说明。
    结果也很易懂,pca.txt为:
    SAMPLE_ID0 P0 P1 P2 P3 P4
    SAMPLE_ID1 P0 P1 P2 P3 P4
    ...

  • 添加另一个家系的用法

    直接利用方法1中获得的pca.bcf进行后续的分析。

    ./akt pca new_multisample.bcf -W pca.bcf > projections

  • 绘制PCA的图

    使用提供的脚本进行绘图。

    Rscript scripts/pca.R pca.txt

计算亲缘系数

./akt kin -R data/wgs.grch37.vcf.gz -M 1 input.bcf > kinship.txt

-M为选择计算亲缘关系的方法,结果为:
ID1 ID2 IBD0 IBD1 IBD2 KINSHIP NSNP

选择亲缘关系样品

akt relatives kinship.txt -p pedigree

选择无关样品

akt unrelated kinship.txt > unrelated.ids






性能和效果






整体而言,该软件运行速度是非常快的。使用1000GP的数据:

  • 1000GP的2504个无关个体,总共84M的变异,代表了常见的散发样品使用场景

  • 433个高覆盖度样品,包括129个trio和9个双胞胎家系,34.4M变异。代表了家系分析的场景。






参考文献






1. https://illumina.github.io/akt/
2. https://github.com/Illumina/akt
3. Arthur R , Schulz-Trieglaff O , Cox A J , et al. AKT: Ancestry and Kinship Toolkit[J]. Bioinformatics, 2016, 33(1):btw576.


作者:童蒙
编辑:angelica



往期精彩


家系分析软件汇总

Lifemap:探索生命之树

单细胞分析揭示iCAF亚群在膀胱癌治疗中的靶标作用

说说三代测序

详细介绍最新版可变剪接软件rMATS

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存