其他
三代STR检测软件tandem-genotype实操
背景
在人类基因组中有近一半的序列为重复序列,根据重复序列的重复单元长度分为STR、微卫星、转座元件等。目前已知有30多种疾病跟STR有关。这里介绍的软件tandem-genotypes,主要针对STRs。
软件操作
基因组数据库构建
数据比对
检测重复序列
多样本合并
结果展示及可视化
1.数据库构建
在检测TRs分析中,推荐使用GRCh38,该版本的基因组注释更全,得到的STRs相对更准确。该步骤,所有项目都是一样的,其实就是检索参考基因组中的重复序列,包括4步。
windowmasker -mk_counts -mem 10000 -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wmstat
windowmasker -ustat GRCh38.wmstat -outfmt fasta -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wm.fa
lastdb -P 8 -u YASS -R 11 -c GRCh38_db GRCh38.wm.fa
tantan -f 4 -w 2000 Homo_sapiens.GRCh38.100.chr.fa > GRCh38.tantan_out
2.比对
在该步骤中可以参考上面的流程图,主要包括2步,第一步是预测测序的碱基错误率,第二步是比对。
last-train -P 8 -Q 0 GRCh38_db M430a1.par
lastal -P 8 -p M430a1.par GRCh38_db M430a0.ccs.fq |last-split > M430a0.maf
3.检测重复序列
可以看到前面的分析主要使用的是其他软件,到这里才开始使用tandem-genotypes,该软件主要用来鉴定STR。
tandem-genotypes -n 10 -g GRCh38_refGene.flat.txt GRCh38.tantan_out M430a0.maf > M430a0.TR.genotype
4.多样本结果合并
tandem-genotypes-join M430*genotype > sample.M430.merge.out
5.结果显示及可视化
这里展示3个样本的合并结果中的第一个结果。表1 结果示例
#Chr | chr5 |
---|---|
Start | 6448622 |
End | 6448637 |
Unit | GCA |
Gene | UBE2QL1 |
Region | 5'UTR |
sample0_strand1 | 552,557 |
sample0_strand2 | 545,548 |
sample1_strand1 | 545,546,546 |
sample1_strand2 | . |
sample2_strand1 | 544,545,545,546 |
sample2_strand2 | 546,546,547,549 |
/minicoda3/bin/python3.9 /tandem-genotypes-master/tandem-genotypes-plot sample_all.merge.out
注意
在数据库构建过程中,为了加快速度,可以考虑拆分为单个染色体进行,最后再合并。
总结
参考资料
作者:大行山
审稿:童蒙
编辑:angelica
往期精彩回顾