查看原文
其他

三代STR检测软件tandem-genotype实操

生信阿拉丁 生信阿拉丁 2022-04-26


背景


在人类基因组中有近一半的序列为重复序列,根据重复序列的重复单元长度分为STR、微卫星、转座元件等。目前已知有30多种疾病跟STR有关。这里介绍的软件tandem-genotypes,主要针对STRs。


软件操作


软件tandem-genotypes的主要操作步骤包括:
  1. 基因组数据库构建

  2. 数据比对

  3. 检测重复序列

  4. 多样本合并

  5. 结果展示及可视化


1.数据库构建


在检测TRs分析中,推荐使用GRCh38,该版本的基因组注释更全,得到的STRs相对更准确。该步骤,所有项目都是一样的,其实就是检索参考基因组中的重复序列,包括4步。

windowmasker -mk_counts -mem 10000 -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wmstatwindowmasker -ustat GRCh38.wmstat -outfmt fasta -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wm.falastdb -P 8 -u YASS -R 11 -c GRCh38_db GRCh38.wm.fatantan -f 4 -w 2000 Homo_sapiens.GRCh38.100.chr.fa > GRCh38.tantan_out


2.比对


在该步骤中可以参考上面的流程图,主要包括2步,第一步是预测测序的碱基错误率,第二步是比对。

last-train -P 8 -Q 0 GRCh38_db M430a1.parlastal -P 8 -p M430a1.par GRCh38_db M430a0.ccs.fq |last-split > M430a0.maf


3.检测重复序列


可以看到前面的分析主要使用的是其他软件,到这里才开始使用tandem-genotypes,该软件主要用来鉴定STR。

tandem-genotypes -n 10 -g GRCh38_refGene.flat.txt GRCh38.tantan_out M430a0.maf > M430a0.TR.genotype


4.多样本结果合并


这个步骤主要是在人群上比较不同样本之间STRs的差异,便于筛选候选致病的STRs。
tandem-genotypes-join M430*genotype > sample.M430.merge.out


5.结果显示及可视化


这里展示3个样本的合并结果中的第一个结果。表1 结果示例

#Chrchr5
Start6448622
End6448637
UnitGCA
GeneUBE2QL1
Region5'UTR
sample0_strand1552,557
sample0_strand2545,548
sample1_strand1545,546,546
sample1_strand2.
sample2_strand1544,545,545,546
sample2_strand2546,546,547,549
对该结果进行可视化,命令如下:
/minicoda3/bin/python3.9 /tandem-genotypes-master/tandem-genotypes-plot sample_all.merge.out
这里只展示了一个结果,如下:
图:tandem-genotypes结果展示。横坐标表示STR的拷贝数,纵坐标表示支持该拷贝数的reads数目。红色表示链1或者正链的reads,蓝色表示链2或者负链的reads。


注意


在数据库构建过程中,为了加快速度,可以考虑拆分为单个染色体进行,最后再合并。


总结


软件tandem-genotypes支持在全基因组范围内检测STR,需要输入的数据包括三代测序数据,参考基因组fa文件,参考基因组基因信息。如果参考基因组版本不变,其中的建库步骤可以一次完成,多次使用。该软件整体使用友好,结果可读性好,满足STR的基本需求。


参考资料


1.Koning A D , et al. Repetitive elements may comprise over two-thirds of the human genome.[J]. PLoS Genetics, 2011, 7(12):e1002384.
2.Liehr, T. Repetitive Elements in Humans. Int. J. Mol. Sci. 2021, 22, 2072
3.Mitsuhashi, S. , et al. "Tandem-genotypes: robust detection of tandem repeat expansions from long DNA reads." Genome Biology 20.1(2019):58-.
4.Tandem-genotypes:https://gitee.com/bucongfan/tandem-genotypes


作者:大行山

审稿:童蒙

编辑:angelica

往期精彩回顾

全基因组测序的前世今生

估计基因组大小, Kmer survey还是Flow Cytometry?

当红辣子鸡-空间转录组与单细胞转录组的整合分析(下篇)

利用Biopython来进行序列比对

MAGMA软件实现gene-based & gene-set-based关联分析

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存