查看原文
其他

三代SV检测软件之cuteSV

生信阿拉丁 生信阿拉丁 2022-05-16


三代SV检测软件之cuteSV



三代测序在检测基因组结构变异方面有着很大的优势,但是由于数据分析算法、软件还处于不断开发更新中,当前还没有公认推荐的软件。


这里为大家推荐一款国人开发的,可以同时兼顾PacBio和ONT平台数据的SV检测软件
cuteSV



背景


基因组结构变异(Structure variants, SV)在人类疾病,特别是罕见病中扮演了重要角色。当前,三代测序凭借其超长读长(一般超过了10 Kb)的优势,受到越来越多遗传病诊断人员的青睐。


目前,关于三代数据SV的检测算法、软件还处于起步阶段,相比二代数据要少(如下图1),所以在这一块还有很大的开发空间。
图1 基于不同算法的SV软件检测chr8上的SV所需时间,其中LR为针对三代长度长测序的SV检测软件

今天我们推荐一个由国人开发的针对三代数据SV检测的软件—cuteSV。

该软件同时支持目前三代测序领域的两大平台PacBio和ONT的数据,此外,还兼顾了PacBio测序平台的两种测序模式:CLR模式和CCS模式。最重要的是用户体验很好,速度快,性价比高。


软件简介


cuteSV的输入文件为排过序的比对bam文件。

其分析过程为:首先根据输入的比对结果分别检测5种SV类型的主要特征,然后根据特征结果对比对结果进行两轮聚类优化,最后进行SV鉴定和基因型检测。  

图2 软件cuteSV检测SV的主要过程


作者比较了目前支持PacBio平台数据的几款软件,发现cuteSV在不同测序深度下,对CLR和CCS的数据表现都很好。
                   

图3 不同软件检测SV的能力比较



软件安装


软件可以直接从GitHub上下载安装,非常方便。
$ pip install cuteSV
#or
$ conda install -c bioconda cutesv
#or
$ git clone https://github.com/tjiangHIT/cuteSV.git && cd cuteSV/ && python setup.py install

注意,该软件是用Python3版本编写的,内部调用了一些常用软件,提前安装好即可,特别以下几款软件是必须的:




1. python3
2. pysam
3. Biopython
4. cigar
5. numpy
6. pyvcf



软件使用


该软件同时支持3种类型的数据,不同类型数据使用了不同固定参数,一般选择默认即可。这里我们主要介绍第一种CLR类型的数据分析。
> For PacBio CLR data:
--max_cluster_bias_INS  100
--diff_ratio_merging_INS 0.3
--max_cluster_bias_DEL 200
--diff_ratio_merging_DEL 0.5

> For PacBio CCS(HIFI) data:
--max_cluster_bias_INS  1000
--diff_ratio_merging_INS 0.9
--max_cluster_bias_DEL 1000
--diff_ratio_merging_DEL 0.5

> For ONT data:
--max_cluster_bias_INS  100
--diff_ratio_merging_INS 0.3
--max_cluster_bias_DEL 100
--diff_ratio_merging_DEL 0.3

软件输入数据为比对好的bam文件,参考基因组的fa文件,输出SV文件,分析目录(该目录主要用于保存中间文件)。
cuteSV <sorted.bam> <reference.fa> <output.vcf> <work_dir>

其他参数说明如下,这里作者不仅给出了参数说明,还非常友好指出了每个参数的默认参数,对于一般分析人员而言,使用默认参数即可。



软件实测


为了检测软件的性能,我们使用了30X的CLR数据进行测试。

运行命令如下:
bin/cuteSV \
--max_cluster_bias_INS 100 
--diff_ratio_merging_INS 0.3 
--max_cluster_bias_DEL 200 
--diff_ratio_merging_DEL 0.5 \ #固定默认参数
--threads 8 
--sample test 
--retain_work_dir 
--report_readid 
--min_support 10 
--min_size 50\ #自定义参数
test.sorted.bam test.SV.vcf tmp_dir #输入输出文件定义

分析结果如下,INS和DEL类型的SV同样占主要比例,与其他软件结果类似。

                  

图4 SV结果统计



其他注意事项


1. 该软件目前只支持5种基本类型的SV,包括INS、DEL、INV、DUP、BND,对于复杂类型的SV暂时不支持。


2. 软件cuteSV检测到的SV同样包含IMPRECISE标签的SV,为了保证SV的准确性,减轻后期分析压力,可以考虑只保留PRECISE标签的SV。



参考资料

1. Kosugi, S. et al. Comprehensive evaluation of structural variation detection algorithms for whole genome sequencing. Genome Biol. 20, 8–11 (2019).

2. Jiang, T. et al. Long-read-based human genomic structural variation detection with cuteSV. Genome Biol. 21, 1–24 (2020).

3.软件GitHub地址: https://github.com/tjiangHIT/cuteSV


作者:大行山

审稿:童蒙

编辑:angelica


往 期 精 彩

如何处理不平衡数据集(附代码)

如何自动化进行特征工程

一个跨物种研究关联基因表达模式的好方法

如何用R语言进行Pvalue显著性标记?

如何科学选择单细胞分析软件呢?

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存