查看原文
其他

动植物变异检测生信分析经典流程丨生信者言

卧龙 生信者言 2022-03-29


在动植物研究中,变异和进化是最为有意思的事情,因此也是大家在做动植物重测序研究中最经常遇到的。目前我们研究的变异主要包括包括单核苷酸变异(SNP)、小片段插入缺失变异(InDel)、大片段结构变异(SV)、片段拷贝数变异(CNV)、转座子变异等。


下面我给大家分享一个最经典的变异检测分析流程,并附软件使用和参数选择,供大家参考。实际分析中,大家可根据物种基因组、样品个数、建库和测序策略、科研问题自行调参或选用其他软件方法,这个我们后面继续讨论。

 

一、数据质控

推荐使用软件:

Trimmomatic【PMID:24695404】


软件下载地址:

http://www.usadellab.org/cms/?page=trimmomatic


软件使用示例:

java -jar -Xmx6g trimmomatic-0.36.jar PE -threads 4 -trimlog trimmomatic.log  sample_1.fq.gz  sample_2.fq.gz  sample_1.clean.fq.gz sample_1.up.fq.gz  sample_2.clean.fq.gz  sample_2.up.fq.gzILLUMINACLIP:customed_adapter.fa:2:30:10 MINLEN:150 2>sample.clipad.txt


示例参数详解:

  1. PE/SE设定对Paired-End或Single-End的reads进行处理,其输入和输出参数稍有不一样。

  2. -threads设置多线程运行数。

  3. ILLUMINACLIP customed_adapter.fa:2:30:10:切除adapter序列。参数后面分别接adapter序列的fasta文件:允许的最大mismatch 数:palindrome模式下匹配碱基数阈值:simple模式下的匹配碱基数阈值。

  4. MINLEN:150 最小的reads长度。

二、比对参考基因组

推荐使用软件:

BWA【PMID:21730188】


软件下载地址:

http://bio-bwa.sourceforge.net/


软件使用示例:

bwa mem -t 4 -k 32 –M reference  read1.fq  read2.fq


示例参数详解:

-t 线程数,经验值为4。

-k 最小种子长度,经验值为32。

-M 将 shorter split hits 标记为次优,以兼容 Picard’s markDuplicates 软件。

三、SNP/InDel检测

推荐使用软件:

Samtools【PMID:21730188】


软件下载地址:

http://samtools.sourceforge.net/


软件使用示例:

1. sort对bam文件进行排序。

samtools   sort -m 4000000000   file.bam  file.sorted

参数详解:

-m 参数默认下是500,000,000 即500M(不支持K,M,G等缩写)。对于处理大数据时,如果内存够用,则设置大点的值,以节约时间。


2、NGS上机测序前需要进行PCR,此时需要先删除其中的duplication reads。

samtools   rmdup file.sorted .bam  file. rmdup.bam


3、开始比对并输出比对结果。

samtools   mpileup –q 20 -Q20 -C 50 -S -D -m 2 -F 0.002 –uf  genome.fafile.rmdup.bam | bcftools view -cg - > raw.vcf

参数详解:

-q 指定用于突变检测的reads比对质量必须大于等于20。

-Q 指定用于变异检测的reads中的碱基的质量值必须大于等于20。

-S 指定输出每个位点的链偏好性P值。

-D 指定输出每个位点的覆盖深度。

-m 指定InDel的最小覆盖深度。

-f 经过samtools fadix处理过的参考基因组序列文件。

-F 给出比对结果。

-u 指定输出非压缩的BCF文件格式。

 

四、CNV检测

推荐使用软件:

CNVnator【PMID:21324876】


软件下载地址:

http://sv.gersteinlab.org/cnvnator/


软件使用示例:

1、从BAM/SAM文件中提取制定区域Reads并判断Unique Reads。

cnvnator -root $sample.cnvnator.root -tree $sample.final.bam –unique

2、生成柱状图。

cnvnator -root $sample.cnvnator.root -his 100 -d/PUBLIC/database/HUMAN/genome/human/b37_gatk/byChr

3、计算统计量。

cnvnator -root $sample.cnvnator.root -stat 100

4、RD信号分区。

cnvnator -root $sample.cnvnator.root -partition 100

5、CNV检测。

cnvnator -root $sample.cnvnator.root -call 100>$sample.cnvnator.raw

五、SV检测

 推荐使用软件:

BreakDancer【PMID:19668202】


软件下载地址:

https://sourceforge.net/projects/breakdancer/


软件使用示例:

1、生成contig文件。

perl bam2cfg.pl   -q 20 -c4 -g –h A1.rmdup.bam >A1.bamcfg

2、SV检测。

breakdancer-max  -q 20 -dA1 A1.bamcfg >A1.raw.ctx

3、CTX过滤和输出。

ctx-filter.pl   A1.raw.ctx  2  >A1.filted.ctx


/End.




推荐阅读

点击下方图片即可阅读

扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存