动植物变异检测生信分析经典流程丨生信者言
在动植物研究中,变异和进化是最为有意思的事情,因此也是大家在做动植物重测序研究中最经常遇到的。目前我们研究的变异主要包括包括单核苷酸变异(SNP)、小片段插入缺失变异(InDel)、大片段结构变异(SV)、片段拷贝数变异(CNV)、转座子变异等。
下面我给大家分享一个最经典的变异检测分析流程,并附软件使用和参数选择,供大家参考。实际分析中,大家可根据物种基因组、样品个数、建库和测序策略、科研问题自行调参或选用其他软件方法,这个我们后面继续讨论。
一、数据质控
推荐使用软件:
Trimmomatic【PMID:24695404】
软件下载地址:
http://www.usadellab.org/cms/?page=trimmomatic
软件使用示例:
java -jar -Xmx6g trimmomatic-0.36.jar PE -threads 4 -trimlog trimmomatic.log sample_1.fq.gz sample_2.fq.gz sample_1.clean.fq.gz sample_1.up.fq.gz sample_2.clean.fq.gz sample_2.up.fq.gzILLUMINACLIP:customed_adapter.fa:2:30:10 MINLEN:150 2>sample.clipad.txt
示例参数详解:
PE/SE设定对Paired-End或Single-End的reads进行处理,其输入和输出参数稍有不一样。
-threads设置多线程运行数。
ILLUMINACLIP customed_adapter.fa:2:30:10:切除adapter序列。参数后面分别接adapter序列的fasta文件:允许的最大mismatch 数:palindrome模式下匹配碱基数阈值:simple模式下的匹配碱基数阈值。
MINLEN:150 最小的reads长度。
二、比对参考基因组
推荐使用软件:
BWA【PMID:21730188】
软件下载地址:
http://bio-bwa.sourceforge.net/
软件使用示例:
bwa mem -t 4 -k 32 –M reference read1.fq read2.fq
示例参数详解:
-t 线程数,经验值为4。
-k 最小种子长度,经验值为32。
-M 将 shorter split hits 标记为次优,以兼容 Picard’s markDuplicates 软件。
三、SNP/InDel检测
推荐使用软件:
Samtools【PMID:21730188】
软件下载地址:
http://samtools.sourceforge.net/
软件使用示例:
1. sort对bam文件进行排序。
samtools sort -m 4000000000 file.bam file.sorted
参数详解:
-m 参数默认下是500,000,000 即500M(不支持K,M,G等缩写)。对于处理大数据时,如果内存够用,则设置大点的值,以节约时间。
2、NGS上机测序前需要进行PCR,此时需要先删除其中的duplication reads。
samtools rmdup file.sorted .bam file. rmdup.bam
3、开始比对并输出比对结果。
samtools mpileup –q 20 -Q20 -C 50 -S -D -m 2 -F 0.002 –uf genome.fafile.rmdup.bam | bcftools view -cg - > raw.vcf
参数详解:
-q 指定用于突变检测的reads比对质量必须大于等于20。
-Q 指定用于变异检测的reads中的碱基的质量值必须大于等于20。
-S 指定输出每个位点的链偏好性P值。
-D 指定输出每个位点的覆盖深度。
-m 指定InDel的最小覆盖深度。
-f 经过samtools fadix处理过的参考基因组序列文件。
-F 给出比对结果。
-u 指定输出非压缩的BCF文件格式。
四、CNV检测
推荐使用软件:
CNVnator【PMID:21324876】
软件下载地址:
http://sv.gersteinlab.org/cnvnator/
软件使用示例:
1、从BAM/SAM文件中提取制定区域Reads并判断Unique Reads。
cnvnator -root $sample.cnvnator.root -tree $sample.final.bam –unique
2、生成柱状图。
cnvnator -root $sample.cnvnator.root -his 100 -d/PUBLIC/database/HUMAN/genome/human/b37_gatk/byChr
3、计算统计量。
cnvnator -root $sample.cnvnator.root -stat 100
4、RD信号分区。
cnvnator -root $sample.cnvnator.root -partition 100
5、CNV检测。
cnvnator -root $sample.cnvnator.root -call 100>$sample.cnvnator.raw
五、SV检测
推荐使用软件:
BreakDancer【PMID:19668202】
软件下载地址:
https://sourceforge.net/projects/breakdancer/
软件使用示例:
1、生成contig文件。
perl bam2cfg.pl -q 20 -c4 -g –h A1.rmdup.bam >A1.bamcfg
2、SV检测。
breakdancer-max -q 20 -dA1 A1.bamcfg >A1.raw.ctx
3、CTX过滤和输出。
ctx-filter.pl A1.raw.ctx 2 >A1.filted.ctx
/End.
推荐阅读
点击下方图片即可阅读
扫码关注,获取更多精彩内容
我
是
彩
蛋
喜马拉雅FM搜索并订阅:生信者言;收听内容:
《一分钟听懂NGS基础概念》,让生信分析不再遥不可及
《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事
《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史
回复文字:果然科学,看一篇好玩的科普文。