nanopore测序技术专题(十五):利用NanoPlot进行数据质控
对于二代测序,可以使用fastqc软件对数据进行全面的统计绘图。但是由于二代测序(主要指illumina)独特的特性,例如读长长度一致,有可能包含adapter和Duplication等。因此,虽然同样是fastq格式文件,但并不太适合用来处理nanopore数据,里面的一些质控指标并不适用。那么有没有类似于fastqc的软件来处理nanopore数据呢,目前看起来NanoPlot软件比较好用的nanopore数据质控软件。
NanoPlot 绘制质控图
NanoPlot可以用来对nanopore数据进行统计绘图,输入文件为fastq格式,绘图时需要调用NanoStat进行统计。NanoPlot利用这些统计信息进行绘图,最终会生成一个网页格式文件,包括序列读长的直方图、序列读长与序列平均质量的散点图等。同时,该软件也可以对guppy碱基识别后生成的统计文件sequencing_summary.txt进行绘图。
网址:https://github.com/wdecoster/NanoPlot
可以直接使用pip安装,不过由于python版本的问题,还是推荐使用bioconda来进行安装。
conda install -c bioconda nanoplot
使用案例
NanoPlot可以直接对guppy生成的fastq文件进行处理,同时也支持fasta格式,支持压缩格式,或者排序后的bam文件,如果有sequencing_summary.txt也可以直接进行绘图。
直接对fastq格式质控
NanoPlot --fastq ../2.rawdata/minion/all..fastq.gz -t 12 --maxlength 40000 --plots hex dot pauvre kde -o nanoplot
NanoPlot可以直接对guppy生成的sequencing_summary.txt的绘图。
Nanoplot --summary sequencing_summary.txt --loglength -o summary
选项参数:
-t:线程数目
-o, --outdir:输出结果目录
-p, --prefix:输出结果前缀
--color:点的颜色
--N50 表示在序列读长的直方图中显示N50的标识
--title:标题
--downsample :在输入文件中随机抽取n条序列进行处理
--minlength:忽略nbp以下的reads
-- fastq:输入fastq格式文件
-f:图片类型
--plots:绘图类型,kde,hex,dot,pauvre
结果解读
NanoPlot输出结果主要是一些图片和一个网页文件,直接将结果拷贝到windows电脑上用浏览器打开网页文件即可。里面主要包括一些统计信息和可视化展示。对于nanopore数据来说,最重要的两个指标为长度分布与平均Q值,这些指标将用于下一步的数据质控操作。
表1 NanoPlot质控统计表
feature | |
General summary | |
Mean read length | 11,081.4 |
Mean read quality | 9.6 |
Median read length | 7,294.5 |
Median read quality | 9.8 |
Number of reads | 95,512.0 |
Read length N50 | 18,330.0 |
Total bases | 1,058,406,774.0 |
Number, percentage and megabases of reads above quality cutoffs | |
>Q5 | 95512 (100.0%) 1058.4Mb |
>Q7 | 95448 (99.9%) 1058.1Mb |
>Q10 | 36486 (38.2%) 438.0Mb |
>Q12 | 7 (0.0%) 0.0Mb |
>Q15 | 0 (0.0%) 0.0Mb |
Top 5 highest mean basecall quality scores and their read lengths | |
1 | 12.5 (448) |
2 | 12.3 (402) |
3 | 12.2 (188) |
4 | 12.2 (588) |
5 | 12.1 (316) |
Top 5 longest reads and their mean basecall quality score | |
1 | 131235 (10.1) |
2 | 117438 (10.1) |
3 | 112731 (8.9) |
4 | 111431 (10.2) |
5 | 109384 (8.5) |
---------- END ----------
(添加作者微信,请注明单位姓名)
您可能还会感兴趣的
上传数据,直接分析,生物云服务器重磅升级
基因学苑文章列表(201909)
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X