查看原文
其他

nanopore测序技术专题(十五):利用NanoPlot进行数据质控

王通 基因学苑 2023-08-18

对于二代测序,可以使用fastqc软件对数据进行全面的统计绘图。但是由于二代测序(主要指illumina)独特的特性,例如读长长度一致,有可能包含adapter和Duplication等。因此,虽然同样是fastq格式文件,但并不太适合用来处理nanopore数据,里面的一些质控指标并不适用。那么有没有类似于fastqc的软件来处理nanopore数据呢,目前看起来NanoPlot软件比较好用的nanopore数据质控软件。

NanoPlot 绘制质控图

NanoPlot可以用来对nanopore数据进行统计绘图,输入文件为fastq格式,绘图时需要调用NanoStat进行统计。NanoPlot利用这些统计信息进行绘图,最终会生成一个网页格式文件,包括序列读长的直方图、序列读长与序列平均质量的散点图等。同时,该软件也可以对guppy碱基识别后生成的统计文件sequencing_summary.txt进行绘图。

网址:https://github.com/wdecoster/NanoPlot
可以直接使用pip安装,不过由于python版本的问题,还是推荐使用bioconda来进行安装。

conda install -c bioconda nanoplot

使用案例

NanoPlot可以直接对guppy生成的fastq文件进行处理,同时也支持fasta格式,支持压缩格式,或者排序后的bam文件,如果有sequencing_summary.txt也可以直接进行绘图。

直接对fastq格式质控

NanoPlot --fastq ../2.rawdata/minion/all..fastq.gz  -t 12 --maxlength 40000 --plots hex dot pauvre kde -o nanoplot

NanoPlot可以直接对guppy生成的sequencing_summary.txt的绘图。

Nanoplot --summary sequencing_summary.txt --loglength -o summary

选项参数:
-t:线程数目
-o, --outdir:输出结果目录
-p, --prefix:输出结果前缀
--color:点的颜色
--N50 表示在序列读长的直方图中显示N50的标识
--title:标题
--downsample :在输入文件中随机抽取n条序列进行处理
--minlength:忽略nbp以下的reads
-- fastq:输入fastq格式文件
-f:图片类型
--plots:绘图类型,kde,hex,dot,pauvre

结果解读

NanoPlot输出结果主要是一些图片和一个网页文件,直接将结果拷贝到windows电脑上用浏览器打开网页文件即可。里面主要包括一些统计信息和可视化展示。对于nanopore数据来说,最重要的两个指标为长度分布与平均Q值,这些指标将用于下一步的数据质控操作。

表1 NanoPlot质控统计表

feature


General summary


Mean read length

11,081.4

Mean read quality

9.6

Median read length

7,294.5

Median read quality

9.8

Number of reads

95,512.0

Read length N50

18,330.0

Total bases

1,058,406,774.0

Number, percentage and megabases of reads  above quality cutoffs


>Q5

95512 (100.0%) 1058.4Mb

>Q7

95448 (99.9%) 1058.1Mb

>Q10

36486 (38.2%) 438.0Mb

>Q12

7 (0.0%) 0.0Mb

>Q15

0 (0.0%) 0.0Mb

Top 5 highest mean basecall quality  scores and their read lengths


1

12.5 (448)

2

12.3 (402)

3

12.2 (188)

4

12.2 (588)

5

12.1 (316)

Top 5 longest reads and their mean  basecall quality score


1

131235 (10.1)

2

117438 (10.1)

3

112731 (8.9)

4

111431 (10.2)

5

109384 (8.5)



图1 长度与质量分布图

---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

看了Linux命令的全称,顿时豁然开朗
上传数据,直接分析,生物云服务器重磅升级
基因学苑文章列表(201909)
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存