FASTQC结果解读 | miRNA专栏
FASTQC结果解读
为保证下游分析输入数据的可靠性,需要对下机的原始测序数据进行质控。通常我们会使用FASTQC软件对测序数据进行质控。fastqC会生成一个html的结果报告,下面是软件对质控结果进行判断:绿色代表PASS;黄色代表WARN;红色代表FAIL(当出现黄色时说明需要查看结果)。
1. Basic Statics:基本统计信
Filename:文件名
File type: 文件类型
Encoding:测序平台的版本和相应的编码版本号
Total Sequences: total reads的数量
Sequence length: 测序长度
%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。
2. Per base sequence quality:序列测序质量统计
碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。
横轴是测序序列的第一个碱基到第90个碱基(read长度),纵轴是质量得分。红线表示中位数,黄色是25%-75%区间,误差线是10%-90%区间,蓝线是平均值。
任何碱基质量低于10或是任何中位数低于25,报“WARN”;任何碱基质量低于5,或是任何中位数低于20,报“FAIL”。
Q = -10*log10(error P) P为测错的概率,Q20表示1%的错误率,Q30表示0.1%的错误率。
3. Per sequence quality scores:序列的测序质量
用来查看碱基质量是否存在普遍过低的情况。
横轴为序列平均碱基质量值,纵坐标为序列的数量。
绝大部分碱基序列的平均质量值的峰值大于30,可判断序列质量较好,在质量较低的坐标位置出现另一个或多个峰,说明测序数据中有一部分序列质量较差,当峰值小于27(错误率0.2%)时报"WARN",当峰值小于20(错误率1%)时报"FAIL"。
4. Per base sequence content:序列碱基含量
统计在序列中的每一个位置,四种不同碱基占总碱基数的比例,检测有无AT、GC分离的现象。横轴为位置,纵轴为百分比。
正常情况下四种碱基出现的频率应是接近的,且没有位置差异,因此好的样品中四条线应该是平行且接近的,由于刚开始测序仪状态不稳定,造成前几个碱基有波动。在 reads 开头出现碱基组成偏离往往是我们的建库操作造成的,比如建 GBS 文库时在 reads 开头加了 barcode;barcode 的碱基组成不是均一的,酶切位点的碱基组成是固定不变的,这样会造成明显的碱基组成偏离;在 reads 结尾出现的碱基组成偏离,往往是测序接头的污染造成的。
当所有位置的碱基比例一致现出偏差时,即四条线平行且分开,代表文库有偏差,或测序中的系统误差;当部分位置碱基的比例出现偏差时,即四条线在某些位置纷乱交织,则有overrepresented sequence的污染。
当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。
5. Per base GC content:GC含量统计
对所有reads的每个位置统计GC含量,反映样品的GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴。当部分位置GC含量出现偏差时,往往提示我们有污染;当所有位置GC含量一致出现偏差时,往往表示文库有偏差或是测序中的系统误差。
当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”。
6. Per sequence GC content:reads的平均GC含量的分布
蓝线是理论分布(正态分布,通过从所测数据计算并构建理论分布),红色是实际情况,两个比较接近判为好的。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads);形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差;如果出现两个或多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。
偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。
7. Per base N content:统计reads每个位置N的比率
当测序仪器不能辨别某条reads的某个位置都是ATCG哪个碱基时,就会产生"N",对所有reads的每个位置统计N的比率。
正常情况下N的比例是很小的,所以图上常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。
当任意位置的N的比例超过5%报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。
8. Sequence Length Distribution:reads的长度分布
为了防止建库或者测序时有一些不规则长度的序列,也要对被测序序列进行一个长度的统计。
当reads长度不一致时报“WARN”;当长度为0的reads时报“FAIL”。
9. Sequence Duplication Levels:重复reads的次数统计
统计完全一样reads的频率,横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。上图的情况中,相当于unique reads数目的18%的reads是观察到两个重复的,大约5%是观察到三次重复的,依此类推。
测序深度越高,越容易产生一定程度的重复,但重复程度很高,可能是有偏差的存在。Fastqc中用测序数据的前200000条reads统计其在全部数据中的重复情况。重复数目≥10的reads被合并统计,这也是为什么上图的最右侧略有上扬。>75bp的reads只取50bp进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。
当非unique的reads占总数的比例>20%时报“WARN”;当非unique的reads占总数的比例>50%时报“FAIL”。
10. Overrepresented sequences:过多的重复序列
如果有某个序列大量出现,就叫做over-represented,Fastqc的标准是占全部reads的0.1%以上,为计算方便只取测序数据前200000条reads进行统计,所以有可能over-represented reads不在里面。而>75bp的reads也是只取50bp。若在运行时加入-c contaminant file,出现的over-represented sequence会从contaminant file里面找匹配的hit(至少20bp且最多一个mismatch)。
发现超总数0.1%的reads报“WARN”;超过总数1%的reads时报“FAIL”。
11. Kmer Content:Kmer含量
Kmer:将一条reads连续切割,挨个碱基滑动,得到的一组序列长度为k的核苷酸序列。
例:read序列为:ACT GGT GCT AAT GAC GAT。采用7-mer分析
结果为:
ACT GGT G
CT GGT GC
T GGT GCT
GGT GCT A
第一行以reads第一个碱基为起点,第二行以reads第二个碱基为起点,以此类推。每行的长度都是7。
如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话(出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer),fastqc将其记为over-represented k-mer,通常可以在overrepresented sequences图中找到,并查看它的来源。
如果任何k-mer的p值<0.01时报“WARN”;p值<10-5时报“FAIL”。
MCP:多组学整合分析揭示miRNA在杂种优势中的关键作用 | 用户文章
浙大蔡新忠组:miRNA如何调控油菜和核盘菌的相互作用?| 用户文章
浙江省农科院:联合分析鉴定菜用大豆冷胁迫响应miRNA及其靶基因 | 用户文章