新方案 | circRNA数据分析都做些啥(二)?
上期小编为诸位介绍了circRNA鉴定与注释的相关内容。本期我们重点看circRNA的表达水平分析。
3. circRNA表达水平分析
circRNA表达值是通过计算其TPM(Transcripts Per Million)值进行定量分析。
3.1 circRNA表达值分布统计
circRNA的表达值分布统计如下表所示。
上述表达值分布统计可以进一步用盒形图表示,从整体上观察circRNA的表达水平。对于有生物学重复样本,还可以通过盒形图初步判断设计样本的可重复性。
样本TPM盒形图(横坐标为样品名称,纵坐标为log10(TPM))
3.2 不同circRNA表达值区间分布统计
由于样本的circRNA表达数量和表达值分布存在一定差异,可以将样本表达值(TPM)划分为不同区间,计算不同表达区间样本表达的circRNA数量。
此外,报告中还会给出circRNA覆盖深度统计,circRNA表达值密度图,circRNA表达水平统计表等。
3.3 circRNA差异表达分析
针对不同的实验设计和有无生物学重复样本,我们会设置不同的检测阈值。通常对差异显著基因的默认阈值:有生物学重复样本(q<0.05或者p<0.05),无生物学重复(|log2foldchange|≥ 1,p<0.05)。具体分析结果内容如下。
通过绘制火山图可以了解差异表达circRNA的整体分布情况。以 log2(foldchange)为横坐标,-log10(pvalue)为纵坐标,对差异表达分析中所有的circRNA绘制火山图(如下图)。其中横坐标代表circRNA在不同样本中差异表达倍数变化;纵坐标代表circRNA表达量变化差异的统计学显著性;红点代表上调的显著差异表达基因,绿点代表下调的显著差异表达基因,蓝色的点代表非显著性差异表达基因。
将每一组差异表达分析中的上调与下调的显著性差异表达 circRNA 进行统计,并以柱状图展示(如下图)。红色柱子代表上调的基因频数,绿色柱子代表下调的基因频数。
差异 circRNA表达水平聚类分析
用于判断circRNA在不同实验条件下表达模式。根据样品circRNA表达谱的相近程度,将circRNA进行聚类分析,直观地展示circRNA在不同样本(或是不同处理)中的表达情况,由此获取生物学相关信息。
横坐标为样本,纵坐标为基因,不同颜色表示不同的基因表达水平,红色表示高表达基因,绿色表示低表达基因。
未完待续… …
第一期《circRNA数据分析都做些啥》,请点击“阅读原文”查看。