好享学 | 可视化之为什么要使用箱线图?
The following article is from 生信宝典 Author 生信宝典
本文转载自公众号:生信宝典
首先看箱体:
左边线代表下四分位数(第一四分位数,
Q1
),表示整体数据中有25%的数据少于该值;右边线代表上四分位数(第三四分位数,
Q3
),表示整体数据中有75%的数据少于该值;箱体中间的线代表中位数,是一组数从小到大排列,居于正中间的单个数或正中间两个数的均值;
箱体的长度代表第三四分位数和第一四分位数的差值,也称为四分位间距(
interquartile range,IQR
);箱体两端的衍生线最左延伸至
Q1 - 1.5 x IQR
(下极限),最右延伸至Q3 + 1.5 x IQR
(上极限);超出上下极限线的点(或其他标记)表示潜在异常值(
outliers
)。
为什么要使用箱线图
Jitter plot
可以更好的体现样品数,点越多,结果的稳定性、可靠性越好和工作量越大。条形图
, 箱线图
,小提琴图
和bean plot
对4套数据分别进行了可视化展示。a
是4套模拟数据集的真实分布模式,差别较大;但体现在b
, c
, d
图上时,不同类型的图传达出的主要信息不同,我们也会得出不同的第一印象:用柱状图展示时,四个柱子分别对应于4套模拟数据集。
第一印象柱子的高度一样,反应出四套数据集的平均值是一样的。
看起来只是误差线高低不同,反应出数据存在一些波动。
从这个柱状图很难想到背后的数据分布会如子图
a
中所示,差别那么大。柱状图只用两个统计量展示数据信息,会掩饰数据分布的差异。
另外,也可以看出数据标准差(
SD,Standard Deviation
)相比于标准误(SEM,Standard Error of Mean
)变化更大;从箱线图来看,四组数据的分布差异大体显示出来了,尤其是前面3组数据,很好的反应了数据真实的分布模式。
但第一组数据和第四组数据因为四分位数的统计值相当,仅用箱线图看不出来两组数据的分布是否差别很大;
小提琴图(
Violin plot
)展示数据分布的概率密度。一般来讲,图中越胖(宽)的地方,表示处于该取值范围的数据越多;
越瘦(窄)的地方表示对应区域数据越稀少;结合箱线图的5个核心数据,小提琴图完美呈现了数据的真实分布模式;
这是比较推荐的展示方式。
Bean plot
也可以展示数据的真实分布,而且对比更明显。但个人经验是,
Bean plot
绘制的图经常会展示怪异,通常自己画出来不像这个模拟数据集一样美观,故不太常用。
小提琴图(Violin plot
)展示单细胞Marker基因的表达
Y
轴对应的值表示该基因在相应簇(簇的名字在X
轴显示)的细胞里面的表达值。小提琴的宽度表示表达有对应表达值的细胞的密度。比如右图中PF4
基因在Cluster 7
里面的各个细胞中表达显著高,可以视作Cluster 7
的Marker基因。左图中NKG7
基因,在Cluster 5
中相对表达较高,在Cluster 3
中整体表达较高,可以视作这两个Cluster的Marker 基因。同时也提示Cluster 3
是否有可能再继续细分为2个亚簇?箱线图展示测序质量
二代测序获得的原始FastQ数据通常会用FastQC进行质量评估,并用箱线图展示测序reads
的碱基质量值。如图,横坐标表示reads
中每个碱基的位置,纵坐标表示对应位置碱基的质量值,质量值为20
表示错误率是1/100
,质量值为30
表示错误率是1/1000
;以此类推,数字越小,对应位置的碱基错误率越大。
这张图的绘制方式可以这么理解一下:假如测序了10
万条reads
,将所有reads
从5'-3'
每个位置的碱基垂直排列一起,第1位有10
万个碱基,对应10
万个质量值,用图中左侧第一个箱线图展示10
万个质量值的分布;第2位有同样有10
万个质量值,用图中左侧第二个箱线图展示其分布;以此类推得到上图。左图显示每个碱基的中位质量值(箱线图中间的红线)都比较高,而图三右图的的碱基质量值变化较大,5‘-3’测序质量逐渐下降;后续分析时可能需要进行一定的预处理比如移除低质量碱基等。
箱线图展示标准化效果
箱线图展示菌群Alpha多样性
Alpha
多样性分布。比如上图的三个箱线图分别展示了三种Alpha多样性计算结果。这个图很具有代表性,首先是配色,土壤、根、茎、叶依次为白色、棕色、浅绿和深绿,尤其是后3个样品,与器官实际颜色相对应,表意特别明确,让人过目不忘;其次因为土壤中微生物多样性远高于植物不同器官内生菌的多样性,Y
轴的截断图展示,更能凸显内生菌多样性的差异;最后每个箱体上标记字母用于展示基于Anova
统计差异分析的显著性结果。如果两个箱体上的字母不同,则代表两组样品的多样性存在显著差异。Alpha
多样性整体没有差异,也不能说明菌的构成都一致,可能是部分菌上调了,部分菌下调了,上下调幅度在计算Alpha
多样性时相抵了 (可结合上面标准化部分理解)。水平箱线图
ABSOLUTE
计算的肿瘤纯度得分高低,亮点是不同样本按照纯度中位数进行排序,看上去更整齐,也更容易看出规律。这在绘图网站imageGP(www.ehbio.com/ImageGP/)中简单修改一个参数就能做到。Ldha
在不同样本的表达分布。如图所示,可以通过调整网页的按钮实现图形旋转、表达数据预处理、按中位数排序和调整图形边距等功能。箱线图与抖动图
jitter
抖动一下,通过添加随机噪音,在不影响数据真实性的基础上予以展示。这个图除了可以用函数ggbeeswarm
绘制,还可以利用ggplot2
包的 geom_boxplot
+geom_jitter
生成。箱线图绘制方法
﹀
﹀
﹀
往期推荐
新世野 | 青岛的绿藻
好享学 | 那些 你并不了解的 关于数据可视化的故事
新世野 | 可视化作品精选,简单的图表配上舒适的配色就可以高大上~
新世野 | 不可错过的最新数据可视化案例,建议先码后看!!!
好享学 | 色彩心理学带你遇到更好的数据可视化的视觉表达
好享学 | 从盘古开天辟地开始讲起的数据可视化一站式教程!!!