菜鸟数据分析师对数据可视化的理解--完整篇
本人新人一枚,是个菜鸟数据分析师,统计学专业,接触数据分析大概有半年,在这里稍微写一下自己对可视化的拙见,大牛们看了不对地方还望指正;刚刚工作不久就谈对可视化的理解确实是有些过了,个人因为也看不了不少可视化的手册或者书,例如:数据可视化之美,R语言可视化手册,数据可视化设计指南等,因为工作本来没什么机会写博客总结,借着天善这个社区写写总结,让自己进步,废话不多说;
什么是数据可视化?在我看来,数据可视化就是用图表的形式展示数据的信息;让展示的东西有视觉冲突,让人能出图表中一目了然看出你想要表达的信息;这里很关键一点就是,你想要展示数据的什么信息,很多人为了盲目的追求可视化的一些酷炫效果,得到的东西却不知道表达的是什么,那么这个可视化是失败的;当然可视化也要简洁,简单明了才是可视化的目标所在,毕竟做数据可视化是帮助人们去理解数据,认识数据,从多个侧面去观察数据,并告知告知别人你想表达的数据中的信息;
这工作半年下来,我用了不少可视化的一些软件或者编程语言,一开始我最早接触的是大家基本都能听过的EXCEL,功能特别强大,用它都可以做数据分析,然而原谅我没有把它学好,EXCEL它其实可以做很多的事情,简单方便的生成各种你需要的图表,虽然颜色上不是那么让人喜欢,要是有耐心可以慢慢的调,加一下后期制作或者渲染;然后就是TABLEAU,这个软件确实是强大,能够连接多种数据,拖拽式的操作,可以自动的帮你生成图表,界面简洁易操作,要全放开版的收费,作为刚刚工作的小白只能用它的免费版的,不过限制挺多的;接下来就是R语言了,这是一个开源的统计语言,在数据分析方面和可视化方面都无比强大,第一次用上了GGPLOT2这个包我便开始喜欢上了这个编程语言,这个包的构图思想是图层思想,一个图层一个图层去操作,特别的灵活,我正在学习R语言,希望在今年能稍微精通一下;下面说一下自己对各种图形或者可视化的理解
柱状图
柱状图确实是一个很强大的图形,为什么说它强大呢?因为个人看,柱状图在展示的数据类型上可以选择非连续的数据数据类型和连续的数据类型,又有常用的柱状图和侧面柱状图,还可以用来折叠去展示数据;当我们的去展示非连续的数据类型的时候我们大部分都是用柱状图去展示这类的数据分布,大概能看出这个数据分布情况,又可以用来比较不同数据的整体与部分的关系;在展示连续的数据类型的大部分是用来展示这类数据的时间趋势。或者数据的分布。在设计上我个人认为柱状在设计的时候底层的便签最好不要太长和斜着或者90度垂直于坐标轴,因为这样为方便别人去阅读你的图表,毕竟可视化是方便别人去解读你的数据,能简单易懂就是最好不过了,在各个的柱形下的柱子的间距多少为妙呢?其实个人人为不宜过宽也不宜近,长度大概在柱状的宽度的一半左右为佳,在颜色上的设计,我比较偏向于柱形图用一种颜色,如果要想展示数据突出的部分,我们只需要将颜色加深,这也是为了阅读的简洁性,如果一张柱形图的颜色五花八门,那么所表达的效果是特别糟糕的。对于数据的排序,如果没有某种特殊的要求,我们最好给数据排下序,当然,如果展示的时间趋势的话就没法排序了。
饼图
饼图大部分得的时候是展示部分和总体的关系,不过饼图有个缺点就是,当部分特别繁多的时候就不能用来展示了,因为界面效果会特别差;常用的两种方式是饼状和环状两种。饼状的直接展示各个部分于总体的关系,而环状的保留饼状的样式,中间部分可以展示突出的数据。饼图在一般的展示情况大多数人为了展示一个百分比这个数不管有多少个部分都是去用饼图,然而饼图一般用情况下部分五六个为佳,当多个部分的时候,很多数据没法展示出来,也就是掩盖了部分的信息,有时候我们需要对比两个总体的结构,大部分人都会选择去用两个饼图去比较,然后这个效果不太好,所以一般要比较结构的差异的话最好不要使用多个饼图去展示,最好使用堆叠柱状图去比较两个总体的差异,还有展示的时候部分最好经过大到小的排序。
折现图
折现图大部分情况下都是去展示连续的数据类型,常用是时间趋势,它可以很好的展示趋势,累积,减少以及变化;在设计上,纵坐标最好是能从0开始,因为这样避免有些地方让人误读,展示线条上我们最好能够选择实心的线条,不要用虚线或者点去表示线,这样情况下看着看着容易分析,一张折现图的线三四条为佳,过多的线只会让观察某条线的时候看错了,如果要展示多条,可以在下一张图上去展示,如果你要展示的数据是多个部分的话,这些部分的数据最好能有一个共同趋势,不然有升又降趋势让人看不知所措。还有一个细节的地方,就是加图例的时候最好折线末尾那时候加,对应的折线加对应的图例,方便人读懂你的折线。
散点图
散点图做研究的时候用的比较多,因为散点图大部分情况是用来探究两个部分的关系的时候用的,就先做相关分析的时候要用散点图观察一下是否有相关关系;设计上改注意的和上面的图一样,纵坐标最好能从0开始,当想要展示多种关系的话的,我们可以利用点的大小和颜色去探究,在有某种趋势关系下我们最好加个辅助的线,方便别人看出相关性;
气泡图
气泡图有点类似于加了大小的散点图,气泡图还可以在展示地域数据的可视化,在设计上我们需要注意的是,气泡的尺寸我们需要去注意,例如我们在展示数据的大小比例最好面积的比例一样,不要用半径,如果用半径的话就是1:4了,大小差异就过大了,气泡的形状上最好使用老老实实的圆最好,不要用一些奇怪的图像。
热点地图
怎么说呢,我觉得热点地图的展示是很考验人的技能,第一个热点地图要展示的数据与地域关系差异较大类型的数据才能体现出它的价值,也就是说有背景故事或者价值去让我们发现的数据,热点地图主要是通过强烈的色彩对比去体现数据的差异,有个缺点就是没法很具体的表达数据之间差距而不是差异。在设计上,我推荐色彩最好是一种色调,通过颜色的深浅去反映数据的强度,如果色彩过于繁多,对于读者来说读这张图是个负担,也无法体现出数据之间的差异,轮廓最好简单即可,毕竟简约美嘛,上色的时候会有一个叫色阶的东西,这时候什么数据范围位于哪个色阶最好分清楚,最好能体现出差异,不要全部都是一个色阶,不然热点地图就是去了它的意义了。
上面说的是对于图表的理解,下面说下对常用的展示方式的一些理解;
尺寸:就是用柱形的长短,饼图的大小这类去展示,这可能是我们大家最为常用的一种方式去展示数据,当展示两个对象的数据的时候,我们可以通过尺寸马上的发现了两个对象之间的差异,在展示的精准读上也有些不同,个人人为点的精度大于线条大于面的精度。
色彩:色彩是用来展示大数据的非常好的方式,因为大数据之间会有不少的差异,颜色恰恰是展示这些差异最好的方式,毕竟我们人天生对色差明感,在色阶的选取上我觉得最好能够有明显的差异。
位置:差不多就是我们所说的地图了,这是基于位置的可视化方式,一般我们都用于展示于位置较强关系的数据类型
网络:这个展示数据点之间的关系,例如就像社交网络,就是用这样的展示去表达人与人之间的相关关系。
时间:展示趋势用的最多,主要是想了解对象的发展和变化规律,让我们了解对象整个发展脉络。
那么成功的可视化是怎么样子的呢?
借用《数据可视化之美》的话来说,成功的可视化总共有四点,第一点是新颖,大家都知道,数据可视化就是了简单明了的了解数据,不过你用一个全新的角度去诠释你的数据,让读者读懂了你的信息又能从更高的角度去解读这些信息;第二点信息要充实,充实不代表越多越好,因为一个图表展示的信息过多,会让读者成为一种累赘,很难读懂你的想法,充实的信息就表明你的图表能够能到他们想要的信息又不造成信息过多的情况,所以我们就要考虑业务应用场景了,什么样的场景需要用那些信息结合那些是多余的需要去判断,第三点高效,也就是我们所说的简单明了,一眼就能知道数据中的信息,所以我们在可视化过程中一定要把一些也主题不相关的因素排除掉,过多不相关的因素存在只会增加读者的阅读时间和难度;第四点美感,图片的布局,色彩,形状等一系列的组成部分都是相当和谐的。
那么我们如何设计成功的可视化图表呢?
首先学习这个步骤肯定是少不了的,怎么去学习,当然是去学习一些经典的可视化图片,学习它是如何去构造这张图的,色彩为何要这样的去运用等,还要学习一些可视化的语言或者软件,例如像R语言,它的有强大的包,ggplot2,newwordk,ggmaps(地图)等之类强大的包可以去学习,不然你会设计也不会操作那也是空有一身力气,然后理解数据意义和你想要表达的信息,然后遵从图表的一些设计规范,在规范的基础在进行一些自己的想法。
参考文献:
《数据可视化之美》
《数据可视化设计指南:图表设计》
微信回复关键字即可学习
回复 R R语言快速入门免费视频
回复 统计 统计方法及其在R中的实现
回复 用户画像 民生银行客户画像搭建与应用
回复 大数据 大数据系列免费视频教程
回复 可视化 利用R语言做数据可视化
回复 数据挖掘 数据挖掘算法原理解释与应用
回复 机器学习 R&Python机器学习入门