查看原文
其他

数据呈现丨R语言机器学习中数据可视化的杀手锏

数据Seminar 2021-06-03

The following article is from 表哥有话讲 Author unicornyy




1.数据可视化与机器学习



如今,在信息爆炸的时代,如何发现数据内在的规律,是R语言等分析工具发展的动力。而数据内在的规律,可以通过可视化去展示,让数据自己演绎自己的故事。在R语言的世界中,数据可视化是机器学习中非常重要的部分,在到数据理解、模型选择以及结果的解析中广泛应用。因此,在庞大的R语言体系中实现数据可视化的包有为R basic包、grid包、lattice包、ggplot2包等几派,其中以ggplot2、Lattice包信众甚广,还衍生出不少的“门派”。

今天跟大家分享的是R语言机器学习中数据可视化的杀手锏——featurePlot的使用心得。featurePlot可是继承了lattice与ggplot2的特点,一方面,它基于lattice的基因与语法特性,比较容易修改与调整,同时,也继承了ggplot2中qplot的精髓,有自己独立的语法体系与简单图层,变化众多。一旦熟练掌握featurePlot的语法,你也成为数据可视化的高手。

好现在随着我们的脚步一同领教caret包featurePlot的厉害之处。




2.数据、包的装备


首先当现在我们开始准备数据与工具包。本次使用的是自带的数据集airquality。该数据集包含6个变量,1-4列为数量变量,5-6列为时间变量,该数据集特点是存在缺失。数据集属于气象领域,变量包括臭氧(Ozone)、太阳照射(Solar.R)、风力(Wind)、温度(Temp),时间(Month、Day)的变量。我们关心的是臭氧与时间、其它环境因素的相互关系。
发现Ozone、Solar.R数据集有缺失,因此,需要采用补差法填回,至于如何处理数据缺失值,以及缺失补插的方法,对分析的影响等一系列问题,今后有机会再跟大家详谈。
至此,我们完成数据的准备工作,可以利用我们的“杀手锏”开始探索我们的数据集喽



3.Featureplot的基本语法


featureplot的语法非常简单,通过x,y与plot三个参数对图形进行控制。featureplot画图的特点是:
  • 语法简单,非常容易学习与记忆
  • 画图快速,灵活控制图形的类型
  • 发掘数据间关系十分方便
以下“四大金刚”就是featureplot的核心参数,命令中x参数理解为需要绘制图形的不同变量,y参数可以看作分类变量/分组依据,plot参数可以选择“pairs”,“density”等,灵活控制图形,但需要与x、y参数配合,其他参数如下图所示。由于featurePlot,属于lattice系,因此可以支持trellis的格式控制,假如熟悉lattice的同学就很快可以深入自定义(具体后面的部分会详细讲述)。
讲完基本语法,我们马上进入如何利用该命令对数据进行展示与理解。



4.变化丰富的featurePlot图形


featureplot图形十分丰富,可以完成散点图、矩阵散点图、箱图、密度图、多个图层的叠加等,对于机器学习过程的数据理解与展示十分方便,是caret包可视化的核心。下面我们为大家一一介绍其主要图形的做法。  


(1)矩阵散点图

矩阵散点图,可以用于展示不同分组条件下各变量之间的关系,可为大家快速预览数据与计算相关性提供直观的证据。还可以配合回归等方法获得趋势分析。具体命令如下:
开始看好像规律不明确,因此我们加上光滑回归线。
从单月份的分析看,各个指标之间存在一个非线性的关系。


(2)箱图

箱图时常用的图形,可以展示数据的分布与差别,我们以月份为因素,分组观察数据的分布特点。同时也可以对布局、x、y轴进行灵活设置。

从数据上,我们可以看到每个月份之间各个指标是有一定变化趋势。



(3)条形图

条形图与箱图有一定类似,反映的是数据点与点之间的关系,能比箱图展示的数据细节更多。



(4)密度图

密度图可以展示各个指标之间分布的特点,方便我们对趋势进行研究。
通过自定义分组,可以迅速找到风速对其他变量的影响。
到此,我们确认臭氧的确与其他指标有密切的关系。

(5)散点图

 散点图也是分析中常用的图形,featurePlot也非常容易实现。
featurePlot图还可以按照以下方式进行自定义。由于涉及lattice包图形的定义,有机会以后给大家进行详细叙述,一般用这几个参数可以比较快的完成散点图的自定义。
全部的设定文件如上所示,包括各种图形的设置,图标设置等,下面我们来实践一下。




5.总结


至此,我们已经初步掌握了featurePlot的基本用法与进阶用法。是不是非常快可以完成数据的可视化展示?featurePlot的应用当然还不限于此,还可以与其他机器学习的分析过程相结合,因此,可以作为caret包机器学习中的好帮手。









►一周热文

统计计量丨工具变量法(一): 2SLS

数据呈现丨R绘图:七种基础可视化图,您选对了吗?

软件应用丨经济学专业学习R,您需掌握的R语言包汇总

特别推荐丨老姚专栏:经验观察误导之伯克森悖论

数据呈现丨R绘图:物以类聚,图以群分——聚类分析及可视化

工具&方法丨划重点 !经济学专业学Python需要学哪些内容?——数据分析处理必知必会的知识点

工具&方法丨古老而神秘的因子分析(一)









数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:unicornyy出处:表哥有话讲推荐:简华(何年华)编辑:青酱







    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存