菜鸟也爱数据分析之SPSS篇——可视化分段
作者:在路上 审稿:小王子的狐狸 封面:自己想吧
大白
怎么对连续型变量进行快速分组呢?
可以用之前提过的“对变量重新赋值”来实现
点我有惊喜哦
哇!学以致用,棒棒哒~
不过还有更便捷的方法——可视分箱
什么是可视分箱?
“可视分箱”可以拆解为两个词:“可视”+“分箱”。
“可视”:通过图像图表等方式显示数据的分布情况,使之更加清晰易懂。
“分箱”:对连续型变量进行分组,呈现的结果像分成一个个的箱子。
可视分箱怎么做?
1.打开案例数据,依次单击“转换→可视分箱”。
2.将要进行分箱操作的连续型变量“月度价格”选入右侧的“要分箱的变量”列表中,单击“继续”按钮。
3.可视分箱窗口解释。
变量“月度价格”的分布以直方图的形式呈现在窗口中部图像框中,可以借此图表了解该变量的离散情况。
接下来,看到窗口的左侧。上方为“已扫描变量列表”,即呈现上一步选入“要分箱的变量”列表中的变量。下方呈现该变量对应的扫描个案数和缺失值。
窗口的右上方显示当前变量的名称和标签,分箱后的名称和标签也可以在这里设置。在此之下、直方图之上,显示扫描变量的最值。
在直方图之下,可以设置变量分箱的分割点并生成标签。
4.单击“生成分割点”按钮,选择“等宽区间”,填写“分割点数”和“宽度”,分割点位置会自动生成。分割点数指要对该连续变量的区间作n个分割点,使之形成n+1个等宽区间。输入“分割点数”为4,“宽度”为0.55,单击“应用”按钮。
5.“可视分箱”窗口的图像框中以明显的直线画出分割点,可以借此看到分箱情况。
6.单击“生成标签”按钮,在“网络”框架中会自动生成对应的标签,此框架中的值便是我们设置的分割点的值。
7.在图像框上设置“分箱后变量”的名称为“月度价格_2”。单击“确定”按钮。
8.弹出创建新变量的提示窗口,单击“确定”按钮。
9.生成一个新变量“月度数据_2”,这是根据“月度数据”变量进行等距分箱所得,将大量的连续型变量分为有限的组,会更方便之后的分析哦。
思考&拓展
在本案例中,均选择了最简单的方式,可视分箱还有其他的功能,包括限制扫描的个案数、不同的分割点设置方式等等。喜欢的童鞋不妨尝试一下哟~
扫描下方二维码,回复20180119,可获得本文原始数据哦~