【GeoDa基础】GeoDa平台下的江西省县级统计数据分析
云天河,本名陈云天,现就职于某省城乡规划院。希望成为空间数据分析领域的“后浪”,可达性、空间自相关、GWR方面水平凑合,偶尔捣鼓下地理探测器,其他方面都是 “半桶水”。如今沉迷于ArcGISPro,希望结合Python玩玩街景识别(虽然已有现成工具了……)
观前提醒:本文所使用的数据无法共享,因此制作了另一份类似的数据,凑合用啦。链接附于文末。
GeoDa平台下的江西省县级统计数据分析
01实验要求
对县级统计数据进行数据探索分析并得出结论;
根据县级统计数据创建空间权重矩阵,基于创建的权重矩阵进行空间自相关分析;
对经济数据进行以财政收入为因变量的空间回归;
用k-means算法、层次聚类法对江西省县市经济情况进行聚类;
02知识点与分析方法
本实践案例涉及的知识点包括:在GeoDa平台下:
创建并分析分位数图、箱线图、散点图、平行坐标图; 创建权重矩阵,空间自相关分析; 进行空间回归; 进行聚类分析。
工具栏→Tools→Weights Manager 工具栏→Map→Quantile Map/RatedCalculated Map 工具栏→Explore→Box Plot/ScatterPlot(Matrix)/Parallel Coordinate Plot/Clusters 工具栏→Space→Univariate Moran’s I 工具栏→Regression。
03数据资料
本实验研究区为江西省100个县市,通过统计年鉴收集到各县市的部分经济数据。江西县级数据.shp中包含数据属性描述如下:
CODE—行政区代码
NAME—县市名称
population—2014年地区人口(/人)
GIP--2014年地区工业生产总值(/万元)
财政总收入—2014年地区财政收入(/万元)
CONS--2014年地区社会消费品零售额(/万元)
FAI--2014年地区固定资产投资(/万元)
04技术路线
05实验步骤与分析结果
◐ (1)在GeoDa中进行探索数据分析打开GeoDa,通过工具栏添加江西县级数据.shp文件,查看地图及属性表。
图1|江西县级数据矢量图
创建分位数图
在分位数图中,每组的要素数量相等,能直观地展现某一变量不同取值范围的值和所对应的要素。
点击工具栏Map→Quantile Map,选择所需的分位数,本案例设置分位数为6。选取变量“财政总收入”,点击确定出图。
图3|分位数图变量选择过程
同时打开属性表:
选择分位数图中的某个要素,可在属性表中查看其对应的值。
图4|财政收入分位数图的结果
创建箱线图
箱形图利用5个点对数据集做简单的总结,这5个点包括中点、Q1、Q3、分部状态的高位和低位。
通过工具栏中Explore菜单下的Box Plot选项,对population字段进行箱图的绘制,得到如下结果。
图5|人口变量的箱线图
箱图下方会显示各项指标,如平均值、标准差等,图中绿点代表的值为平均值,红线表示中位数值。可以框选图中圆点来查看其对应的要素,发现存在两个较高的离群值。
图6|箱线图与矢量图交互结果
创建散点图
散点图指在回归分析中数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,可以选择合适的函数对数据点进行拟合。
打开工具栏中Explore下的Scatter Plot工具,将因变量Y设置为“财政总收入”,自变量X设置为“population”,绘制散点图。
图7|散点图变量选择过程
图8|财政总收入-人口散点图
图中紫色直线为拟合的最小二乘回归曲线,可以发现两变量趋势已知,说明财政收入与人口有一定的正相关关系。但是拟合优度R2只有0.303,可以推断财政收入肯定和其他变量也有一定的关系。
右键点击散点图,在Data选项下还可以选择显示标准差散点,可以根据自己的需要进行切换。
图9|财政总收入-人口标准差散点图
另外,进行多变量数据探索分析时,可以绘制多个变量之间的散点图,通常称之为散点图矩阵。
打开工具栏的Scatter Plot Matrix,逐个添加变量,可以得到一个5×5的散点图矩阵。
图10|散点图矩阵变量选择过程
图11|五变量散点图矩阵
图12|离群值对拟合方程的影响
从矩阵中可以看出,有些变量的相关关系不是很明显,而且变量间的拟合函数会受到离群值的严重干扰。当框中大部分密集的数据点时,拟合直线斜率发生极大变化,但当右边存在一个离群值的情况下,直线是非常平缓的。因此要根据实际需求决定是否剔除某些值。
创建平行坐标图
在平行坐标图中的每一个轴上,变量的观测值是从最低(左)到最高(右)。多变量被表示成一系列的线段,连接在每一个轴上相应的位置。这些线段是与多变量散点图中的点相对应的。它的一个重要应用在于识别多变量空间中的观测值的丛聚。
点击工具栏中Explore菜单下的Parallel Coordinate Plot(以下简称PCP)选项,选择三个变量进行绘图。
图13|平行坐标图变量选择过程
图14|平行坐标图与矢量图交互结果
PCP图中的每一条折线代表图层中每一个要素,点击所示折线,所选要素为波阳县,这表示波阳县在人口最多的情况下其财政总收入和地区社会消费品零售额却相对很少。当一些折线服从相同的模式,其他的却不相同,可以根据该图来探索潜在的丛聚和区别,
◐ (2)建立空间权重矩阵并进行变量的自相关分析
空间权重矩阵是为了揭示地理对象之间的空间联系而定义的空间对象的相互邻接关系,构建方法主要有邻接权重矩阵、距离权重矩阵、K-nearest权重矩阵3种。
打开工具栏中Tools→Weights Manager→Create,将权重字段设置为OID_,邻接方式选择K-Nearest Neighbors,邻居个数为6,距离确定方式默认为欧氏距离和中心X、Y坐标。生成的权重文件命名为knn。
图15|创建空间权重矩阵的过程
在建立权重矩阵时,选择的变量必须是各要素的唯一标识,一般选取带有ID名称的字段。创建的权重文件需要放在与.shp文件同一路径下,并且可以按自己的需求,通过文本编辑器对权重文件进行修改。
空间自相关指一个或多个变量在同一个分布区内的观测数据之间潜在的相互依赖性,一般分为全局空间自相关和局部空间自相关,其统计指标有Moran’s I指数、Geary’s C系数等。
为了Moran’s I指数更加可信,需要先制作一幅双变量的比率地图,而非单变量全局自相关。点击工具栏→Map→Rates-Caculated Map→Raw Rate,事件变量选择选择CONS(地区社会消费品零售额),基本变量选择population,输出Box Map(Hinge=1.5)。
图16|比率地图变量选择过程
图17|人口-消费比率地图
右击比率地图,点击save rates,将比率R_RAW_RT保存至属性表中。
在工具栏Space菜单下的Univariate Moran’s I选项中,选择以R_RAW_RT变量计算全局自相关。
图18|人口-消费比率全局自相关结果
X轴为R_RAW_RA,它已经相对于标准差(超过2倍标准差即被认定为离群值)进行了标准化,可以发现东湖区、西湖区等南昌市辖区均属于离群值(这是由于他们的人口和社会消费品零售额比例较大,这一点从比率地图中也可看出)。散点图以平均值为轴的中心,将图分为4个象限。每个象限对应于不同的空间自相关类型:高高和低低为正相关;低高和高低为负相关。
关于Moran’s I等指数的统计意义和指标解释,请查阅虾神的文章,本文只对GeoDa软件中自相关指标的计算方法做出演示和简要解释,并对ArcGIS中不包含的内容做补充性的说明。
◐ (3)在GeoDa中进行回归分析
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在经过前面的探索性分析和观察散点图矩阵之后,我们发现财政收入和其他几个变量存在一定的正相关关系,为进行回归分析提供了可能。
点击工具栏的Regression,因变量设置为财政收入,其他4个变量设置为自变量,勾选权重文件,模型选择默认即可,运行得到结果。
图19| 回归分析变量选择过程
图20|回归模型各项参数
可以在报告文件中查看回归模型的各项指标。
在回归面板中,选择Saveto Table并将预测值和残差值保存到属性表中,同样创建一个六分位数图,这次选择残差作为变量,得到结果如下,可以看出残差的分布情况。
图21|财政总收入的残差分位数图
残差地图可能给出特定地区系统高值(预测值高于真实值)或低值(预测值低于真实值)的情况,这能表示空间自相关的证据(尽管需要假设检验进行更严格的评估)。相似颜色的区域趋向于具有相似的位置,表示具有正空间自相关关系(经Moran's I检验,残差空间自相关是正的且高度显著)。同样,它也大体表现出在外围地区出现高预测值(负残差),在中心地区出现低预测值(正残差)的趋势,说明由于空间内经济制度不同而可能存在空间异质性。
在回归分析中,回归诊断是验证回归模型可用性的一个重要步骤,标准回归诊断需要检验多重共线性检验和正态及异方差性检验统计等方法,方法有趋势面法、残差分析等,另外回归模型还包括滞后模型和误差模型,有兴趣的同读者可自行了解。
聚类是数据挖掘和数据分析的主要手段之一,对于探索数据之间的规律有着重要的作用。空间分析中常用的聚类方式包括距离聚类、层次聚类、K-Means聚类、基于密度聚类等,GeoDa软件也集成了其中几种聚类方法。
K-Means聚类
工具栏Explore菜单下的Clusters工具包括3种聚类方式:主成分分析(PCA)、K-Means、Hierarchical(层次聚类),先选择K-Means聚类法,添加5个变量到分析栏,类别选择5,转换方式为Standardize(标准化),输出字段kmeans,查看分析结果。
图22|五个变量的K-Means聚类结果
从图中看出贵溪市单独成为一类,这是由于其工业生产总值过高,将GIP字段剔除,类别增加为6,重新聚类。在结果中可以点击所属的类别在属性表中查看对应县市。
图23|调整后四个变量的K-Means聚类结果与矢量图交互
层次聚类
选择Clusters中的Hierarchical聚类方式,仍选择4个变量进行聚类,类别为6,输出字段名hie,运行后打开地图,查看聚类结果。
图24|不使用几何中心进行层次聚类的结果-1
图24|不使用几何中心进行层次聚类的结果-2
勾选设置栏中的Use Geometric Centroids(几何中心),再次运行,观察结果并进行比较。
图25|使用几何中心进行层次聚类的结果-1
图25|使用几何中心进行层次聚类的结果-2
勾选几何中心后聚类结果与未勾选的结果完全不相同,是因为勾选之后的距离测度是点对点尺度,而未勾选时默认测算的是面与面之间的距离,关于几何中心的详细情况请见附录A。
空间分析不一定只有在ArcGIS平台中才能进行,适用于空间分析的语言、软件、平台必定越来越多。ArcGIS10.x版本开始集成python语言,可以通过编写arcpy脚本进行二次开发,而ArcGIS10.4.x也封装了R语言分析功能和大数据分析工具,令用户在进行空间分析的时候有了更多选择。GIS分析只有与时俱进才能保持活力,读者可以通过学习GeoDa、python、R语言等知识掌握更加强大的分析方法。
首先用一张图大概展示一下几何中心、中位数中心、中心要素三者的区别。
几何中心:几何中心也称算数平均中心,计算方法简单,就是将每个要素的属性值(主要是X、Y值)分别相加,除以要素个数,得到平均值。一般情况下,会处于所有要素的中心区域,也会生成一个新的点。
中位数中心:中位数中心的算法比较复杂,一般可以通过软件直接求得,这里主要介绍它和几何中心的区别。如果空间数据存在异常极值(如某一要素相对于其他要素的空间滞后距离很大),中位数中心对(异常值)的偏移明显低于算数平均中心,这与统计学中的结论也是相同的。所以中位数中心是一种对异常值反应较为平稳的度量。
中心要素:中心要素一定是某个已存在的要素,几何中心和中位数中心是由算法生成的一个新点,几乎不会与原要素重合。中心要素指的是距离所有其他要素空间滞后距离之和最小的那个要素m,其空间滞后距离的表达式为:
作者注:特别感谢Esri中国的卢萌先生,附录A中的图片均由他提供,图片使用已征得本人同意。
度盘链接:
https://pan.baidu.com/s/1_x2YY4lYz5399jMmQjeNEQ
提取码:721y
作者|云天河
排版|数读菌
校阅|数读菌、Moon
那今天就到这里结束啦,欢迎留言讨论。文中的图片文字未经许可不要随便“引用”。
如果可以的话,希望能够转发分享,点个在看并且点个赞,给个赞赏~~也欢迎规范转载~
也希望大家和我多留言互动啊!(据说这样可以增加我的推送在你的订阅号里出现的概率)
需要你的“分享”和“在看”
END>
如需全文转载文章、投稿或者合作
可添加微信
(回复超慢!!!)
(不要添加我问各种问题,我大概率不会的==)
(入群请一定要备注入群)
(添加后会在晚上非工作时间通过,请稍安勿躁)
公众号
微博