ArcGIS地理统计入门
ArcGIS地理统计入门
名词解释
回归:对于数据的多个数值型变量,如果他们之间存在某种关系,我们就称之为相关,基于他们之间相关性的方法就叫回归。
插值:用一个多项式来逼近数据点,从而达到预测未知点的目的。空间插值即用一个多项式代表平面来拟合数据点。
地统计工作流
地统计模型建立:
数据预处理
地统计模型的选择
以及搜索半径等参数
预测结果及不确定性:
地统计插值不仅能够统计未采样位置的值,还能量化预测的不确定性。
校验模型生产结果:
验证及交叉验证。
绘制并检查数据:
地统计图层符号的渲染设置,以及后续是否要转为栅格或矢量图层。
空间自相关
1、什么是空间自相关?
空间自相关是空间数据之间相互依赖的一种属性。
即数据的某一属性与空间位置之间的相关关系。
任何东西与别的东西都是相关的但近处的东西比远处的东西相关性更强。
2、空间自相关在插值中的作用?
在地统计插值中,空间自相关主要起一个前提假设的作用
地统计插值不仅假设空间自相关存在,还假设具有相同的距离和方向的任意两点的协方差是相同的。
这被称为二阶假设
3、有哪些统计量?
最常用的有莫兰指数,可以使用ArcGis空间模块中对应的工具得到。
在二阶假设下,地统计插值会计算空间自协方差,也可以量化空间自相关。
4、反距离权重插值运用了空间自相关吗?
IDW(Inverse Distance Weights)插值的结果体现了空间自相关,但是它在插值过程中并没有将空间自相关加入计算。
也可以算是无心插柳柳成荫。
确定性插值方法
基于信息点之间的相似程度或者整个曲面光滑性来创建一个拟合曲面。
分为以下两类:
多项式逼近
全局多项式(非精确差值)
局部多项式(非精确差值)
逐个戴帽子
反距离权重法(精确差值)
径向基函数法(精确差值)
全局多项式插值
多项式函数来表达连续分布的地理空间,然后根据该函数得到未知点的数据值。
全局多项式插值法用于下列情况:
区域表面在各位置间出现渐变时。
检查和/或消除长期趋势或全局趋势的影响时。
全局多项式的参数设置:(尽量让其具有一定的物理意义)
反距离权重法
优点:
计算简单、操作便利;
计算速度快。
缺点:
需要的多少样本点估计是未知的;
当存在各向异性时,领域的大小、方向和形状都会对估计产生影响;
结果受点布局的影响;
受离群值影响;
不够光滑。
地统计差值(与确定性方法是相对的概念)
普通克里金(Ordinary)
简单克里金(Simple)
泛克里金(Universal)
指示克里金(Indicator)
概率克里金(Probility)
析取克里金法(Disjunctive)
协同克里金(Co-kriing)
在二阶平稳的假设下,半变异函数等于空间差异的平方的期望的一半。
它也可以写作一个与自协方差相关的方程,二阶平稳假设了相同距离和方向的采样点之间自协方差是相等的
他的实际计算过程是通过半变异函数云来基于特定模型模拟合最佳曲线。
指数模型:函数随着步长增大逐渐增大,无限趋近于一个特定值。
球状模型:函数分为两个区间,在变程内,函数逐渐增大;超出变程范围之外的区域,变异性不再变化。
步长及最大步长设置“:
要求每个步长内至少有30个采样点,总体至少100个。
最大步长是最远两点距离的1/3至1/2之间。
步长决定kriging插值精度,在采样点足够多的情况下,步长越小越好。
可以用“平均最邻近”工具得到结果作为步长。
优化参数。
Z(s) = µ + ε(s)
它的工作原理是先计算出所有采样点的平均值,然后假设未知区域的属性点都是围绕这个平均值,根据一个误差而上下浮动的。平均值用μ表示,误差用ε(s) 表示, ε(s) 包含了空间误差,也就是半变异函数对于不同步长值的计算结果。
不存在异常值
全局异常值可以通过直方图的首位两端来找。
局部异常值可以通过半变异函数云来找。
符合正态分布
作为预测方法的克里金法并不要求数据正态分布。但是不服从正态分布的数据插值结果可能不是最佳的。
可以通过Box-Cox、对数、反正弦函数方法变换得到近似正太分布数据。
不存在趋势
插值方法比较
根据采样情况及插值目的:
采样点数量少但是分布均匀:可以使用全局多项式法来预测整体趋势。
采样点数量足够但不具备空间自相关性:可以使用径向基函数、反距离权重法或局部多项式插值。
采样点数量足够、具备空间自相关性、无明显趋势或去趋势可以去除:可以使用反距离权重法、简单克里金或普通克里金插值。
采样点数量足够多并且具有空间自相关性,但是有复杂趋势或聚类情况:泛克里金插值、反距离权重法或者径向基函数法皆可。
采样点数量足够,自身属性值很多缺失或无法判断自身空间自相关性,但是与其关联的一个属性具备空间自相关,且无明显趋势:可以使用协同克里金法插值
根据其他插值需求:
希望使用精确插值法:可以使用径向基函数法或反距离权重法。
希望插值结果平滑美观:优先使用径向基函数插值法,最好不要使用反距离权重法。
希望插值运算速度较快:优先使用确定性方法,避免使用地统计插值方法。
希望得到预测误差图、半变异函数模型等:需要使用克里金插值法。
另外,任何时候如果在几种插值方法之间,或者在几个参数之间犹豫不决,都可以用交叉验证来比较优劣。
参考来源:1、ArcGIS地理统计入门(Esri中国信息技术有限公司)
2、ArcGis帮助