大规模土地利用数据处理新手段:高性能的地理处理建模
本文刊登于2020年11月第70期《超图通讯》
• 分布式GIS技术作支撑
超图的分布式空间数据引擎技术和分布式空间分析技术,为大规模土地利用数据的高性能处理与分析提供了有力的技术支撑。通过引入分布式存储,将土地利用数据入库到HBase或DSF等分布式空间数据库,大幅提升处理过程中的数据存取效率。基于Spark分布式计算框架的分布式分析技术,能够实现海量土地利用数据的全量高效的处理和计算。
基于上述分布式存储与分析技术的思路,以往我们需要基于SuperMap iObjects Java for Spark组件,通过程序代码的编写,完成整个土地利用数据处理的业务流程。但是,这要求行业应用人员具备代码编写经验,掌握一定的分布式技术知识,因此,使用门槛较高。另外,在面对业务处理流程调整时,原有业务代码的复用率较低,迫切地需要一种更为便捷、高效的手段实施业务流程的构建。
• 便捷高效的新手段
超图SuperMap GIS 10i(2020)推出的地理处理建模技术,为大规模土地利用数据处理业务提供了丰富的分布式分析和结果发布等预定义具。使用工具零代码可视化搭建业务模型,不仅操作简单,而且能够灵活地应对复杂的业务需求,走通数据处理与结果展示的完整流程。
丰富的矢量数据分布式分析工具
构建好的地理处理模型支持集群模式运行,通过环境参数的设置进行分布式集群资源调度,高性能的内存缓存机制可有效避免中间数据的磁盘读写,大大提升海量土地利用数据的处理效率。
为实现土地利用业务模型共享,地理处理建模支持将模型发布为工具,发布后支持通过REST API接口进行工具调用,使模型复用更为便捷和高效。面对业务流程调整,只需通过增加、删除或者替换已有业务模型中的部分地理处理工具,即可快速实现业务模型的重建。
面对业务的特殊需求,如业务计算、结果组装等,地理处理建模支持用户进行自定义工具的扩展开发。自定义工具与预定义工具互相衔接,共同参与分布式分析,实现高性能的大规模土地利用数据处理。
基于地理处理建模的土地利用大数据分析流程
土地利用变化检测和耕地质量分析,是大规模土地利用数据处理的常见案例,接下来,我们以基于地理处理建模的土地利用变化检测和耕地质量分析为例,邀您体验分布式GIS的地理处理建模在实际业务中的实践。
• 土地利用变化检测
在国土资源行业,土地利用变化检测通过对相同区域的土地利用变化情况进行分析,可以判断该区域土地变化的规律,进而分析人类生产生活和环境的变化对于土地利用的影响。
进行土地利用变化检测,可以归纳为地块变化检测、变化数据汇总以及变化结果的展示三大步骤。将土地调查数据导入HBase或HDFS后,基于地理处理建模,我们选取叠加分析、属性汇总、发布地图服务等地理处理工具,在画布中将工具按照分析步骤进行连接,即可完成土地变化检测搭建模型。
土地变化检测模型
一键执行模型,按流程自动进行土地利用变化检测,得到两次土地调查期间土地利用类型发生变化的地块数据以及各土地利用类型的占地面积汇总结果,最终将土地利用变化地块数据加载上预先准备好的专题图模板进行发布,以供浏览和分享。
我们还可以进一步将该模型发布为服务器端的地理处理工具,方便后续对模型接口调用以及与其他使用者进行共享。根据模型构建个性化的前端展示页面,再通过调用土地变化检测的接口执行分析,最终获取并展示分析结果。原本复杂且繁琐的土地变化检测流程简化为通过一个页面即可高效完成。
土地利用变化检测
通过地理处理建模进行土地利用变化检测的分布式分析,不仅操作简捷,而且实现了检测流程的自动化,有效解决了传统的空间分析工具处理步骤繁琐和数据处理一步一落盘的问题,极大地提升了土地变化检测的分析性能。
• 耕地质量分析
耕地质量如何,事关粮食产出能力。近年来,耕地质量分析在国土资源行业中的出现频率越来越高。进行耕地质量等级评定分析,可以为耕地进行综合治理提供科学依据。
在获得地理信息产业金奖的贵州省土地利用大数据分析平台中,地理处理建模为土地专题分析下的耕地质量分析功能提供了叠加分析等预定义工具,而二调分析业务计算和耕地质量等级情况分析等工具则由项目组根据耕地数据的实际情况和运算要求进行自定义的扩展开发。
为了提升分析性能,项目组还扩展开发了自定义的数据库读取工具,与预定义的根据索引构建DSF等工具相衔接,将数据库的数据读取并转化为地理分区要素数据集(DSFFeatureRDD),这种经过分布式计算优化过的数据集格式,能够显著提高大数据的计算性能,高效进行千万级及以上的矢量叠加运算。同时,利用新增的高性能内存缓存机制,使用缓存DSF数据集等工具对中间结果进行内存缓存,避免数据落盘和冗余,分析性能得到进一步提升。
项目组扩展开发的自定义工具与预定义工具共同参与业务模型的构建,互相衔接,最终完成整个耕地质量分析流程。
耕地质量分析流程
接下来,项目组将构建好的模型发布为地理处理工具,贵州省土地利用大数据分析平台前端即可通过 REST API 对工具直接进行调用。用户只需通过简便的页面操作即可完成高性能的耕地质量分析,不仅使用体验感极佳,工作效率也得到了大大提升。
根据项目组的现场测试,使用贵州省的老数据平台进行5W条数据的土地质量分析,耗时为数小时;使用超图传统Java组件工具进行5W条数据的分析,耗时为半个小时;而使用分布式GP建模分析,数据量提升至5倍,25W条数据耗时仅为三分钟,分析性提升了五十倍。
耕地质量分析
大数据时代降临,各种大数据平台建设工作如火如荼地开展,本文为平台的功能实现带来了新的思考,也为大规模数据的复杂业务提供了技术方案参考。
文/大数据与AI研发中心 李卓慕
欢迎转载~