iGIS 时空大数据智能服务平台:基于AI的并行地理加速之应用篇
土地调查作为一项重大、基础的国情国力调查,目的是全面查清全国土地利用状况,掌握详实准确的全国土地利用现状和自然资源变化情况,进一步完善土地调查、监测和统计制度,实现成果信息化管理与共享,为国家宏观调控和土地管理提供依据。
对土地调查成果进行多层次多角度分析,能够全面客观反映各类土地面积、分布、权属和利用状况,总结土地利用的基本经验和问题,探索合理利用土地资源的途径和措施,为保护耕地资源、严格土地管理和加强国民经济宏观调控提供决策依据。然而,基于土地调查的数据分析、汇总、检校、编写报告等整个工作任务时间紧迫,各环节互有交叉,成果提交和反复次数较多,以往靠人海战术和手工模式的汇总手段效率较低,已经不能满足多层次多角度的汇总分析要求,急需一种高效、灵活、准确的智能化解决方案来替代传统模式,实现全面、客观的汇总分析。
iGIS作为新一代时空大数据平台,致力于解决海量时空数据高性能计算瓶颈问题。基于自主研发的大禹DAG分布式任务调度系统,为一线业务人员提供以“拖拉拽”方式零代码快速构建分析模型的能力,实现计算方案的灵活配置,满足复杂多变的定制化需求。基于AI技术优化现有空间域分解策略,负载均衡指数提升一个量级,大大提高计算效率。“基于AI的并行地理加速之技术篇(点击阅读:iGIS 时空大数据智能服务平台:基于AI的并行地理加速之技术篇)”从技术角度介绍了iGIS如何采用基于AI实现高性能地理计算的并行加速。本文以省级第三次土地调查汇总分析来说明iGIS对海量、复杂时空大数据分析与挖掘的赋能作用。
主要问题分析
1
任务周期短、分析类型多样、定制化需求复杂多变
为了更好地提供辅助决策支撑,统计分析任务的工作周期较短,一般任务以周或天计,而且数据汇总分析的种类多样,包括标准表格汇总、已有表格的深度挖掘、空间分析结果汇总等,一次分析涉及几十上百张报表。此外还存在大量定制化的需求,例如各种专题分析、异常分析、趋势分析等。
2
分析过程复杂、易出错
省级第三次土地调查汇总分析总体流程图
一次分析一般需要经过数据处理、基础统计核验、汇总分析、成果输出及核验四个步骤,每个过程都涉及大量的计算分析,例如:空间叠加、面积重算、地类扣除调整、单位换算、面积平差、计算校核、汇总统计等,传统方式下任何一个流程出现问题或数据进行调整,都将导致重新执行汇总工作,返工率很高。
而且汇总分析还面临空间数据特性问题,例如跨年份空间数据常遇到由于行政区发生变化,导致按范围取数困难;空间分析引起的图形分割会导致空间分析后土地调查数据中的地类图斑图层和线状地物图层之间的地类扣除关系发生变化。若为三调与二调数据的统计分析还存在统计口径不同,空间数据形态不同等多个挑战。
3
数据量巨大、计算量巨大、分析效率低
数据量巨大,以某省为例,其二调地类图斑约400万,线状地物约320万;三调地类图斑约1100万;变更调查数据(2010-2018年)地类图斑约4000万,线状地物约3000万。数据分析往往涉及多个年份的核心数据,计算量巨大,传统模式下分析效率低下。
解决方案
针对以上问题,我们提出了“计算方案流程化、算子插件化、算子并行化”的解决方案。
计算方案流程化:将每个汇总分析或定制化分析需求视为一个计算方案,将计算方案的执行步骤流程化处理,对输入输出进行标准化处理,将每个计算节点视为一个算子,基于大禹DAG任务调度系统,以拖拉拽算子的方式实现计算方案的编排,支持计算方案的配置,让用户以可视化的方式根据业务需求定制计算方案,如下图所示:
计算方案流程化
支持单步执行和在线调参,在工作模式上较传统GIS软件+Excel表的方式有了质的飞跃,同时有效解决了传统土地调查数据汇总分析系统中建模难、调参难、调试周期长等多种问题。
算子插件化:将算子独立于调度系统,使用json描述方式直接将算子注册到大禹DAG调度系统中,同时提供UI组件方便模型编排。同时实现了执行器插件化,将执行器接口和实现分离,可支持http、yarn、Spark、Flink、MPI等不同类型的算子,并支持动态扩展。
由于前文提到的空间数据特性问题,传统的空间分析算子和统计分析算子无法直接满足应用需求,因此我们将土地调查分析工作中常用且逻辑复杂的计算进行了封装,例如跨年份数据提取算子、汇总算子、面积重算算子等,有了这些算子,可让土地调查分析更便捷、结果更可靠。
算子并行化:由于数据量巨大、计算量巨大,传统模式下计算效率低下, iGIS平台首先基于分布式GIS内核对传统算子进行了分布式改造,又基于AI实现高性能地理计算的并行加速,将负载均衡指数提升了一个量级,以相交分析算法为例,将地理空间域计算强度预测模型融入传统的空间网格划分策略后,同等并行条件下执行时间缩短了40%-50%。
应用成效
以下为基于iGIS平台建设的某省土地调查数据管理与辅助决策系统,主要包括工具管理、计算方案编排、计算方案执行、日志查看、分析结果预览等功能,其中计算方案编排如下图所示:
计算方案编排
以某省二调三调流量分析为例,二调数据地类图斑约400万,线状地物约320万;三调地类图斑约1100万。同等物理配置条件下,采用传统GIS软件+Excel表的方式,执行一次数据预处理、分析、汇总、编写报告,约需168小时,而目前采用大禹DAG任务调度+AI并行策略算法,执行一次可控制在32小时以内,执行效率提升了4倍以上。
应用成效
本文以某省三次调查汇总分析为应用案例展示了iGIS平台对海量时空大数据分析与数据挖掘的赋能作用。iGIS提供简单易用的用户体验,内置大量基础算法和土地调查相关的复杂逻辑算法,在线构建数据分析与挖掘模型,可轻松完成各种自定义分析需求,同时基于AI技术优化现有并行地理算法,分析效率大大提升。
iGIS时空大数据智能服务平台
iGIS(Intelligent GIS,时空大数据智能服务平台),由武汉大学-南方数码时空大数据研究中心,以南方数码十余年技术积累与武汉大学的科研底蕴为基础,集时空大数据与地理信息人工智能技术于一体,致力于解决海量时空数据存储及高性能计算瓶颈问题,为人工智能提供数据、算法、算力支持,聚焦自然资源行业,推出一套完整的时空大数据与人工智能解决方案,并在众多项目实施中给予重大支撑,为自然资源信息化赋能。
—— 往期阅读 ——