查看原文
其他

iGIS 时空大数据智能服务平台:基于AI的并行地理加速之技术篇

南方数码 南方数码 2022-07-16

随着获取的反映自然和人类活动的数据从十亿兆(PB)级增长至万亿兆(EB)级,并呈现出多尺度、多类型、高分辨率等特点,传统的计算能力已难以满足对其快速处理、分析和挖掘的需求。近年来高性能硬件架构得到快速发展,采用并行计算处理海量的地理空间数据是一种有效的解决方案。但目前高性能地理计算领域中的并行策略通常难以实现负载均衡,或仅面向某些特定应用来均衡子任务间的负载,始终缺乏一种通用的面向负载均衡的问题分解方法。


iGIS作为新一代时空大数据平台,其iGIS-AI模块采用基于AI技术优化现有空间域分解策略,24-48小时即可实现10万量级计算特征样本标注,负载均衡指数提升一个量级,再结合自主研发的大禹分布式任务调度系统,可大大提高计算效率。例如省级土地变更调查分析,地类图斑数量为千万级别,且分析种类多、内容复杂,分析效率低,以流量分析为例,采用传统GIS软件+Excel表的方式执行一次全省数据耗时约一周,采用大禹任务调度系统+传统并行策略算法执行一次全省数据耗时约48小时,同等并行条件下,采用大禹任务调度+AI并行策略算法执行一次全省数据耗时约32小时


本文从GIS计算AI优化的角度展开,通过数据驱动的机器学习方法来刻画数据/算法特征,实现对地理空间域的合理表征,完成并行地理计算强度自动评估,摆脱人工建模与经验公式的束缚。


在并行计算中,计算强度域被定义为一组具有计算强度的计算单元或计算任务,计算强度即每个计算单元上承受的负载,其大小由数据类型和处理算法共同决定。借助于计算强度域的理念,可将地理空间域定义为一组具有计算强度的空间计算单元,其中计算强度反映了地理空间数据和算法的特征。通过提取地理空间域特征,预测地理空间域上计算单元的强度,可以有效实现地理应用问题的均衡划分。


在针对地理空间域特征提取与计算强度建模的研究中,传统特征提取方法仅针对特定应用提取简单特征,缺乏一套有效的理论方法从空间数据、空间处理算法和并行策略等多角度系统地提取特征。另一方面,传统的计算强度建模方法一般基于专家知识推导经验公式或者人工拟合生成评估模型,难以迁移应用于不同的地学算法,并且对复杂地学算法的计算强度评估误差通常较大,易造成分配到子任务的计算单元负载不均衡。


AI机器学习建模技术目前已被广泛应用于各行各业,其以黑盒的形式面向不同领域的应用者,可摆脱专家知识和人工建模的束缚,自动化地完成高精度建模。


在本文提出的地理空间域计算强度评估方法中,需要从多个角度系统地分析地理空间域特征,针对数据和算法特点选取候选特征。在此基础上,采用多种机器学习特征选择算法对候选特征进行过滤精选,结合机器学习回归算法,对比模型预测精度,针对不同应用场景择优选取机器学习特征选择算法和回归算法。


地理空间域候选特征分析


为了表征复杂多样的地理空间域,需从地理空间信息数据类型(包括栅格、矢量等),地理空间域分解粒度类型(包括空间对象、网格对象、空间索引块以及聚类块),计算依赖域范围(包括本地型、邻域型、局部型和全局型依赖)出发,总结具有代表性的特征集合。


地理空间域特征分析


针对地理空间信息数据类型,主要面向栅格和矢量数据展开分析。表达复合图层的空间特征时,需分析两个或多个图层的特点,结合单图层特征构建特征空间。栅格数据的结构相对比较简单,常用特征包括栅格单元的大小(例如矢量栅格化中的像素分辨率大小)、栅格单元是否参与计算(例如只有部分特定值的像元才参与计算)等。矢量数据的结构相对于栅格数据更加复杂,通过分析以矢量数据为输入的典型地理空间应用模块包括矢量对象可视化、空间投影、格式转换以及空间分析等,可将其空间特征分为基础结构特征以及形态分布特征,基础结构特征包括矢量对象顶点数量、线段长度、多边形周长、多边形面积以及多边形凹点个数等,形态分布特征包括多边形平滑度,多边形凹陷幅度,多边形空间形态,多边形规则度等。


针对地理空间域分解粒度类型:


 空间对象级分解粒度的特征提取,需要分析矢量空间对象或栅格单元的特征;

 规则网格级分解粒度包含一定数量的矢量空间对象或栅格单元,面向该分解粒度的特征提取不仅要分析对象内部空间特征,还需要评估对象集合的数量特征、分布特征以及拓扑特征;

 索引块(如四叉树、R树等)和聚类块级分解粒度可以看作是一个“不规则的网格”,可以沿用规则网格的特征。


针对计算依赖域类型,需要结合分解粒度进行分析:


当分解粒度为空间对象时,适用常见算法基本属于本地依赖型和全局依赖型,可使用单个矢量空间对象或栅格单元的特征空间,典型的本地依赖型算法包括空间投影转化、多边形Delaunay三角化和遥感影像光谱指数计算等,全局依赖型包括遥感影像K-Means分类、ISODATA分类等;

当分解粒度为规则网格时,适用常见算法基本属于本地依赖型、邻域依赖型和区域依赖型,针对本地型同样只需提取当前分解粒度特征即可;针对邻域型算法,需要确定不同的邻域依赖类型,包括摩尔邻域、冯诺依曼邻域、不连续邻域以及不对称邻域,结合特定邻域内的数据生成新的集合,从对象内部空间特征、对象集合的数量特征、分布特征以及拓扑特征出发进行分析,典型的算法包括密度分析、影像滤波算法、坡度坡向计算和山体阴影计算等;针对区域型算法,需要确定所依赖的区域单元数据,同样结合分解粒度进行分析,典型的算法比如视域分析、成本距离分析等;

当分解粒度为空间索引块和聚类块时,适用算法基本属于邻域型和区域型,针对邻域型则结合特定邻域生成新的集合并分析其特征,典型算法比如点云内插DEM;针对区域型算法,同样需要确定所依赖的区域单元数据并结合分解粒度进行分析,典型算法包括区域平均高程/坡度计算。



地理空间域特征选择与计算强度建模


为了表征复杂多样的地理空间域,需从地理空间信息数据类型(包括栅格、矢量等),地理空间域分解粒度类型(包括空间对象、网格对象、空间索引块以及聚类块),计算依赖域范围(包括本地型、邻域型、局部型和全局型依赖)出发,总结具有代表性的特征集合。


地理空间域计算强度预测


基于机器学习的地理空间域特征选择以一定数量的样本集合为输入,通过评估地理空间域候选特征对计算强度的贡献,形成能够精确表征计算强度的特征集合。样本集合由特征向量和标签构成,生成过程为:首先对原始数据随机或均匀采样生成数据样本;然后基于候选特征,计算每个样本的特征向量;最后对每个样本调用待处理算法,统计计算时间作为样本标签。现有的机器学习特征选择算法包括过滤式、包裹式以及嵌入式,分别从中选取代表性算法进行比较包括Regressional ReliefF (RReliefF)过滤式算法、Genetic wrapper algorithm(GWA)包裹式算法、Recursive feature elimination(RFE)包裹式算法、Mean decrease in impurity(MDI)嵌入式算法以及Mean decrease in accuracy(MDA)嵌入式算法。


在此基础上,结合多种机器学习回归算法,评估选择后的特征集合。机器学习回归算法种类较多,适用于不同的应用场景。考虑到无法直接选定最优的算法,可从线性回归算法及其推广、决策树、支持向量机和集成学习四大类回归算法中分别选取一个或多个来对计算强度进行建模,比如Random forest (RF)集成学习、Gradient boosting regressor (GBR)集成学习、Classification and regression tree (CART)决策回归树、Support vector regression (SVR)支持向量回归。组合不同特征选择算法与回归算法,对比预测的精度,选择最优组合生成的模型来预测计算强度。


信息领域中,采用AI机器学习技术增强高性能计算的研究正在逐渐成为热点,然而在高性能地理计算领域却鲜有研究,究其原因在于地理空间数据的特殊性。已有GIS计算对计算强度的评估从理论公式的研究范式出发,对点线面的数量和空间异质性的计算特征理论建模难以达到理想的结果,评估不准就得进一步结合任务调度。本文从GIS计算AI优化的角度开展工作,通过数据驱动的机器学习方法来自动化的评估地理计算强度,进而辅助地理空间域的均衡分解与并行加速。方法摆脱了人工建模与经验公式的束缚,是iGIS-AI模块的技术支撑。


后续,本公众号将推出《基于AI的并行地理加速之应用篇》,以并行化点云生成DEM与并行化矢量空间相交为例来介绍计算强度评估在并行地理计算中的应用实践,敬请期待。


作者:武汉大学-南方数码时空大数据研究中心



iGIS介绍

iGIS(Intelligent GIS,时空大数据智能服务平台),由武汉大学-南方数码时空大数据研究中心研发,以南方数码十余年技术积累与武汉大学的科研底蕴为基础,集时空大数据与地理信息人工智能技术于一体,致力于解决海量时空数据存储及高性能计算瓶颈问题,为人工智能提供数据、算法、算力支持,聚焦自然资源行业,推出一套完整的时空大数据与人工智能解决方案,并在众多项目实施中给予重大支撑,为自然资源信息化赋能。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存