5分钟，6步骤，实现大数据GIS云原生化

超图集团 2021-10-08

结合云技术的大数据GIS已广泛应用于各个行业，如通信、智慧城市、交通、国土等。随着应用的不断落地，更新的需求也在不断涌现。面对千万/亿量级的数据，如何保证系统稳定运行、如何快速落地、如何加快处理速度、如何节省成本？云原生GIS给出了答案。

云原生GIS带来了什么？

云原生GIS为大数据带来了更快、更稳、更智能、更弹性的体验；能有效解决计算资源动态调度、分析中断、存储压力大、环境搭建困难等问题；基于Docker容器、微服务架构以及Kubernetes自动化编排技术，实现节点智能集群、动态伸缩，保证系统稳定高可用；引入分布式空间文件引擎与GIS分布式分析算子，拆分数据存储/计算任务，可动态增加节点加快处理速度，分析后减少节点集约资源；内置分布式计算集群Spark、 Hadoop YARN，存储资源HBase、HDFS、PostgreSQL、PostGIS，可一键开启，免环境搭建。

图1 云原生的大数据GIS拓扑图

大数据GIS实操

SuperMap云原生GIS为空间大数据主要提供了五个方面的核心技术支持，分别为：存储管理、接入、分析、可视化以及运维管理。其中，空间大数据存储管理由存储资源提供，空间大数据接入由数据目录服务提供，空间大数据分析由分布式分析服务与计算资源共同提供，空间大数据可视化由GIS门户提供，空间大数据运维管理由SuperMap iManager提供。

图2 云原生GIS大数据分析流程

一次完整的空间大数据分析，需要存储资源、数据目录服务、计算资源、分布式分析微服务共同完成。首先接入外部（或内置）存储资源，将存储资源注册至数据目录服务；然后添加外部（或内置）计算资源；最后开启分布式分析微服务执行空间大数据分析。

下面一起看云原生GIS中的空间大数据分析流程：

● 注册存储资源

存储资源为空间大数据分析提供数据存储，支持外接公有云/私有云HBase、PostGIS、PostgreSQL、HDFS目录、OraclePlus以及共享目录，填入服务地址等信息即可完成注册。同时内置了HBase、PostGIS、PostgreSQL、HDFS，可一键开启，系统自动搭建数据存储环境并完成注册。以开启内置HBase环境为例：

开启内置HBase数据库。进入云原生GIS服务管理界面存储资源池->HBase，点击“开启”按钮，等待搭建。

图3 开启内置HBase数据库

搭建完成后，点击“控制台”查看HBase环境。内置HBase数据库会自动注册到数据目录服务。

● 添加计算资源

计算资源为空间大数据分析提供分布式计算框架，支持添加外部公有云/私有云计算集群，如阿里云Ganos Spark、X-Pack Spark，华为云FusionInsight等，填入集群地址等信息即可完成添加。同时内置Spark、Hadoop YARN集群，支持一键开启，系统自动搭建集群环境并完成添加。以开启内置Spark环境为例：

开启内置Spark集群。进入计算资源池->Spark集群页面，点击“开启”按钮，等待搭建。

图4 开启内置Spark集群

搭建完成后，点击“控制台”查看Spark环境。Sparkworker节点支持手动/动态伸缩，在计算压力大时增加节点，加快处理速度；压力降低时减少节点，释放资源。

● 开启分布式分析微服务

分布式分析微服务提供GIS分布式分析算子，可接入分布式存储的地理数据，如HDFS存储的数据、关系型数据、UDB存储的点线面数据，具有强大的空间大数据分析能力，可进行构造区域网格、点聚合分析、密度分析、叠加分析等15种GIS分析。

开启分布式分析微服务。进入分布式分析服务页面，点击“开启”按钮，计算资源选择内置Spark；高级设置可指定Spark运行内存（默认4G），用户根据资源情况调整，运行内存的大小与运行速度成正比。

● 接入数据

本演示开启的内置HBase数据库环境无任何数据，若您的存储环境已有数据，可忽略本节。

以UDB数据入库为例，先将数据上传至文件管理器，再通过分布式分析微服务拷贝至HBase数据库。数据上传可在文件管理页面操作，例如传到/data/DemoData目录，可通过数据处理作业服务进行分布式数据入库。进入分布式分析服务页面，点击服务地址下的链接，依次选择jobs>dataprocessing->copyData->创建分析任务，源数据类型为本地UDB文件，源数据所在路径为/data/DemoData，目标数据库类型为HBase，目标数据库为builtin-hbase（内置HBase），点击“创建分析任务”并等待执行。

图5 创建拷贝数据作业

刷新内置HBase数据库。进入存储资源池->HBase页面，点击“刷新”按钮。

验证数据。点击“内置HBase”进入HBase详情页面，数据集列表中可看见拷贝成功的数据。

● 在数据目录服务查看数据

数据目录服务提供便捷的数据组织与管理方式，支持管理上千数据集，提供查看、检索数据的入口，包括关系型数据（relationship）、二进制数据（binary）、大数据文件共享数据（sharefile）、机器学习模型数据（mlmodel）、瓦片数据（tiles）和时空大数据（spatiotemporal）。

查看数据。进入数据目录服务页面，点击服务地址下的链接，依次选择datacatalog->relationship->datasets，可查看数据库中的数据集列表、数据集信息、字段列表以及字段信息等内容。

● 执行分析任务

以缓冲区分析为例。进入分布式分析服务页面，复制服务地址链接，配置到GIS门户，在数据洞察页面填入源数据集、分析范围等参数，点击“分析”，分析成功后结果会自动发布，并叠加到地图，快速制作美观的分析报告。

至此，云原生GIS空间大数据分布式分析流程演示完毕。从开启内置HBase数据库到访问地图服务，耗时大概5分钟。全程没有涉及环境搭建、Linux命令等内容，界面点击即可完成，大大降低操作门槛与时间。

图6 云原生的缓冲区分析

总结

云原生GIS简化了大数据分析流程，降低了技术难度，能更快、更智能地完成分析任务。稳定性方面，服务节点可动态伸缩、自动修复，集群高可用。以一个真实案例作为结尾：某地大数据服务平台建设项目中，使用传统的GIS Server时，会受到云平台本身的影响，经常因局部故障导致所有服务不可用。抱着试一试的心态，云原生GIS临危受命。上线后，260+GIS服务实例稳定运行，不受外部云平台影响，支持服务局部升级，无罢工记录。

撰文 | 云产品研发中心王伊湋

【精彩回顾】

▼

01 玉林首创广西全区不动产登记与房产交易一体化信息平台

02 硬核防疫，哈尔滨平房区用到这些硬科技

03 AR+GIS管理地下管线，原来这么方便！

04 第十八届SuperMap杯高校GIS大赛开赛啦！

05 GIS在线论坛第2期“大数据GIS技术与应用”视频回放 (含PPT)

欢迎转载~

爱看你就点在看！