查看原文
其他

轻松挖掘空间大数据“金矿”, SuperMap大数据GIS技术速览

超图集团 2022-07-17

“大数据”可谓是近两年主要热门词汇之一,我们通常会把手机信令数据、导航轨迹、车船位置、社交媒体,搜索引擎关键词、电商交易记录、公交卡刷卡记录、气象站数据等类型数据归为大数据的范畴,这些数据大多带有或隐含有空间位置的,称之为空间大数据。SuperMap大数据GIS技术体系包括空间大数据接入、存储管理、空间大数据分析、流数据处理与空间大数据可视化等技术,致力于提供全面支持大数据的GIS基础软件与服务,让更多用户能够轻松挖掘空间大数据“金矿”。


 01 


空间大数据管理:全流程支持


新型空间大数据与经典的测绘4D产品有着明显不同的,经典测绘数据是已经过提炼的数据,价值密度较高,可直接被使用,如土地利用数据、道路数据、行政区划数据,数字高程模型等等。而新型空间大数据通常需要进一步挖掘才能提炼出其中的信息,体现出价值,例如根据大量车载GNSS计算实时道路拥堵情况,根据累计数月的手机信令数据进行城市职住分析等等。


要挖掘大数据的金库需要有先进的技术作为支撑,空间大数据也不例外,甚至难度会更大,SuperMap GIS基础软件平台则提供了从数据接入、到数据存储、分析处理、输出和空间可视化全流程的能力,在新版本中,除了过程优化外,还新增了地图匹配、轨迹预处理、驻留分析等空间大数据分析能力。空间大数据使用的一般过程如下图所示:


空间大数据使用的一般过程


1、数据实时提取:除了直接上传/入库接入外,针对物联网实时数据,SuperMap提供了常见的流数据源接入能力,包括各类移动终端、监控传感器、GPS设备等。接收器支持CSV、TXT、JSON、GeoJSON等常用数据格式,支持Socket、HTTP、JMS、Kafka等主流数据传输协议,从而达到物联网数据接入的目的;


2、数据存储:SuperMap提供了空间大数据存储引擎,可根据数据类型/来源的不同,将接入的空间大数据存储到HBase、HDFS、Elasticsearch等适合的位置,并提供了SuperMap iServer DataStore快速创建数据存储,满足对空间大数据搜索、稳定、可靠、快速的需求;


3、数据分析:SuperMap提供了流式计算、数据汇总、轨迹分析、模式分析、数据筛选、机器学习等类型的空间大数据功能,并支持分布式分析,分析结果存储后利用GIS服务展示;


4、可视化:SuperMap可提供二/三维兼具、动/静态兼具的可视化效果,提供散点图、热力图、蜂巢图、格网图、轨迹图、O-D 图、流向图等空间大数据可视化技术。


 02 


空间大数据处理:可视化建模


整个空间大数据的接入、处理、存储、分析过程很多,数据往往需要多次处理,最终结果往往也需要多个分析配合完成,为了方便操作,SuperMap提供了地理处理建模工具,并可在桌面端(SuperMap iDesktopX大数据工具箱)和服务器端(SuperMap iServer地理处理服务)中互通互用。它们均能通过可视化界面将地理处理算子拖拽构建为地理处理模型,地理处理模型不局限于在某个系统里运行,提供复用性,通过发布服务,可以在各个端进行调研,从而实现空间大数据处理与分析流程的自动化。


SuperMap 地理处理模型数据处理界面


 03 


空间大数据分析:更多专业分析算子


SuperMap GIS在内核级扩展Spark空间数据模型,支持6大类32种空间大数据分析算子。具体有流式计算、数据汇总、轨迹分析、模式分析、数据筛选、机器学习等。在SuperMap GIS 10i(2020)新版本提供了更多分析算子。下面以轨迹分析、模式分析为例介绍部分新增算子:


  • 轨迹分析新特性


由于GPS精度以及系统误差等原因,造成GPS轨迹数据像锯齿一样,不是那么规则,且大多数点无法落在道路上。如何能够快速、有效地实现地图匹配成为轨迹数据分析的关键问题。


在新版本中,轨迹分析新增了轨迹预处理和地图匹配能力,有助于提升轨迹重建的准确度。


轨迹预处理是用于处理轨迹数据中的异常点,包括轨迹分段,处理偏移点、重复点、尖角等异常情形 (如下图所示)。通常是许多轨迹数据挖掘任务的基本步骤。返回处理后的轨迹点数据集。


轨迹预处理示意图


地图匹配能够解决将轨迹数据匹配到道路网络的问题,从而基于轨迹点还原真实轨迹。预处理后的轨迹点,可以进行地图匹配,即将将轨迹点按照标识字段进行划分,按时间字段进行排序和分割轨迹,找到每条轨迹最可能的经过路段,从而还原真实路径。SuperMap的地图匹配主要使使用网络数据模型和最佳路径分析方法进行,输入轨迹点,结果返回轨迹线数据集(FeatureRDD),每条轨迹线会生成一个起始时间字段和终止时间字段,用于记录当前轨迹的起始时间和终止时间。


地图匹配示意图


  • 模式分析新特性


在新版本中,模式分析增加了驻留分析能力,驻留分析是对含有时间信息的点数据集,按照时间维度和空间维度,使用方形格网或密度聚类(DBSCAN)算法进行空间维度的聚类,获取点簇的平均中心,得到停留时间最长的位置。


驻留分析示意图



方形格网聚类基本原理是基于网格聚合算法,通过网格对地图点要素进行网格划分,然后,计算每个网格单元内点要素的数量,并作为网格的统计值,也可以引入点的权重信息,考虑网格单元内点的加权值作为网格的统计值。


DBSCAN方法能将具有足够高密度的区域划分为簇,并可以在带有噪声的空间数据中发现任意形状的聚类。它定义簇为密度相连的点的最大集合。DBSCAN 使用点数目阈值和聚类半径(e)来控制簇的生成。其中,给定对象半径内的区域称为该对象的 e-邻域。如果一个对象的 e-邻域至少包含最小数目MinPtS个对象,则称该对象为核心对象。给定一个对象集合D,如果P是在Q的e-邻域内,而Q是一个核心对象,我们说对象P从对象Q出发是直接密度可达的。DBSCAN通过检查数据中每个点的e-领域来寻找聚类,如果一个点P的e-领域包含多于MinPts个点,则创建一个以P作为核心对象的新簇,然后,DBSCAN反复地寻找从这些核心对象直接密度可达的对象并加入该簇,直到没有新的点可以被添加。


驻留分析适用场景为大量手机信令数据,包含用户ID、时间、位置等信息,分析出每个用户驻留时间最长的K个位置。例如在疫情防控中,驻留分析可以查找对象在指定距离和持续时间内停留的位置区域,协助排查人流聚集区域,以及在高危疫区驻留的人员位置及行动轨迹等信息。


 04 


空间大数据可视化: 丰富、酷炫、易上手


要满足信息提取的可视化要求,不仅需要有强大的大数据空间算法作为支撑,还要有丰富多样的可视化方式。SuperMap GIS 10i(2020)提供了提供丰富、酷炫的空间大数据可视化功能,提供二三维兼具、动静态兼具的可视化效果,支持提供散点图、热力图、蜂巢图、格网图、轨迹图、O-D 图、流向图等。以Web端为例,SuperMap不仅提供了SuperMap iClient 开发接口,封装了酷炫、动态、直观的可视化展示效果供用户开发调用,还在SuperMap iPortal中提供了数据上图、数据洞察、地图大屏等WebApps,供用户直接配置使用、快速将大数据空间分析的结果进行可视化渲染。


利用SuperMap GIS平台软件,用户可以将更多的实时目标数据进行动态网格聚合显示,更适合海量多目标数据展示,通过不同的各位颜色饱和度以及范围包含数字直观表达流数据状态。


大数据空间分析与可视化效果对应关系


全球航班数据的热点分析

 

网络聚合分析


 05 


小结


SuperMap大数据GIS技术体系


SuperMap大数据GIS技术包括空间大数据存储管理、空间大数据分析、流数据处理与空间大数据可视化等技术。支持内核级扩展Spark空间数据模型,支持6大类32种空间大数据分析算子,在轨迹分析/模式分析类别新增地图匹配、轨迹预处理、驻留分析等算子,在机器学习类别新增决策树分类、朴素贝叶斯分类、支持向量机分类、线性回归、决策树回归等分析算子,并新增至100多种面向空间大数据的分布式地理处理建模工具。让空间大数据挖掘更简单和高效。


文/云产品研发中心 苏乐乐

大数据与AI研发中心 云惟英





欢迎转载~


都点一下,天天好心情!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存