Uber可视化团队独立创业,发布地理大数据可视化分析平台Unfold Studio~
近期,地理空间可视化初创公司Unfold发布了一款地理大数据可视化分析平台Unfold Studio,产品在形态上非常类似Mapbox Studio和Kepler.gl,基本逻辑都是基于配置的地理可视化分析平台,其实也可以看成是这两款产品的升级款。此款产品提供的核心功能包括如下几点:
1、Unfolded Studio提供了丰富的可视化图层的类型选择,包括常见的点图层、弧线图层、迁移图、矢量瓦片图层、H3网格图层等,其实在可视化图层样式方面,可选择的类型其实各家的都基本相似,没有特别大的区别;
2、Unfolded Studio提供了对数百万行数据的快速客户端浏览。通过平台提供的交叉过滤,聚合,基于时间的动画和笔刷等快速功能,用户可以快速的进行数据的分析和消费,其中关于数据集的处理、融合还是比较有意思的。
3、Unfolded Studio已经支持许多主要的地理空间数据标准,包括表格数据格式和基于行的地理空间格式,但是从格式上来看主要还是一些通用标准的数据,而不是一些常见的工程标准格式,比如GDB类型,总体上如下:
JSON
GeoJSON
CSV
CSV+WKT
Shapefiles
Vector Tiles
Cloud-Optimized GeoTIFF
4、Unfolded Studio为用户提供了一个仪表板,可通过安全的云存储来管理其地理空间资产。用户可以复制,下载,删除,排序或重命名地图和数据集,然后将其打开以进行编辑和发布。对于一款开源的产品如何商业化是一个比较重要的内容,通常的路线都是后端云化,通过服务的方式来提供更专业的企业服务,比如mapbox,还有Esri的CEO曾经也说希望基于云打造一个类似与Google Earth Engine这样的在在线地理空间分析平台;
5、Unfolded Map SDK是一个javascript库,可让Web开发人员在已发布的Unfolded Studio地图上构建自己的高度交互性的Web应用程序。Map SDK提供了一系列功能来定位地图,打开和关闭图层以及开始和停止播放时间;
其实说到Unfold团队大家应该不陌生,其创始团队都来自Uber的可视化部门,而Uber这个团队的建立大概在2015年左右,当时的目标是要构建一套先进的开源地理空间技术,当然主要的目的还是为了服务主体业务的运营分析,随后GIS的开源社区才有了Keper.gl、deck.gl以及H3等轮子;
到了2019年,该技术体系已经变得很成熟了,他们觉得可以在这个技术的基础之上构建一个不一样的地理空间平台,所以他们就共同成立了Unfold公司,这是一家全新的地理空间公司,公司的使命就是构建下一代地理空间分析平台,基于该平台可以轻松的实现大尺度海量时空数据的分析、可视化以及分享;
至于为什么要将创业的重点聚焦在空间数据上,主要原因是他们觉得在空间数据在数据表达能力上是独一无二的,可以用地图这种更加直观的形式来表达客观世界,而不是抽象的图表,对于使用者来说显然通过地图的表现形式可以更加快速的能够从海量的数据中快速获取有用的信息。
但是目前地理数据可视化的过程是很复杂的,比如不同的空间坐标系、不同格式的数据来源以及类型,同时还需要将各种类型数据进行关联以及合并,这就在无形中给非科班出身的数据分析人员的空间数据使用要求造成了困难,同时随着数据量变得很大时,问题变得就更加复杂了,所以这也就给Unfold Studio平台的构建提供了抓手。
所以基于这样的理解,Unfold Studio的用户定位比较明确,就是非GIS专业的大数据分析人员。同时这样的一个平台即使在面对海量数据的时候,也能够以简单、直观和顺畅的方式进行空间数据分析可视化,并且这个平台需要能够很容易的和现有的数据分析工具进行集成和适配。
在这样的前提下,Unfold将需要解决的问题定位在如下三个方面:
1、大数据处理,在大数据渲染方面,Unfold Studio在底层技术还是基于成熟的deck.gl框架,deck.gl基于GPU加速技术可以让数以亿计的数据集能够在浏览器中进行流畅的渲染。在大数据管理方面,Unfold正在建立一种“端到端(这个端到端没有明确的解释,但是从公开的资料中来看,这里的端到端应该是引用了深度学习模型在训练过程中的使用的概念,从输入端(输入数据)到输出端会得到一个预测结果,与真实结果相比较会得到一个误差,这个误差会在模型中的每一层进行反向传播,每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束,这就是端到端)”的架构用于处理非常大的数据集,目标是在未来能够基于Unfold Studio逐渐实现对海量数据的实时交互处理。
2、空间数据统一,Unfold团队用了不少的篇幅来介绍这个特性,核心的内容是H3和PlaceKey,而这些内容的理论基础是全球离散网格,这个网格和我们平时使用的局部平面六边形和三角形网格不同,全球离散网格是基于球的剖分。离散网格研究的核心内容包括两个:第一、如何对地球进行单元剖分,核心的要求就是如何保证各向同性,主流的剖分单元选择是三角形、正方形以及六边形,其中由于六边形的各向同性比较好,所以应用的比较广泛,H3对应的就是一种六边形剖分网格;第二、如何对剖分单元进行空间自相关的地理编码,编码比较容易理解,但是自相关性就比较重要了,因为对于通过这个编码形成的索引能够保证空间上相近的单元在物理上存储也是相近的,这样就能够保证数据IO的效率,类似的有Mortan码,L曲线等;
而通过离散网格实现的统一化的逻辑其实就是栅格化和单元重映射,对于栅格和矢量数据统一使用一种网格单元进行矢量的栅格化和栅格的重采样,这样数据就可以在像元上进行对其,从未为后续的可视化和分析提供的统一的数据模型,而这些都是核心的基础。
3、时序分析,Unfolded Studio的另一个独特的功能是对时间维度的强大支持,这意味着能够处理、可视化和分析随时间变化的数据集。传统的地理信息系统工具是为大型静态数据集设计的。几十年来,这些工具一直为整个行业的GIS部门提供良好的服务。但今天,数据科学部门正在分析的大型地理空间数据集往往具有时间成分和连接多个位置的数据,从而来表示运动,这一点的设计也应该是和在Uber 的经历相关,主要的分析对象也是动态的网约车位置。
结合着这件事情,想谈一点自己的感受,我们行业很多的GIS公司都在试图摆脱测绘地理信息这个身份标签,提GIS就是没有发展潜力和老派,为什么?因为国内的行业龙头体量也不过如此,天花板似乎已经就在那里了,谁都不想被限定在这个框架内,所以才都要出圈,但是却很少人想着把这个圈子做大,我之前发过一篇文章,Esri的一个核心策略不是单单经营自己的产品,更是在经营这个行业,行业有想象力了,公司自然就有想象力了。自己老本行都搞不好,去别的行当闯荡大多数情况下仍然是当炮灰!
现在的势头是很多非GIS公司却热衷于投入到地理信息中来,并将这个行业的边界不断地向外拓展,创造想象力,所以大多数情况下不是这个行业不行,只是自己不行而已,同时大多数人只会赚眼前钱但是还没学会如何赚未来的钱,这不仅仅是一个商业模式的问题,还是一个彻彻底底的技术问题!
我们必须要承认目前国内的GIS行业依然还是处在整个生态链的底端,并且还是会长期处于这种低水平和同质化的现状,而且对于从这个群体中跑出一个新物种我是持怀疑态度,新物种一定还是会是以外来为主,并且可以快速形成绝对的优势,这是对未来的一个基本的判断。