时空大数据时代,打破 “藩篱”的好机会!
点击图片上方蓝色字体“慧天地”即可订阅
(温馨提示:更多精彩请留意文末推荐)
大数据时代,打破 “藩篱”的好机会
如火如荼的大数据时代,上至国家决策层和巨型IT企业,下至创业公司和转型中的传统企业,无不热衷谈大数据。尤其当大数据融入“机器学习”和“人工智能”庞大体系以后,大数据命题已经上升到了改变人类命运的高度。
时间和空间是人类的先验认知,人类认知世界的基本框架,时空要素也是所有数据的共同特征,时空维度的分析,在任何领域的大数据应用中都不可或缺。
空间信息遇上大数据
大数据时代,空间信息应用将发生巨大的变化。
根本的变化在于数据源,传感器将成为主要的数据来源:遥感卫星很快会实现“准实时”的对地观测,数以万计的无人机时刻不停的获取数据,移动通讯中每个人都在实时产生位置信息,物联网的发展将带来更大量级的数据内容;
从空间大数据的应用范围看,空间信息将应用在几乎所用领域,没有时空信息的数据将是“死数据”;
从空间大数据的应用模式来看,应用目标将从事务性工作支持转变为决策分析,将从单一数据源应用转变为多数据源融合分析并迅速得出结论。
测绘地信人的焦虑
身处此时代的地理信息领域从业者,均表现出不同程度的焦虑,一方面由互联网公司主导的空间大数据应用(如:实时交通、热力图),与传统的测绘地信几无交集,想借鉴都无从下手;另一方面,应用大数据的社会呼声和行政要求,给传统的技术体系和工作模式带来巨大的挑战和压力。
一时间,各种大数据应用案例和解决方案喷涌而出,国测地信局的“时空信息云平台”升级为“智慧城市时空大数据与云平台建设”,林业、国土、农业等行业也出台了大数据应用实施规划,角度各不相同,能否拼合成“时空大数据”的完整面目尚不得知。
近期,笔者参加了地理信息产业协会空间大数据技术与应用工作委员会组织的“2017年空间大数据应用与实践研讨会”,十几个报告精彩纷呈,会后和主持人有过简短的交流,我们都认为:所谓空间大数据还处于初级阶段,甚至是萌芽阶段,距离广泛且深入地发挥作用,还有很长的距离。
打破藩篱的机会
传统的测绘地理信息领域,向来以“专业”著称,局外人难以窥探其中端倪,但“封闭”也同样成为众矢之的,这种封闭不仅是心态上,也是技术上的。10几年前,谷歌地球带来过一次强大的冲击和推动,地理信息服务得以面目全新,而大数据时代数据如潮水般涌来,也许是彻底打破地理信息“藩篱”的一次好机会。地信人常说:“80%的信息都是地理信息”,“地理信息无处不在”,当潮水般的数据袭来时,当各行各业都需要时空信息的支撑时,我们是否有足够的能力去应对?
既然都是“盲人摸象”,我们索性作为“盲人”之一,从自己的角度解读一下“时空大数据”。
用户画像与地理画像
大数据实践的起源,恐怕要追溯到谷歌、亚马逊、阿里巴巴等IT巨头的业务运行,由于其互联网服务面向数以亿计的用户,同时收集了大量的用户信息,通过大数据分析,制定更好的营销策略,例如精准推送、行为预测等,甚至大数据分析本身就是业务的核心,例如谷歌的广告模式;阿里巴巴也认为“DT时代”即将取代“IT”时代。在此过程中,IT巨头形成了一系列的大数据技术和方法,包括云计算、分布式存储和NoSQL数据库等,在大数据应用中普遍采用的Hadoop、Spark、Hbase等开源软件,或多或少的与IT巨头的大数据技术研发相关。
商业大数据中的“用户画像”
商业大数据无疑是目前应用最广和最成熟的领域,其核心应用模式为“用户画像”,即收集一个用户在线上和线下的所有行为,包括消费记录、行动轨迹、上网记录等通过大数据分析,根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型,并以此来开展和提升业务。由此可见,构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。贴标签的目的是让人能够理解并且方便计算机处理,而贴标签的方法,是将数据内容分段化,比如,年龄分为“18岁以下,30-40岁,40-55岁”几个分段,每个人的具体年龄对于大数据分析来讲并不重要。
地理画像与时空大数据
如果我们借鉴商业大数据中“用户画像”的一般方法,将其引入到时空大数据当中,可以称之为“地理画像”。如果说“用户画像”使用一系列的商业标签来描述一个人,目标是制定营销策略,那么“地理画像”就是用一系列的标签来描述一个地理区域。区域范围可能是一个小区、一座城市,也可以是一片草原、一块农田,甚至是一个地质板块;应用目标可以是商业选址、城市规划、农业估产,也可能是气候变迁;标签根据应用目标自成系列。数据内容包括:自然地理属性(土壤、地形、气象、地质条件…)和社会属性(行政区划、规划用途、居住人口、房价…)以及由物联网和互联网产生的相关动态数据。
“地理画像”与“用户画像”的最大差别在于:“用户画像”的最小单元是一个自然人,而“地理画像”的对象是一片区域,这个区域是由若干个小区域组成的,“地理画像”更接近于“用户群画像”。
事实上,以上这些分析方法一直在使用,时空大数据的背景下,应用模式将发生巨大变化,实时性和精准度都将大幅提升,原因在于爆发式增长的数据。
我们认为:“地理画像”是时空大数据的核心。
“地理画像”的瓶颈问题
如果对比用户画像的分析过程,会发现“地理画像”在大数据的应用背景下,存在若干瓶颈问题。
用户画像的实施逻辑为:以一个用户的手机号、邮箱、昵称等为线索,收集数据,通过分析得出一个人的完整行为标签,用户就是大数据分析中的“对象”,手机号、昵称就是数据整合的“线索”,而分析的目标是解析该对象的行为特征。收集数据并按主题汇聚的过程,被称为“数据融合”。
在“地理画像”中,数据融合的逻辑要更为复杂,首先是“空间对象”定义的不一致和不稳定,不一致性体现在:不同专题的数据库中,对于同一区域的定义是不一致的,或者根本就是缺失的,比如我们要对回龙观地区进行地理画像,首先要划定一个多边形确定研究范围,而在城市规划、国土资源、公安和市政部门,对于回龙观地区的定义都是不一样的,在环保、地质、气象等领域中,根本就没有回龙观这个区域的定义;所谓不稳定,在同一系统中,不同比例尺下,同一个地物的形状不稳定,同一地物在不同尺度的地图中表达方法不同,经过了不同规则的综合和取舍。空间对象不稳定和不一致,加上空间数据的空间参考、数据格式、数据种类的复杂性,数据融合困难重重。
地理画像的第二个瓶颈是跨数据集数据调度的问题,空间数据库全部都是独立建设、独立管理、独立索引的,数据库之间由于缺乏共同的索引机制,形成“孤岛现象”,跨数据库调度困难为数据融合带来障碍;
地理画像的第三个瓶颈在于,用点线面和文件定义的空间数据结构,难以分割和重组,为数据融合带来不便。
解决以上问题的传统方法是空间分析,即将相关的数据图层汇集到一起,人工设定算法进行叠加分析,逻辑复杂效率低,需要专业人员全手工操作,与大数据时代的自动化要求相去甚远。
如上所述,传统的空间数据结构难以支撑大数据时代的“地理画像”,需要面向大数据时代设计新的时空信息框架。据统计,硅谷80%的大数据公司从事数据处理和融合的相关技术研发,可见数据融合是大数据应用中的难点和重点。
时空大数据的背景下,应用模式将发生巨大变化,实时性和精准度都将大幅提升,原因在于爆发式增长的数据。
地理学与地理的语言
地理是自有人类文明以来最古老的学科之一,洞穴时代的人类就在岩画上标记周围出没的动物,中国最早出现“地理”一词是在公元前4世纪成文的《易经·系辞》,里面有“仰以观于天文,俯以察于地理”的文句,中国古代著作《山海经》被认为是中国第一本地理学著作,而中文“地理”一词包含大量风水学内容;在西方,公元前2世纪,古希腊学者埃拉托色尼第一次合成了geographica(geo+graphica)这个术语,意思是“地理”或“大地的记述”,并写出了西方第一本以“地理”命名的专著《地理学》。
现代地理学的定义是研究地球表面的地理环境中各种自然现象和人文现象,以及它们之间相互关系的学科,是一门复杂学科体系的总称。各个领域大数据应用,都离不开地理环境和人类行为之间相互关系的研究和分析,广义上讲都属于地理问题。
地理学的语言体系,也经过了几次进化。目前普遍认为,文字是地理学的第一代语言,地图是地理学的第二代语言,而地理信息系统(GIS)被认为是地理学的第三代语言,也是目前的主要语言,其核心要素为点、线、面、属性和拓扑信息。
时空大数据对地理语言的挑战
面对大数据时代和即将到来的人工智能,地理学的语言是否需要再次升级?从语言的功能来看,记录、沟通和逻辑表达是三个最重要的维度;下面从语言的角度分析一下大数据时代传统GIS遇到的挑战:
第一, 传统GIS无法记录传感器信息。
GIS的最初设计是面向地图而非传感器,点线面记录的不是直接的传感器信息,而是经过人类抽象加工的结果,这种抽象会损失或损坏大量的原始信息。从信息记录的角度看,面对传感器数据的爆发增长,传统GIS力不从心。
第二, 传统GIS无法表达实时、立体信息。
从人类对于地理信息的感知需求上看,未来的需求是实时的、立体的和具体的,传感器可以在数据获取上满足需求,但基于点线面的GIS在实时性和表现方法上都差强人意。
第三, 传统GIS系统之间沟通不畅。
从语言作为沟通工具的角度看,跨领域的交流和数据融合日趋重要,甚至是大数据的核心。传统GIS存在几个障碍,首先,不同GIS软件的数据格式不同,需要做转换,这个相当于人类语言中,中文和英语的差别;其次是同一软件系统中的不同数据库之间有沟通障碍,可类比人类语言的不同方言;最大的障碍是GIS数据和非GIS数据,就是人类语言和动物语言的差别了,基本上无法沟通。沟通障碍,是GIS作为大数据时代地理语言的重要问题。
第四, 传统GIS非面向计算机的语言
地图从古至今是面向人类视觉的,但大数据时代的时空信息重点在于支持机器学习和机器识别,传统地图数据难以被计算机理解。事实上,在导航和互联网地图中,用于计算和用于显示的是完全不同的两套数据;在机器人和无人驾驶中的环境数据也不是传统地图。可以说,大数据时代“地图没有图”,这也意味着基于地图的传统GIS真正融入大数据时代有先天的不足。
第五, 空间逻辑体系略显单薄
从地理要素之间的逻辑关系表达上看,大数据的重点是通过数据融合分析揭示相关关系而非因果关系,GIS利用空间拓扑信息表达空间关系的逻辑体系已经无法满足。
现有的地理信息系统,是将地图搬到计算机中,是数字世界的“移民一代”,基本概念沿袭手工制图,比如比例尺、符号化、投影等,分析展现方法也以目视判别为主;而大数据时代,我们需要直接利用传感器的数据进行分析,使数据成为数字时代的“原住民”,而他们之间的沟通,需要新的地理语言。
文字是地理学的第一代语言,地图是地理学的第二代语言,而地理信息系统(GIS)被认为是地理学的第三代语言,那么新一代的地理语言是什么样子的呢?
康德的时空观与新一代
时空数据模型
地理画像是使用一系列标签对于地理区域进行描述并进行动态监测的方法,也是时空大数据应用的主要方向。地理画像的核心障碍是数据融合,根本原因在于,传统的时空数据模型已经无法适应大数据时代的应用需求,亟需改变。
康德的时空观与时空信息
德国哲学家康德认为:时间和空间是人类的“先验认知”,所谓“先验”就是先于经验的,即还没有任何知识的时候,时空就已经存在每个人的意识当中,人对所有事物的认知要放在时间和空间的框架中来,时空即成为了所有知识的共同基础,正是这样,人类才能清晰的认知事物之间关系。
引入康德时空观来观察空间信息系统,始终缺少一个统一的基础时空框架来承载所有的数据内容,而是面向具体应用独立定义各自的空间和时间体系,这也是数据融合困难的根本原因。经纬度坐标系是所有数据的共同基础,但其本质上是一个空间位置参考系统,无法成为数据承载框架。
新一代时空数据模型的基本要求
借鉴康德的时空观,在大数据时代,如果要实现多源异构数据的融合,必须构建一个独立于具体数据的基础框架,才能够实现数据之间的融会贯通,可以称之为新一代的时空数据模型,需满足以下几个条件——
第一、 具有全局性和独立性
所谓全局性,有两个含义,第一个可以作为承载所有类型数据的共同框架,第二个是成为跨越数据集之间的全局索引。
所谓独立性,是指独立于具体的数据内容而存在,不依赖特定的数据类型。
第二、 继承传统GIS数据
新的时空数据模型需要兼容和继承传统GIS数据,可以方便调用、抽取和整合数据。
第三、 适应各类传感器数据
新的时空数据模型需具备组织、管理和调度传感器数据的能力。传感器数据是时空大数据的主要来源,包括遥感数据、各类监测传感器和泛物联网数据。
第四、 具备时空一致性和稳定性
时空定义模式要保证不同时空尺度下时空定义的一致性和稳定性,使时空范围可以作为数据汇聚和融合的线索。
第五、 适应大数据IT架构
数据模型需要适应分布式计算、分布式存储和机器学习。
第六、 普适性
时空属性是所有数据的共同特征,新的时空数据模型可为任意类型的数据添加时空标签。
为了提高时空大数据在行业内应用的深度和广度,设计和建立新一代的时空数据模型成为必要
时空信息网格:新一代
时空数据模型的探索
通过以上分析可知,时空大数据需要新的数据模型以应对诸多挑战,多年来,国内外的专家学者和企业都在进行着不同方向的研究和探索,新的理论架构、应用模式和相关技术层出不穷,切实推动了时空大数据的进展。
云游九州团队经过了大量的学习和研究之后,总结出一套新型时空大数据理论框架,并在其基础上设计了技术架构。
基础理论框架
(1) 将需要认知的空间划分为多级网格体系,上下级之间有层级关系,可以拆分与合并,每一个网格有一个固定的编码;
(2) 空间范围可以是全球范围,也可以是一个局部。
(3) 将网格作为数据承载、检索和分析的基本单元,根据不同的尺度选择不同层级的网格单元,每条网格信息保存为数据库中的一条记录;
(4) 在空间维度上,可以是二维平面空间,也可以是三维立体空间;
(5) 在时间维度上划分时间网格,作为空间网格的一个属性内容。
时空数据模型应用方法概要
(1) 在指定的空间范围内,指定一套统一的时空网格规则;
(2) 用网格集合定义所有的空间范围;
(3)将所有的空间数据按照统一网格体系进行存储和管理,传统矢量数据进行网格化处理,传感器数据直接保存为网格数据;
(4)以网格为单元进行数据检索、数据调度和空间分析。
网格数据模型的特点
(1) 数据离散化,空间信息融入IT
网格数据模型中,每个网格代表一个空间范围,在计算机中保存为一个编码,利用网格集合定义空间范围,摆脱了空间数据对地图的依赖,消除了空间信息和非空间信息之间的差别,任何数据加一个编码即可定义空间范围。实现了数据的逻辑离散化,适合机器学习和大数据分析,空间信息融入IT。
(2) 多源异构数据归一化,消除了不同空间信息之间的差别
将所有空间数据的组织模式统一为网格,实现了数据的归一化,各种空间数据都可以用统一的网格模型来描述。网格中的像素值就是遥感,网格中的实时数据来源于物联网,网格中的土壤信息、高程信息、人口信息等等来源于传统GIS。
(3) 保证对象的一致性,可作为空间数据融合线索
网格模型可以避免了手工划定区域带来的不一致性,数据精度可以用不同网格级别来确定。不同级别的网格具有明确的层级关系,进行大数据分析时,研究区域用某一级别的网格来定义,数据融合即可按照网格编码到不同的数据库中筛选和提取数据。
探索中的新一代时空数据模型
新一代的时空大数据模型要求必须要通过新理论、新技术、新的思维方式来构建,不是在原有理论技术上打补丁、做升级
以新理论为基础的工程实践
以上新理论的提出,融合了国内外众多学者的思想,其可行性需要在实践中检验。云游九州团队基于新理论进行了技术框架设计,面向具体应用进行了底层引擎和应用产品研发,取得了一定成果,验证了基础理论的可行性。
核心技术底层:空间网格引擎
空间网格引擎(Spatial Grid Engine)是我们的核心技术底层,主要实现网格定义、数据索引、数据调度,向下对接数据存储,向上为应用提供数据服务。根据应用需要,可以定义不同的网格规则。
一代产品研发:汇影云储——遥感数据智能存储一体机
基于新的时空数据模型设计,我们首先将相关技术路线应用到遥感影像的数据组织、管理和服务上,开发完成了汇影云储——遥感数据智能存储一体机。该产品为软硬一体化设计,集成了经过优化的硬件、操作系统、数据库和专用软件,实现了“存入即管理、数据即服务、所得即所需”的海量遥感数据的高效管理模式,在数据和应用之间搭建了快速通道,可以实现高效时空检索、免切片无缝浏览、在线裁剪和在线分析的新型应用模式。
该产品的研发成功,验证了技术路线的可行性,空间网格引擎(SGE)发挥了预想作用,在开发过程中进一步丰富了基础理论内容,提升了对时空大数据的认识和理解。
二代产品规划:以空间数据仓库技术为核心
第二代产品的目标是面向更广泛类型的数据源,实现数据抽取、组织、存储和服务,支持多源数据融合与大数据分析,包括传统矢量数据、信令数据、泛物联网数据等。
多源异构、时空密集是时空大数据的基本特征,数据融合需要进行归一化处理,即按照规则对原始数据进行自动化的抽取和重新组织,以便支持按主题汇聚融合数据,这种数据处理过程与“数据仓库”概念相同,所以我们将其定位为“空间数据仓库”技术,并围绕其进行技术研发。
数据仓库:事务处理和分析处理具有极不相同的性质,要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离,必须把分析型数据从事务处理环境中提取出来,按照决策支持系统(DSS)处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术,数据仓库在空间数据库上表现
汇影云储-遥感数据智能存储一体机
软硬一体化设计,集成了经过优化的硬件、操作系统、数据库和专用软件,实现了“存入即管理、数据即服务、所得即所需”的海量遥感数据的高效管理模式,在数据和应用之间搭建了快速通道,可以实现高效时空检索、免切片无缝浏览、在线裁剪和在线分析的新型应用模式。
继往开来,时空大数据
任重道远
时间和空间是人类认知世界的基本框架,在此方向上的研究和探索,古今中外经久不息。大数据在任何领域的应用,都无法避免时空维度的数据分析,究竟什么才是适应大数据、机器学习和人工智能的时空大数据模型,还需要相当长时间的探索和实践,任重而道远。
我们对时空大数据的思考,来源于对多位专家学者研究成果的学习和解读,并在技术产品设计和研发过程中不断总结而得出,是否能够解决现存的若干问题尚不得知,仍需要进一步的深入研究和实践,也希望能够与更多的学者、用户和合作伙伴一起共同探究时空大数据的真谛。
来源:云游九州(标题有改动,版权归原作者及刊载媒体所有)
推荐
点击下文直接阅读
2017年大数据及分析市场的15项趋势预测
科普天地|什么是大数据?
大数据是资源,和大油田、大煤矿一样,可以源源不断挖出大财富!
【慧天地】敬告
【慧天地】是服务测绘地理信息行业的公共、公益平台,旨在:传递政府声音;发现行业亮点;增强学术交流;共享优质资源;关注本硕博学子的学习、就业;重视地理信息文化的传播、弘扬。【慧天地】高度重视版 权,对于原创、委托发布的稿件,会烦请作者、委托方亲自审核通过后才正式推发;对于来自网站、期刊、书籍、微博、微信公众号等媒介的稿件,会在作者栏或者 文章末尾显著标明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时 删除。先做人,后做事;心有多大,舞台有多大。感谢大家一直以来对【慧天地】的关注和支持!
❤ 慧天地 ❤
有兴趣加入【慧天地】交流群的朋友,或者需要跟银杏谷资本对接的创业者,请加“慧天地”(微信号zn846546896)为好友。欢迎大家推荐精品稿件,BP投稿邮箱:geomaticshtd@163.com
(☆V☆)
编辑:徐 鑫
审核:王怡波 李茂永
指导:万剑华教授(微信号wjh18266613129)