查看原文
其他

时空大数据面临的挑战与机遇

2017-07-17 王家耀,武芳 测绘科学

点上方蓝字“测绘科学”关注


摘 要

“大数据时代”的到来,正在改变着人们的工作、生活和思维方式。该文较全面地分析了目前大数据及其应用的研究现状,提出“时空大数据”的概念,并认为时空大数据就是时空数据与大数据的融合,并从大数据与时空大数据的背景、特征、本质和类型,分析了时空大数据带来的科学范式、时空信息传输和认知模型等方面的变化,同时对时空大数据的理论体系、技术体系和产品体系进行了探讨。

引用格式

引用格式:王家耀,武芳,郭建忠,等.时空大数据面临的挑战与机遇[J].测绘科学,2017,42 (7):1-7.

正文

当今,人们都在谈论“大数据”,甚至认为全球信息化已迈入“大数据时代”。随着智能感知、互联网和物联网、云计算等新兴信息技术的迅速发展,人们的位置、行为,甚至身体生理特征,大气、水质、环境的每一点变化,都成为了可被感知、记录、存储、分析和利用的数据。事实上,随着卫星导航定位技术、天空地一体化遥感技术,地理信息系统技术及计算机和通信网络技术的发展,地球表面的集合特征和物理特征等,早就成为了可被感知、记录、存储、分析和利用的地理时空数据。因此,“大数据时代”的到来,是信息时代数字化、网络化和智能化发展的必然趋势,是全球信息化发展到高级阶段的产物。

“大数据”正在为人类社会创造大价值,一切靠数据说话、凭数据决策,已经成为人们必须面对的问题。正因为如此,关注并从事该领域研究的人越来越多,特别是近几年来,一些学者撰写和出版了不少有关大数据的著作。其中:英国的维克托•迈尔-舍恩伯格、肯尼思•库克耶所著《大数据时代》开大数据系统研究之先河,前瞻性地提出:“大数据带来的信息风暴正在变革我们的生活、工作和思维,开启了一个重大的时代转型”,并论述了大数据时代的思维变革、商业变革和管理变革[1]38 39937 38 15288 0 0 2188 0 0:00:18 0:00:06 0:00:12 2898n>;美国Bill Franks所著《驾驭大数据》,重点论述了大数据为什么重要以及如何应用大数据,生动地指出:“驾驭大数据并不意味着一定要将所有的水牢牢地圈在游泳池中”,要有效地过滤大数据,即对大数据进行提取、转换和加载,并形象地比喻为“从吸管中吸水” [2];美国Awand Kajaraman和Jeffery David Uiiman所著的《互联网大数据挖掘与分布式处理》[3]认为“数据挖掘是数据模型的发现过程”,着重介绍了大规模文件系统以及MapReduce、相似项发现、数据流或流数据挖掘、链接分析、频繁项集挖掘和大规模高维数据挖掘等方面的算法;英国维克托迈尔-舍恩伯格所著《删除—大数据取舍之道》,从辩证思维的哲学角度提出了一个著名论断,即“大数据的取舍之道,就是把有意义的留下来,把无意义的去掉”,论述了大数据时代为什么要进行信息的取舍和如何进行信息的取舍[4];此外,美国Bemard Marr著《智能大数据SMART准则》[5]、美国埃里克•西格尔著《大数据预测》[6]、涂子沛著《大数据》[7]、谭磊著《大New Internet: 数据挖掘》[8]、段云峰、秦晓正著《大数据的互联网思维》[9]、陈建英、黄演红著《互联网+大数据—精准营销的利器》[10]、美国Michael Manoochehri著《寻路大数据:海量数据与大规模分析》[11]、杨轶莘著《大数据时代的统计学》[12]、杨旭著《重构大数据统计》[13]等,都对大数据分析与挖掘阐明了各自的观点。关于空间大数据的问题,吴朝晖、陈华钧、杨建华著《空间大数据信息基础设施》,在介绍大数据计算的技术体系和传统空间信息基础设施的基础上,分析了新一代空间信息基础设施面临的主要挑战,论述了空间大数据处理的典型技术和应用案例[14]

各国政府也看好大数据的应用前景。例如:在国外,美国政府于2012年3月发布了《大数据研究和发展倡议》,旨在提升利用大规模复杂数据集获取知识和洞察的能力;英国、美国、德国、芬兰和澳大利亚等国与2012年4月联合推出“世界大数据周”活动,旨在制定战略性大数据基础设施;美国政府于2013年9月发布了第二轮大数据研究项目;美国白宫于2014年5月发布了名为《大数据:抓住机遇、守护价值》的全球大数据白皮书研究报告。在我国,2014年首次将“大数据”写入《政府工作报告》,2015年国务院引发了《促进大数据发展行动纲要》;2016年3月公布的国家《十三五规划纲要》,提出了“大数据战略及行动计划”。于此同时,许多省市区、高等院校、科研院所纷纷成立了大数据研发中心、工程中心和实验室,旨在促进大数据理论、技术和产业发展。

但是,总的看来还存在一些问题。例如:研究商业大数据的多(受商业利益驱动),研究科学大数据的少(科学决策驱动不够);研究一般大数据的多,涉及时空大数据的很少,这涉及对“大数据”与“时空大数据”本质的认识问题;研究大数据统计分析的多,而真正研究大数据特别是时空大数据挖掘的少,“数据隐含价值→技术发现价值→应用实现价值”或“数据→知识→决策支持”的大数据或时空大数据的技术体系还未形成;试图掌握(拥有)大数据的多,而真正应用大数据的少,有的甚至不知道怎样应用大数据;大数据的产业化还刚刚起步,更未形成大数据的产品体系(软件产品、软硬件集成产品、数据产品);大数据科学的边界不清晰,理论研究薄弱,更未形成大数据理论体系。这些都是学界和业界要进一步探索和研究的问题。

1大数据与大数据时代

2016年3月18日公布的《十三五规划纲要》中,提出了实施网络强国战略、实施“互联网+”和大数据战略以及行动计划,可以看出深刻认识大数据与大数据时代至关重要。

1.1大数据

关于大数据的定义,目前还没有一个统一的、被公认的说法。综合相关文献的论述,可以认为:大数据,是指其规模(体量)和复杂程度(多样性)常常超出了现有数据库管理软件和传统数据处理技术在可接受的时间内(快速)收集、存储、管理、检索、分析、挖掘和可视化(价值)能力的数据集的聚合。这样认识大数据,也符合大数据的特征,即数据体量(Volume)大、数据类型(Variety)多、处理速度(Velocity)快和价值(Value)含量高。其中价值是最为值得关注的,如果没有对大数据的统计分析与挖掘,大数据就只能还是数据,无法从中提取有用的知识,实现大数据的“增值”。因此,发挥大数据“预测”的核心价值才是大数据的关键。

1.2大数据时代的到来

最早提出大数据时代到来的全球知名咨询公司麦肯锡称,“数据已经渗透到当今每个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费盈余浪潮的到来”[15]

进入到2012年以来,大数据越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据。有的学者甚至认为:这是一场革命,庞大的数据资源使得各个领域开始了“量化”进程,无论学界、商界还是政府,所有领域都将开始这种进程[16]。正是这种一切皆可能“量化”的趋势,截止到2012年,数据量就已经从TB级跃升到PB、EB甚至ZB级。国际数据公司IDC的研究表明,2011年数据总量高达1.82 ZB,相当于全世界平均每人生产200 GB以上的数据[15]。IBM的研究称,整个人类文明所获得的全部数据中,有90%是2011~2012年产生的,预计到2020年,全世界所产生的数据规模将是2012年的44倍[15]。这的确将是一个“除了上帝任何人都必须用数据来说话”的时代的到来。

其实,“大数据时代”的到来并不是一个偶然的现象。首先,是来自企业经济效益的驱动,推动“大数据时代”到来的动力主要来自企业对经济效益的追求;同时,信息技术革命是重要推动因素,从电子计算机的诞生,到数字化及数据存储设备的发展,到数据的在线传输,再到数据的智能处理及智能服务,尤其是基于智能感知技术的穿戴设备的兴起,伴随而来的是分布式并行计算、网格计算、云计算和互联网技术的飞速发展,反映了“大数据时代”到来的脉络;当然,各国政府的重视及相应政策投入对推动“大数据时代”的到来起决定性的因素。所以,大数据之所以成为一个时代,在很大程度上是因为这是一个有政府、业界和学界在内的社会各界广泛参与的社会性活动,而不仅仅是少数专家学者的研究对象[2]。数据产生于各行各业,这场变革也必将影响到各行各业,真可谓大数据的应用随处可见、可感、可知。

2时空数据与时空大数据

2.1时空数据

过去提空间数据或地理空间数据多,其实在严格意义上并不是很科学。因为地球是运动着的,作为测绘导航与地理信息基础的时空基准是变化的,基于此的空间数据或地理空间数据也是随时间变化而变化的,不过这种变化除突变式的地球运动外一般是很小的。

时空数据是一个更加科学严密的概念,它是指以地球(或其它星体)为对象,基于统一时空基准,与位置相关联的地理要素或现象的数据集,具有空间维(S)、属性维(D)和时间维(T)等基本特征。其中,空间维指地理信息具有精确的三维空间位置(S-XYZ)或空间分布特征,具有可量测性,需要一个高精度的空间基准;属性维指空间维上可加载的各种相关信息(属性或专题信息),具有多维特征,需要一个科学的分类体系和标准编码体系;时间维指地理信息是随时间的变化而变化的,具有时态性,需要一个精确的时间基准。

时空数据的本质功能,是反映地理世界(时空)各要素或现象的数量和质量特征、空间结构和空间关系及其随时间的变化,是人类认知地理世界的基础。时空数据反映人类活动(社会、经济、文化、工作、学习和生活)的时空规律,是一切大数据集合(空间化)和聚合(一张图)的基础时空框架,是各部门各行业信息系统的基础时空信息共享平台。

2.2时空大数据

本文作者认为:时空大数据是大数据与时空数据的融合,即以地球(或其它星体)为对象,基于统一时空基准,活动于时空中与位置直接或间接相关联的大数据。这样界定“时空大数据”,主要基于两个事实:一是人类生活在地球(或其它星体)上,一切活动都是在一定的时空环境中进行的,而所有大数据都是人类活动的产物;二是从可视化的角度讲,所有的大数据只有当其与时空数据集成融合后,才能直观地为人类提供大数据的空间概念(空间分布、趋势)。从这个意义讲,大数据本身都是在一定的时间和空间内发生的,大数据本质上就是时空大数据,只不过一般的大数据研究中并未意识到大数据的时空特征,只是在可视化时以地理要素数据作为背景(相当于专题地图的地理底图),这只是大数据统计分析和挖掘结果的可视化层面的集成;而这里的时空大数据强调的是以大数据与时空数据融合和生成时空大数据作为分析与挖掘的对象,分析与挖掘过程是在时空中进行的,分析与挖掘的结果本身就反映时间变化趋势和空间分布规律。

2.3时空大数据的特征

时空大数据的提出也不是偶然的。①它来自于解决人类面临的全球性问题的需要,全球气候变暖、天气极端异常、灾害频繁,人类生态环境恶化,等等,都成为了被感知而产生时空大数据的对象; ② 互联网、物联网、云计算和智能感知等新兴信息技术的快速发展,为时空大数据的产生提供了强有力的技术支撑和保障;③天空地海一体化的对地观测所形成的泛在测绘,无处不在、无时不在,成为了直接产生时空大数据的主要手段。

时空大数据包括时空基准(时间和空间基准)数据、GNSS和位置轨迹数据、空间大地测量和物理大地测量数据、海洋测绘数据、地图(集)数据、遥感影像数据、与位置相关联的空间媒体数据、地名数据及时空数据与大数据融合产生的数据,等等。时空大数据除具有一般大数据的特征外,还具有6个特征。

1)位置特征。定位于点、线、面、体的三维(X,Y,Z)位置数据,具有复杂的拓扑关系、方向关系和精确的度量关系。

2)时间特征。时空大数据是随时间的推移而变化的,位置在变化,属性也在变化(如航母在海上航行、普通公路变成了高速公路)。

3)属性特征。点、线、面、体目标都有自己的质量、数量特征(如居民地的行政等级、人口数据、历史文化意义等等)。

4)尺度(分辨率)特征。尺度是空间大数据的主要特征之一。尺度效应普遍存在:一是,简单比例尺变化(缩放)所造成的地理信息表达效应;二是,不同的比例尺地图上经过综合后不同详细程度的表示;三是,对于不同采样粒度呈现的空间格局和描述的细节层次不同;四是,对地理信息进行分析时由于采用的数据单元不同而引起的悖论,即可塑性面积单元问题。

5)多源异构特征。一是数据来源的多样性,基本上为非结构化数据;二是地理空间信息的多源异构性(空间基准不同、时间不同、尺度不同、语义不一致),为结构化数据。

6)多维动态可视化特征。指所有来源的随时间变化的情报数据都可以与三维地理空间信息融合,并实现动态可视化。

上述时空大数据特征,有助于时空大数据的分析与挖掘,揭示大数据的时间变化趋势和空间分布规律。任何规律的得出、任何决策的做出,都必须依据一定时间、确定地点(地区)的大数据,即时空大数据,同时也给时空大数据的组织、存储、管理和提取增加了难度。

3面临的挑战和机遇

时空大数据时代的到来,既对我们提出了挑战,又给我们带来了机遇,挑战与机遇并存。

3.1时空大数据带来的科学范式的变化

科学范式的概念是美国著名科学哲学家Thomas Kuhn在《科学革命的结构》一书中提出的,指的是一个共同体成员所共享的信仰、价值、技术等的集合,常规科学所赖以运作的理论基础和实践规范,从事某一学科的研究者群体所共同遵守的世界观和行为方式[17]。据此,计算机图灵奖得主Jim Grey总结了历史上的3种科学范式,并提出了“第四范式”[18-20]

总结地图学4 000年的发展历史,科学范式理论同样适用(图1)。其中:第一范式称为“经验范式”,产生于几千年前,是以野外观察试验为依据的直观逻辑思维,以古希腊托勒密的《地理学指南》和中国魏晋时期裴秀的《禹贡地域图十八篇序》为代表,即古代地图学的萌芽与发展时期;第二范式称为“理论范式”,产生于几百年前,是以理论思维和数据模拟为依据的科学假设和理论分析,以地理大发现、地图集的兴起和大规模三角测量与地形图测绘为主要标志,即近代地图测绘与传统地图学的形成时期;第三范式称为“计算范式”,产生于几十年前,以计算机地图制图、地图数据库、数字地图制图与出版的一体化、地理信息系统(地图学功能的拓展和延伸)为主要标志,即现代地图学时期;第四范式称为“数据密集型范式”,今天正在出现,以时空大数据为研究对象,以互联网、物联网、云计算作为新的技术手段,制图人员的自然智能与计算机的人工智能深度融合(对话),通过时空大数据智能综合分析与数据挖掘,提供时空大数据智能服务,即时空大数据时代的地图学。


当今的地球空间信息科学,正面临着时空大数据时代的全球性挑战,“第四范式”可能是解决面临挑战的具有本质性的理论、方法与技术,这不仅是科研方式的转变,更是人们思维方式的大变化(大数据思维),通过时空大数据的分析和挖掘,可以发现过去的科学方法发现不了的新模式、新知识和新规律。这正是地球空间信息科学要解决的突出问题。

3.2时空大数据带来的时空认知与传输模式的变化

捷克人A.Kolacny于1969年提出的第一个地图传输模式,在地图学的发展进程中发挥了重要作用[21]。其基本思想是:制图者(信息发送者)把对客观世界(制图对象)的认识加以选择、分类、简化等信息加工并经过符号化(编码),通过地图(信道)传递给用图者(信息接收者),用图者经过符号识别(译码),同时通过对地图的分析和解释形成对客观世界(制图对象)的认识,并指导自己的行动,其主要贡献是从整体上研究制图者、地图信息、地图、地图使用者、使用地图的效果这5部分之间的相互作用和关系。

本文认为,随着新兴测绘与信息技术的发展,时空大数据时代的多模式时空综合认知与传输模式也将发生改变,同A.Kolacny的地图传输模式相比较,主要表现在:

1)把现实的“地理世界”作为对象,提出了感知的“地理世界”、重构的“地理世界”和认知的“地理世界”等概念,分别将其称为“现实地理世界”的第一次模型表达、现实“地理世界”的第二次模型表达和用户对“现实地理世界”的认知模型(知识)。

2)随着空间技术和智能感知技术的发展,提出通过天空地一体的传感网对现实“地理世界”进行实时感知,获得感知的“地理世界”,这是当今人类能拥有的最真实、最接近现实“地理世界”的第一次模型表达,是人类认知现实“地理世界”的基础。

3)重构的“地理世界”不是感知的“地理世界”或现实“地理世界”的第一次模型表达的简单复制,而是通过对感知的地理世界的时空大数据进行处理从而生成易于为用户认知的多模式和各类数据产品,成为现实“地理世界”的第二次模型表达。

4)认知的“地理世界”,是用户通过对重构的“地理世界”甚至感知的“地理世界”进行识别、理解、分析和挖掘,发现现实“地理世界”的第一、二次模型中所蕴含的新模式、新知识和新规律,使用户认知的“地理世界”尽可能地更接近现实的“地理世界”。

5)围绕现实的“地理世界”,通过传感网获得感知的“地理世界”,通过对感知的“地理世界”的处理获得重构的“地理世界”,基于对感知的“地理世界”和重构的“地理世界”的识别、理解、分析和挖掘得到认知的“地理世界”,其目的是用来指导行动,同时获得反馈的指导行动的效果,从而进一步可调整重构的“地理世界”乃至感知的“地理世界”(如空间分辨率、时间分辨率、光谱分辨率,甚至传感器组网),形成一个闭合体系。

3.3时空大数据带来的地图学与GIS的变化

对地图学而言,将会由着重制图数据源(获取)一端向着重制图数据集成、融合与同化一端漂移,由专业化规范化地图制图向多样化、个性化、大众化地图制图漂移,由分尺度构建更新空间数据库向多尺度时空数据库自动生成与增量级联更新漂移,由基于模型、算法、知识(规则)的制图综合向基于人类自然智能与计算机人工智能深度融合(对话)的智能化制图综合漂移,同时,还会由着重地图空间认知到以现实地理世界为对象,由感知的地理世界(传感网)、重构的地理世界和认知的地理世界构成的感知认知全过程、多模式时空综合认知漂移。

而变化中的GIS,则会由基于简单数据源到基于多源异构复杂数据源的漂移(图2),由地理信息系统(GISystem)到地理信息服务(GIService)再到时空信息服务(TSIservice)漂移,其功能由管理型到分析型再到辅助决策(决策支持)型漂移,由空间分析到时空大数据分析、时空大数据挖掘与知识发现漂移,由地图可视化到空间信息可视化再到主题多变性、强交互性和快速性时空大数据可视化漂移。


3.4时空大数据带来的理论、技术与产业的变化

时空大数据时代的到来,必然会给测绘地理信息理论、技术和产业的发展带来新变化,注入新活力。

1)构建时空大数据的理论和方法体系。围绕时空大数据科学理论、时空大数据计算系统与科学理论、时空大数据驱动的颠覆性应用模型探索等,开展重大基础研究,包括全球时空基准统一理论、时空大数据不确定性理论、多源异构时空大数据集成、融合与同化理论、时空大数据尺度理论、时空大数据统计分析模型与挖掘算法、时空大数据快速可视化方法等,构建时空大数据理论与方法体系。

2)构建时空大数据的技术体系。采用政产学研用相结合协同创新模式和基于开源社区的开放创新模式,围绕时空大数据存储管理、时空大数据智能综合与多尺度时空数据库自动生成及增量级联更新、时空大数据清洗、分析与挖掘、时空大数据可视化、自然语言理解,深度学习与深度增强学习、人类自然智能与人工智能深度融合、信息安全等领域进行创新性研究,形成时空大数据的技术体系,提升时空大数据分析与处理能力、知识发现能力和决策支持能力,实现“数据→信息→知识→辅助决策”到“数据→知识→辅助决策”的转变。

3)构建时空大数据的产品体系。围绕时空大数据获取、处理、分析、挖掘、管理与分析应用等环节,研发时空大数据存储与管理软件、时空大数据分析与挖掘软件、时空大数据可视化软件、时空大数据服务软件等软件产品,软硬件集成产品,多样化、个性化定制数据产品,提供时空数据与各行各业大数据、领域业务流程及应用需求深度融合的时空大数据解决方案,形成比较健全实用的时空大数据产品体系,服务于智慧城市、生态文明、智能交通、智能物流、智慧医疗与健康服务等领域。

4结束语

本文作者阅读了近几年来出版的有关大数据方面的著作和论文,对目前大数据及其应用现状进行了分析,就3个方面进行了讨论。

1)大数据时代的到来,源于企业对经济效益的追求、新兴信息技术发展的推动和各国政府的重视与引导,是由包括政府、业界和学界在内的社会各界广泛参与的社会性活动,正在改变着人类的思维、工作和生活,必将开启一个重大的时代转型,思维变革、商业变革和管理变革将成为不可逆转的趋势。

2)时空数据,是从时间和空间的视角研究与位置相关联的地理要素或现象的数据集,具有空间维、属性维和时间维等特征;时空大数据,是在时间和空间视野下研究活动于时空中与位置直接或间接相关联的大数据,时空大数据是时空数据与大数据的融合,具有位置、时间、属性、尺度、多源异构和多维等特征。其价值与意义在于,时空大数据作为分析和挖掘的对象,分析与挖掘的过程是在“时空”中进行的,分析与挖掘的结果本身就反映大数据的时间变化趋势和空间分布规律。

3)“时空大数据时代”的到来也不是偶然的,它来自于解决全球性问题的迫切需要,来自于智能感知技术、互联网、物联网和云计算等新兴信息技术的推动,来自于天空地海一体的对地观测所形成的泛在测绘。时空大数据将无处不在、无时不在,必将给我们带来地图学科学研究范式的变化、时空认知与时空信息传输模式的变化、理论技术和产业的变化,以及地图学与地理信息工程学科研究重点的变化,而这些正是要进一步探索和研究的问题。




往期热点文章链接

四种改进积分法的低空扰动引力计算

BDS星间单差法伪距单点定位精度分析

基于夜间灯光数据的南京城镇用地提取

河南省高速交通网通达性时空特征及演化规律

1982—2013年青藏高原植被动态变化时序分析

中国地图藏南地名的表示

《坤舆万国全图》与《利玛窦中国札记》中外译本考疑

基于生态足迹的江西省可持续发展评价

2017年(第42卷)第6期


关于《测绘科学》

主管:国家测绘地理信息局

主办:中国测绘科学研究院

邮箱:niu@casm.ac.cn

网站:http://chkd.cbpt.cnki.net

作者QQ群:555495420

(入群:稿号+姓名;群名片:姓名+单位)

编务QQ:2378225509

《测绘科学》微信公众号


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存