查看原文
其他

海洋论坛▏大数据时代的海洋地质信息化建设

2016-05-04 溪流的海洋人生


  近年来互联网产业蓬勃发展,数据量猛增,云计算、大数据等信息技术热词如火如荼,大数据带来的信息风暴正在变革我们的生活、工作和思维。2012年3月奥巴马政府公布了“大数据研究与开发计划”,提高政府从海量复杂数据中获取知识和远见的能力,该计划得到了美国国家科学基金会、国家卫生研究院、国防部、能源部、国防部高级研究计划局、地质勘探局等6个联邦部门的支持。一贯从事SQL关系型数据库业务的Oracle公司推出了NOSQL(Not Only SQL)数据库服务器,迎接非结构化大数据的挑战。谷歌Map Reduce、开源Hadoop分布式架构等新兴技术为大数据平台搭建及大数据处理分析提供了实现途径。在这样的时代背景下,如何借鉴大数据浪潮带来的思维与技术,采取切实可行的措施,加快实现公益性海洋地质调查成果社会共享,挖掘海洋地质数据在未来国民经济和社会发展过程中的应用价值,满足社会各界对海洋地质信息日益增长的需求,是海洋地质信息化建设值得思考的问题。一、发掘数据价值  大数据不仅指海量数据,还代表着对大规模数据进行采集、存储、处理、分析的技术能力,更体现着对数据资源的重视及未来战略的把握,因为信息技术革新的重点正从技术转向信息,数据的价值正在发生革命性变化,数据有望成为不断增值的潜在财富,大量创新将在此基础上建立,发掘数据价值、实现智能型信息服务正在成为业界的未来趋向。  随着不同比例尺海洋区域地质调查及海岸带环境地质调查工作的不断铺展,以及各种新型探测技术与数据采集技术的投入施用,海洋地质数据存有量一直呈快速上升趋势,但数据再利用率并不高,多限于项目组或内部使用,数据应用方式也比较单一,交叉综合利用率也不高。因此需要借鉴大数据思维,探索数据基本用途外的潜在作用,使数据在首要价值实现后仍能不断产生潜在价值,实现数据价值的最大化。  数据潜在价值最常见的释放方式包括:  ⒈ 数据再利用:以业务驱动或用户需求为核心,开发数据应用模式,让数据进入可再利用的循环,同时关注数据循环过程中产生的新数据,让数据能在循环利用过程中不断增值。  ⒉ 数据整合:探索数据集之间的关联价值,开发2个或多个数据集的组合方式,使不同类型数据的结合能释放新的数据价值,让多源数据组合价值总和大于单一数据集价值的堆砌。  ⒊ 数据开放:建立信息公开制度,创建良好的数据生态环境,在保障国家安全、个人隐私与数据知识产权的同时,将数据公开范围从学术象牙塔扩展到政府部门、企业单位乃至社会公共服务领域,让尽可能多的人能合法获取数据并利用数据携带的信息,在应用领域创造价值。  数据向社会开放是实现数据价值的最直接途径,同时也是迄今的最大障碍。一方面,在数据内涵价值不确定的情况下,其安全级别与开放程度有时很难界定,甚至极具争议性;另一方面,基于产业发展、商业目的或特殊应用需求,第3方企业单位或社会机构具有更强的洞察力和创新性,能有目标、有计划地挖掘并利用数据的潜在价值。因此,权衡利弊、尝试数据逐步开放是实现数据潜在价值的首要任务。美国联邦政府大数据网站(data.gov)的数据开放过程是:2009年上线时“看上去很美,但数据有限”;2012年3周年时,170多个机构参与发布40余万原始数据集和地理空间数据集;2012年底data.gov走向开源(Open Government Platform),其中所采用的方针政策、技术手段以及政府与研究机构的科学务实态度均值得借鉴和学习。此外,英国政府大数据网站(data.gov.uk)在开放数据产业的成功经验也值得借鉴。二、突破固有思维  ⒈ 数字化、数据化与信息化  目前数字地球、数字海洋、数字城市等一系列信息化建设项目正在开展过程中,这些项目的标题很容易让人误解为信息化就是数字化,从而影响信息化建设的工作导向。  实际上,数字化只是通过采样、量化、编码将模拟数据转换成计算机可读数据的过程。数字化的目的并非让计算机存储设施成为数据的终结地;从大数据层面看,数字化的目的是数据化,数据化后的数据才可以检索、分析、重组,才可以通过数学模型挖掘用户需要的信息。因此,信息化应是数据与信息技术的集成,即数据与技术相结合,最终驱动数据从存储地走向信息服务领域的过程。  ⒉ 大数据分析思维  海洋地质数据涉及基础地理、地形地貌、海洋地质、构造地质、矿产资源、环境地质、地球化学、地球物理等专题类型,其应用价值和综合利用潜力难以低估,但因多源异构,类型纷杂,交叉综合利用难度大,需要突破思维模式,技术创新。《大数据时代》作者认为,大数据时代的信息分析思维方式将有3大转变。  ①样本等于总体的全数据模式:由于可获取数据量及信息处理能力大增,数据分析将不再依赖随机取样,而是使用全部数据;  ②大趋势正确前提下的效率高于精度模式:由于数据量大增、数据类型纷杂使得错误难以避免,因此,数据分析将不再一味追求精确性,精确计算往往需要以时效为代价,快速获取脉络趋势比严格的精确性重要得多;  ③着眼于实际应用的数据相关分析模式:数据分析将不再热衷于寻找因果关系,经由数据相关关系分析的结果探索成为主流。其中大数据思维的效率高于精度模式对海洋地质数据算法技术的开发具有重要指导意义。谷歌公司专家曾在“数据非理性效果”一文中提出,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效”,贯彻该技术策略,谷歌地图、谷歌翻译等网络应用业务取得了成功。以谷歌地图投影算法为例,谷歌地图选择公共可视化伪墨卡托投影(Web Mercator)作为地图投影方式,该投影实际上是基于椭球面的球面墨卡托投影,或称近似墨卡托投影,不适合量测应用,但投影算法简单,能满足快速高效的地图Web可视化服务,该算法策略为地图业务的后期发展奠定了良好的数学基础。  海洋地质信息化建设拟以用户需求为出发点,借鉴大数据思维,重新认识海洋地质数据资源之间的相互关系,有针对性地开发多源、复杂结构、海量数据的存储、整合、管理、挖掘、分析、利用与展示技术,创造数据的长期与综合利用价值。三、重视软性建设  ⒈ 开发数据应用工具  大数据兴起,基础架构和平台又一次被热炒,但这一次信息技术革新的聚光灯转向了信息“Ⅰ”。基础架构和平台只是大数据环境的承载者,平台之上的数据应用工具(应用程序APP、应用程序界面API等)才是创造数据长期价值的未来核心。美国联邦政府大数据网站(data.gov)按原始数据、地理空间数据和数据工具3大类组织,说明了数据工具与大数据的整合关系以及数据应用工具的重要性。  纵观20年来的海洋地质信息化发展历程,重硬件投入轻软性建设是普遍现象。目前,海洋地质数据的采集、存储能力不断增强,但从数据中提取价值的能力仍然不高,核心技术仍然缺乏。因此,需要根据海洋地质数据特点,以用户业务需求为驱动,开发数据应用模式,创建数据挖掘模型,把握数据、信息与工具的业务命脉,创造数据的持续可利用价值。  ⒉ 提高可视化与可视分析技术水平  数据可视化是通过图形方式整合、浓缩、传递与表达信息的过程,是诠释复杂数据的重要工具。一方面,将复杂数据映射到易于理解的视图中,有助于非专业人员充分理解数据所表达的信息;另一方面,可视化也是洞察大数据内在规律、探索未知信息、预测发展趋势的有效手段和途径。  数据可视化与可视分析技术水平以及信息可视化表达能力,体现着信息化建设成果的先进性和有效性。为此,海洋地质信息化建设应重视海洋地质数据可视化技术的研究,关注海量、多源海洋地质数据的动态、快速、有效的可视化技术,研制面向不同用户群的信息图形表达方式与视觉效果,体现数据的信息之美;其次,可结合数据挖掘探索数据隐含信息的可视分析技术,发掘海洋地质大数据的潜在价值,为智能型信息服务奠定基础。四、结论  从美国政府“大数据研究与开发计划”看,自然科学研究、环境保护、国家安全等基础科学研究领域的大数据技术突破将是未来的重点。海洋地质信息化建设应摆脱单纯以“数据量”论成效的价值观,重视数据的信息服务价值,创建数据有效增值模式,实现数据的再利用价值;同时,借鉴大数据思维,探索海洋地质大数据挖掘与可视化技术,提升信息价值洞察力,增强海洋地质信息化软实力,实现数据价值的最大化。■作者:戴勤奋 魏合龙 王圣洁 林峰,青岛海洋地质研究所,来自《海洋地质前沿》。第一作者简介:戴勤奋,1963年出生,女,研究员,主要从事海洋地质数据库设计工作。

海洋论坛▏海洋地理信息系统的应用现状及其发展趋势

论文专区▏美国海军电子海图显示与信息系统发展与启示

论文专区▏专用海洋底质粒度分析数据整编方法

海洋视野▏如何唤醒沉睡的海洋调查资料?

海洋论坛▏从海洋地质环境谈我国海上风电开发


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存