查看原文
其他

大数据→块数据→块数据2.0(你应该了解)

2016-08-12 数据观

导读:《块数据2.0》是《块数据》的延续和深化,站在更加系统、综合和前瞻的角度,创造性地提出了一系列新概念和模型,初步构建起块数据理论体系。以下内容节选自本书。



重新定义大数据


▍知识、信息和数据


从人类思维范式的演进看,知识、信息、数据呈现出一种螺旋上升的循环周期。无论是在人脑时代、电脑时代还是云脑时代,人类思维逻辑和人类思维范式都是同时存在的,数据、信息和知识都是其中最基础性的资源,三者相互交叉、相互促进,共同推动人类发展。


▍大数据是什么


大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。这一新的定义,蕴含着大数据时代的三个基本特征,即新模式、新技术、新业态。


▍从大数据到块数据


大数据强调开放共享,但在“条时代”,大数据的发展面临共享难度大、垄断程度高、融合能力差、应用价值低以及安全风险大等一系列制约因素。块数据是具有高度关联性的数据在特定平台上的持续集聚,既是数据集聚的结果,也是数据聚合的过程;既包括点数据、条数据,也包括面数据;既有数据空间的填充、空间数据的重构,也有聚合过程中的组构和组构过程中的聚合,同时还伴随新数据的汇集和原有数据组合后衍生数据的产生。这种聚合是持续进行的,并伴随着数据的不断更新。这个过程既是块数据自我重构和自我修复的过程,也是对条数据组合、纠偏、选择的过程。


结构化数据、抽象化数据与暗数据


▍结构化数据


随着计算机科学与技术的不断发展,计算机处理的数据也由纯粹的数值发展到字符、表格、图形、图像、声音等具有一定结构的数据。相应的,数据结构化也经历了无结构化、结构化、面向对象三个阶段。




抽象化数据


抽象化数据是介于结构化数据与暗数据之间的,人脑通过视觉、听觉、味觉等感官很容易感知到,但是不容易被电脑识别的数据。在现阶段,只有部分抽象化数据能够被电脑记录,但还不能实现测量和计算。目前,对数据离散化处理是抽象化数据转化的重要方式。通过对抽象化数据的加工处理,即编码、存储、提取、遗忘,实现计算机对数据的可识别、可感知,就是抽象化数据的转化过程。计算机将人的感知活动合理地“分割”或“碎片化”,把对感知的整体性、连续性分析转化为“个体性”的离散化处理,将人的感知解构为无数计算机可识别、可记录的数据,再通过计算机数据分析系统,对这些数据进行重构,以达到对人脑感知活动的模拟。


暗数据


暗数据通过数据引力波在不同数据引力场里的聚合、裂变,对明数据、暗数据以及所在的引力场都会发挥作用,释放能量。与明数据显性的数据引力不同,暗数据的数据引力是隐性的力,只有通过自激活或他激活,暗数据的价值才能显现出来。在暗数据被激活之前,这种引力波对事物的作用和影响不大,但会形成一定的干扰。


块数据的本质


▍块数据的定义


块数据的关联性集聚并不局限于某个物理空间或行政区域,而是在特定的平台上实现的,这个平台既包括特定的物理空间,也包括虚拟空间、操作环境,比如软件等,还包括某种工具,比如阅读器等。块数据的关联性集聚,将打破传统的信息不对称和物理区域、行业领域对信息流动的限制,通过对不同类型、不同领域数据的跨界集聚,极大地改变信息的生产、传播、加工和组织方式,进而给各个行业的创新发展带来新的驱动力,推动各个领域的彻底变革和再造。


▍块数据的基本属性


高度关联性是块数据的本质属性。它主要表现为三个方面:首先,众多高度关联的数据在特定平台上集聚;其次,数据与数据之间构建了一种彼此连接、相互交错,集灵活性与网络性于一体的组织连接格局;再次,集聚于平台上的数据之间形成一种相互影响的关联机制。


▍块数据与大数据的区别




▍块数据的范式转移


《第四范式:数据密集型科学发现》将人类科学的发展定义为4 个“范式”,每一个范式的出现都带来了一场新的科学革命。




块数据模型


▍模型理论与块数据模型


模型最主要的特点是对客观事物、客观规律的抽象,最后回归于实际应用之中。构建块数据模型是为了更加精准地理解和把握块数据的内涵和本质,要解决的问题主要有促进数据流动、建立数据连接、发现数据价值、再造数据价值,其中再造数据价值是需要解决的核心问题。


▍平台化:从数据到数聚


从平台到平台化,描述的是海量数据通过流动实现聚集的过程,也就是从数据到数聚的过程。平台为数据的自由流动提供了一种可能,这种流动实现了数据之间的连接。在块数据中,平台化强调数据流动的速度,数据流动越快,数据之间建立的连接就会越多,就越能促进数据聚集。随着大数据技术的发展,现代社会逐渐成为一种数据化社会。流动的数据可以消除数据的不对称,破除时间和空间的限制,实现数据之间的更多碰撞,发现并重构价值,从而促进数据化社会发展。


▍关联度:从跨界到融合


融合化的关键是打破数据壁垒,实现跨界关联。传统的社会分工使不同领域和行业的数据以“条”的形式存在,加之行业因素、利己主义及数据风险防范等原因,造成数据壁垒,成为数据融合的障碍。只有打破数据壁垒,才能实现数据之间的自由流动,实现跨界关联以及融合,最终形成新的关联模式。融合让不同领域、不同类型的数据成为高度关联的整体,最终形成新的数据形态。


▍聚合力:从解构到重构


解构与重构是块数据高级形态的重要特征。离散化解构就是打破原来的数据结构,将其分解为不连续的、基本的数据单位,即数据元。全息化重构是对数据元多维度、多方位、多类型的重组。解构与重构强调数据价值产生之后,还可以再次返回块数据平台,进行循环的解构与重构,从而不断再造更高阶的数据价值,离散化解构与全息化重构过程贯穿于聚合环节的始终。


注:本文摘自块数据,数据观微信公众号(ID:cbdioreview) ,欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。

推荐阅读:


»点击标题即可直接进入阅读文章(数据观小编:Fynlch)

榜单丨2016中国大数据专有领域大奖及企业50强(完整版)

推荐理由:本榜单是上周的热点,分为“2016中国大数据企业50强”和“2016中国大数据专有领域大奖”,调研认真,审议详尽,还做了领域细分。


《Hadoop家族技能图谱》高清大图

推荐理由:该图谱是《大数据工程师必备技能图谱》(高清大图)及《云计算工程师必备技能图谱》(高清大图)的配套版,都是大数据、云计算技术相关,文内附上了跳转链接,3个图谱全都在这篇文章里了!


《2016中国大数据产业生态地图》发布(完整版PPT)

推荐理由:地图首次提出了大数据生态的三层定义,对数据服务、基础支撑、融合应用等三层生态进行了精准的层次化分析,研判可供详参。


2016年上半年大数据创业公司融资盘点

推荐理由:本文对2016年上半年融资的中国大数据创业企业进行了盘点,据该盘点:2016年上半年,中国大数据领域的创新公司总共获得超过24笔投资,获得上千万元融资的大数据公司18家,还是很可观的。


《大数据服务行业研究报告》(完整版PPT)

推荐理由:报告共分为三个部分,包括大数据行业概述&发展现状、通用型大数据服务分析以及大数据在垂直领域的应用。


《大数据标准化白皮书(2016)》(完整版PPT)

推荐理由:很多读者都在询问这个白皮书的下载方式,其实该白皮书直接在微信上点击图片就可以放大阅读,或者点击阅读原文进入数据观网站查看网页版。读者反响很好,有读者留言表示看后受益匪浅,所以再次推荐给大家。


PPT干货丨桑文锋:深入浅出大数据分析

推荐理由:本PPT来源Sensors Data CEO 桑文锋的主题演讲,从大数据思维讲起,深入浅出剖析数据驱动的理念,常用的数据分析方法,推荐的思路,多维数据分析技术等。


2016中国大数据企业排行榜发布(完整版PPT)

推荐理由:本次发布的2016年《中国大数据企业排行榜》是2015年发布以来的又一次全面更新,算是大数据行业比较受关注的大事了,排行及细分都有所讲究,值得了解。


《医疗大数据行业研究报告》(完整版PPT)

推荐理由:本报告通过对宏观环境、行业结构及细分领域公司案例的分析,为大家解读医疗大数据行业的发展趋势、发现优质的产业链切口以及评判同一切口下的企业相对优势等,报告还介绍了图谱,行业相关人士可研读一下。


第38次《中国互联网络发展状况统计报告》发布(全文)

推荐理由:本报告又预示着中国互联网络发展的新进阶,在文内数据观小编还附上了

第36次《中国互联网络发展状况统计报告》及第37次《中国互联网络发展状况统计报告》,一文即可浏览完整版,不用再到处找对比了。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存