【专家观点】李剑峰:超数据时代,数据四个重要新特征
The following article is from 十一维 Author 李剑峰
数字
Digital&
般若
Bo Re
练得身形似鹤形,千株松下两函经。
我来问道无余话,云在青天水在瓶。
——(唐)李翔《赠药山高僧惟俨其一》
01
大数据的背影
据说大数据最早的概念来自未来学家托夫勒。1980年,未来学家阿尔文·托夫勒便在《第三次浪潮》一书中中预言了信息时代的到来会带来数据爆发,并将大数据热情地赞颂为「第三次浪潮的华彩乐章」。就“Big Data"这个词而言,公认是SGI的首席科学家du John R. Masey 1998年在USENIX大会上首次使用。但也只是提了个词而已,并未有进一步的论述。
真正意义上的大数据,是在2008年9月麦肯锡公司(McKinsey)推出了名为“大数据”的封面专栏。从此开始“大数据”才成为互联网技术行业中的热门词汇。
2012年牛津大学网络学院教授维克托·迈尔-舍恩伯格及肯尼斯·库克耶出版了影响深远的《大数据时代》一书,随后IBM公司提出了大数据的5V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),极大地深化了人们对大数据及其价值的认识。
在技术层面,随着Hadoop/HDFS/Mapreduce等技术的流行,人们对付“大数据”手段和能力得到强化。Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,能够实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop最初包含两个核心组件,HDFS负责海量数据的分布式存储,Mapreduce则负责体对数据计算结果的汇总。这一技术体系对大数据的发展发挥了巨大的推动作用。后续出现的Spark/storm等开源项目,是一个基于内存计算的开源计算系统,进一步改进和提升了平台处理速度。
认识上的提升和手段上的完善,使大数据形成了一个巨大 产业,在人类社会的各个层面发挥了不可估量的作用。大到美国总统选举、英国脱欧,小到购物网站上一件内衣、一本书的精准推送,都活跃着大数据的身影。而且我深信,我们看到和用到的数据价值,不过是冰山一角。
从上世纪80年代算起,大数据的概念已经走过了40年,在技术更新率不过两三年的IT技术领域,40岁差不多就是“耄耋老人”了。为了更好的认识数据,需要我们从更深的层面和更广的视野来重新认识数据。
回顾大数据概念的最初本意,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。其实就是指“数据大”,这一概念所隐含的出发点和立足点都是物理世界 。这就像是你站在自家门口说“院子里有一大坑水”一样。但当环境变化,假设你置身在茫茫大海之中,四周水天相连,你还会不会冒出面前有“一大坑水”这样的念头?。大数据的概念也一样,站在物理世界,我们会说这数据太多了,我们处理不了,是“大数据“。如果我们置身数字世界之中,整个世界都是数字,大数据的概念自然也就不存在了。而我们已经站在了数字世界的大门口。
环顾四周,在5G、物联网等数字技术的推动下,人类正在向数字世界迁移的大道上狂奔,一往无前、义无反顾。“大数据”的概念只能成为遗留在物理世界中一个茕茕独立的遥远背影。站在数字世界,我们不能再说“大数据”。
02
超数据时代
由IDC和EMC联合发布的“数字宇宙(Digital Universe)”研究报告被广泛引用,最新发布的“2020年数字宇宙”报告预测,2020年全球数字宇宙将会膨胀到40000EB(40ZB),均摊每个地球人身上是5200GB以上。
2020年中国的网民总数接近9亿,平均每个网民每天的上网时间超过5小时。这个庞大的群体既是数据的消费者,但也都是数据的生产者,他们每一张照片、每一段录音、每一个对话、每一次点击,乃至每次手指尖不经意的划过手机屏幕,都会产生数据,数字宇宙高速膨胀。全球数字宇宙的膨胀率大约为每两年翻一番。增长最快的数据量来自物联网,到2020年,连网设备的安装数量预计将增长到500亿台以上,物联网产生的数据量在过去的短短七年内增长近50倍。
在所有的人造物中,没有任何一种东西能像数据这样的飞速增长,随着5G时代的到来、物联网的普及,人类产生数据的速度还将“爆炸式”加快,数字世界的规模将越来越大。这已经超越了人们对大数据的想象,我把这个即将到来的时代成为“超数据时代”。这个时代关注点已经超越了数据的大小、多少,关注的是数据蕴含的价值。在这个时代,我们不再站在物理世界中观察数据,而是站在数字世界中讨论数据。就像站在大海中讨论“水”一样,我们不会关注水体的大小,关注的智能是“水”所能带来的价值。人们越来越相信,如果你发现有些数据没有价值,只有一种可能,那就是你没有找到挖掘价值的正确方法。
超数据时代,数据有四个重要的新特征:
一是“生消一体”。在互联网之前,大多数人只是数据或者信息的消费者,数据或者信息的产生是一个专门的职业。而进入数字化时代,人人都是数据的消费者,人人都是数据的生产者。个体作为数据生产者的价值日益凸显。人人平等的理想在数据层面第一次真正实现。
二是“数数相生”。以往的数据都是在现实世界中产生的,拍一张照片、记录一段对话、测量卫星到地球的距离等等,所有的数据都是真实世界的一个记录或者度量。但现在这种情况已经改变,越来越多的数据是由虚拟世界产生的,比如虚拟机器人之间的对话、机器人创作的作品,比如游戏中产生的一些数据。超数据时代,万物互联、虚实一体,数字世界的万物也都是超数据的生产者和消费者。
三是“数实互动”。在信息化时代,数据被产生之后往往就是一个独立的存在,可以被加工、处置,但是已经与“来处“割裂。”。随着数字化时代的到来,数据和现实之间的联系不再是单向,而是双向作用、相互影响的,数据和实体之间甚至是以“数字孪生”的方式存在。工业4.0倡导的CPS也强调数字和现实的互动。数字世界中的工厂也和现实世界中的工厂一样,是一个活生生的生命体,二者互为孪生,了解和研究数字世界中的工厂得到的知识,可以应用到现实世界中的工厂中来。反之亦然。
四是“数实互依”。随着数字时代的到来,数字化生存日益成为新新人类的生存方式。一个人存在的一切证据都已经数字化,如果不幸你的数据在数字世界中被抹去,你存在的依据就会消失,你将面临“证明你就是你”的窘境。数字世界和现实世界的相互依存关系日益密切。
不远的未来,你在数字世界就可以完成在现实世界中的一切。你可以完全生活在数字世界中。
03
数字般若
般若是一个宗教术语,汉语发音般若(bō rě),是梵语Prajna的音译。本意与“智慧”相近。但为什么没有直接翻译成智慧呢?
在佛教经典翻译史上,著名译经大师玄奘法师曾有“五不译”之说:一秘密故不翻,二多含故不翻,。三此无故不翻,四顺古故不翻,五生善故不翻。
般若意为“终极智慧”、“辨识智慧”,专指如实认知一切事物和万物本源的智慧。如果把般若翻译成智慧,只能诠释出般若的一部分意义,而不能代表般若全部深远妙胜的意义。般若是大智慧,是超越我们平常所说的世间智,是宇宙的本源。而用了梵文的音译能令人生尊重之念,翻译为智慧则易被人轻视。
般若不做翻译的原因很好的诠释了我不用“数字智慧”,而用“数字般若”的本意。
如今智慧满天飞,什么智慧城市、智慧矿山、智慧工厂等等,在这些炫目的名字背后,能看到多少“智慧”的东西?这些胡乱的称谓,确实让智慧被人轻视。
只有用数字般若,才能表达出数字蕴含终极智慧的本意。
在这里我借用般若一词,表达我对来自数字世界的智慧的敬重。我相信随着人类迁徙到数字世界,关于世界的一切真相、一切秘密、一切智慧都将呈现在人类的面前,到那时人类将拥有超越世间一切既有知识、既有智慧的数字般若。
尽管我们尚未构建完整的数字世界,但数字般若已经启蒙。而今,一个现代人,你的出行和消费、你的爱好和健康、你的新朋旧友、你的欲望和隐私,甚至是你自己已经忘记的言行、你自己都不知道的偏好,一切的一切,数字般若一览无余。
我相信数字世界中包含我们所想要知道的一切,以及超越想象之外的一切。启迪数字般若,就能开启透视这一切的慧眼。如果你悟透了数字般若,你就是世界的神祇!
在漫长的人类发展史上,人类按照自己的样子塑造了各种各样万能的神,进入超数据时代,开启数字般若,人类终于找到了自己的成神之路。
(欢迎大家加入数据工匠知识星球获取更多资讯。)
联系我们
扫描二维码关注我们
微信:DaasCai
邮箱:ccjiu@163.com
QQ:2286075659
热门文章
【新书推荐】数据湖及大数据时代的数据治理-《智能油田》系列解读(一)
【新书推荐】人工智能技术应用-《智能油田》系列解读(二)
中台“搞砸”简史:成功的中台都是相似的,失败的中台各有各的失败!
从文件协同到内容驱动业务:不断进化的企业内容管理需求与随遇而安的产品滞后
如何选择数据分析平台
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。