毫无疑问,大数据已成为时下最热门的技术之一,企业和政府单位纷纷投入大数据技术的研究和应用领域,并已取得了大量有意义的成果。
为追赶潮流,不少传统数据供应商纷纷把自身拥有的数据称为大数据,以期提高数据身价。实际上,这样做适得其反,严重贬低了自己所拥有的数据价值!北京大学邬伦教授在一次演讲中也提到,要防范装扮成大数据的“伪娘”。
大数据的“大”,一方面是指数据量“大”,但最本质的是指处理该数据的计算量“大”,即挖掘分析技术复杂——这是由大数据另一个重要特性“价值密度低”决定的,也即单位体量数据可提炼的有效信息低。
业界著名的DIKW金字塔表达了数据(Data)、信息(Information)、知识(Knowledge)和智慧(Wisdom)之间层层递进的关系(如下图)。其中,最基层的数据是原始素材。对这些数据经过加工后,可以得到有逻辑的数据,可以回答Who、What、Where和When等问题。在此基础上,再经过组织和提炼,得到知识,可以回答How和Why。最后,通过应用可以预测未来,达到智慧的境界。
DIKW金字塔
数据价值密度低,意味着单位体量的数据能提炼出来的信息知识和智慧相对较少。因此,如果把数据比作矿的话,那么大数据是贫矿,开采难度大!
业界通常用贫矿和富矿来表述矿物品位的高低, 如在金矿品位定级中,富矿每吨含有5-50克黄金,高于50克为特富矿,低于5克为贫矿,含量低于0.3克的金矿,就没有开采价值。
大数据固然热,处理大数据的软硬件固然高大上,但如果把本来价值密度高的“富矿”数据称作大数据,该数据的体量并无变化,那么无疑降低了数据的品位,贬低了资产的价值,得不偿失。
有人可能会质疑:大数据这么火,你居然说它是贫矿!贫矿开采难度大,但并不意味着贫矿就没有价值,这取决于冶炼矿石的技术。如果冶炼工艺提高,即便是贫矿,也能用较低的成本提炼出有效的矿物质。数据的价值 = 体量 × 价值密度-挖掘分析的成本。如果大数据的体量足够大,技术进步降低了挖掘分析的成本,那么大数据也能产生之前难以想象的收益。
以前,我们通过关系数据库和传统GIS空间数据库来处理地理空间数据,这些被处理过的数据价值密度高,是“富矿”。相反,每个城市每天都会产生多达十亿级记录数的手机信令数据,使用上述常规手段无法处理,更无法有效分析和挖掘这些数据的价值。可以说,在大数据技术发展起来前,这些数据是没有开采价值的特贫矿。Hadoop和Spark为代表的一系列大数据技术的发展,使得开采这些数据成为可能,这正是大数据的价值和魅力所在。
业界常说,日常生活中的数据80%与位置有关,在大数据领域,可能这个比例更高。因此,研发能支持空间大数据挖掘的GIS软件技术,有极其重要的意义。
在空间大数据趋势面前,有人讲传统GIS将死,有点像十年前那一轮三维浪潮:一大批三维软件崛起,似乎传统二维GIS随时将被淘汰。不过,我们不会因为有了三维,就不要二维,所以后来二三维一体化GIS取代了三维可视化软件,也取代了三维可视化软件以及二维GIS通过二次开发集成的“二三维联动”,成了大势所趋。
同样,我们不会因为有了大数据,就不要那些传统的“富矿”小数据。大数据非常有价值,但大数据并非万能。而且,空间大数据也不是地理信息的全部。只有通过GIS,融合空间大数据与传统“富矿”小数据,才能创造更大的价值。
也许个别固步自封的传统GIS软件会被淘汰,但传统GIS的能力依然是必须的。在大数据这轮浪潮中,可以预见,能同时具备挖掘和处理“贫矿”和“富矿”数据的GIS基础软件,才会更有生命力。
在应用需求和信息技术双重牵引下,GIS软件技术进步步伐日益加快,一定会带给大家带来更多惊喜!