千万别随便称大数据，否则可能会贬低你的数据价值!

宋关福 2018-05-29

毫无疑问，大数据已成为时下最热门的技术之一，企业和政府单位纷纷投入大数据技术的研究和应用领域，并已取得了大量有意义的成果。

为追赶潮流，不少传统数据供应商纷纷把自身拥有的数据称为大数据，以期提高数据身价。实际上，这样做适得其反，严重贬低了自己所拥有的数据价值！北京大学邬伦教授在一次演讲中也提到，要防范装扮成大数据的“伪娘”。

大数据的“大”，一方面是指数据量“大”，但最本质的是指处理该数据的计算量“大”，即挖掘分析技术复杂——这是由大数据另一个重要特性“价值密度低”决定的，也即单位体量数据可提炼的有效信息低。

业界著名的DIKW金字塔表达了数据（Data）、信息（Information）、知识（Knowledge）和智慧（Wisdom）之间层层递进的关系（如下图）。其中，最基层的数据是原始素材。对这些数据经过加工后，可以得到有逻辑的数据，可以回答Who、What、Where和When等问题。在此基础上，再经过组织和提炼，得到知识，可以回答How和Why。最后，通过应用可以预测未来，达到智慧的境界。

DIKW金字塔

数据价值密度低，意味着单位体量的数据能提炼出来的信息知识和智慧相对较少。因此，如果把数据比作矿的话，那么大数据是贫矿，开采难度大！

业界通常用贫矿和富矿来表述矿物品位的高低，如在金矿品位定级中，富矿每吨含有5-50克黄金，高于50克为特富矿，低于5克为贫矿，含量低于0.3克的金矿，就没有开采价值。

大数据固然热，处理大数据的软硬件固然高大上，但如果把本来价值密度高的“富矿”数据称作大数据，该数据的体量并无变化，那么无疑降低了数据的品位，贬低了资产的价值，得不偿失。

有人可能会质疑：大数据这么火，你居然说它是贫矿！贫矿开采难度大，但并不意味着贫矿就没有价值，这取决于冶炼矿石的技术。如果冶炼工艺提高，即便是贫矿，也能用较低的成本提炼出有效的矿物质。数据的价值 = 体量 × 价值密度－挖掘分析的成本。如果大数据的体量足够大，技术进步降低了挖掘分析的成本，那么大数据也能产生之前难以想象的收益。

以前，我们通过关系数据库和传统GIS空间数据库来处理地理空间数据，这些被处理过的数据价值密度高，是“富矿”。相反，每个城市每天都会产生多达十亿级记录数的手机信令数据，使用上述常规手段无法处理，更无法有效分析和挖掘这些数据的价值。可以说，在大数据技术发展起来前，这些数据是没有开采价值的特贫矿。Hadoop和Spark为代表的一系列大数据技术的发展，使得开采这些数据成为可能，这正是大数据的价值和魅力所在。

业界常说，日常生活中的数据80%与位置有关，在大数据领域，可能这个比例更高。因此，研发能支持空间大数据挖掘的GIS软件技术，有极其重要的意义。

在空间大数据趋势面前，有人讲传统GIS将死，有点像十年前那一轮三维浪潮：一大批三维软件崛起，似乎传统二维GIS随时将被淘汰。不过，我们不会因为有了三维，就不要二维，所以后来二三维一体化GIS取代了三维可视化软件，也取代了三维可视化软件以及二维GIS通过二次开发集成的“二三维联动”，成了大势所趋。

同样，我们不会因为有了大数据，就不要那些传统的“富矿”小数据。大数据非常有价值，但大数据并非万能。而且，空间大数据也不是地理信息的全部。只有通过GIS，融合空间大数据与传统“富矿”小数据，才能创造更大的价值。

也许个别固步自封的传统GIS软件会被淘汰，但传统GIS的能力依然是必须的。在大数据这轮浪潮中，可以预见，能同时具备挖掘和处理“贫矿”和“富矿”数据的GIS基础软件，才会更有生命力。

在应用需求和信息技术双重牵引下，GIS软件技术进步步伐日益加快，一定会带给大家带来更多惊喜！

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！