这是大鱼先生的第6篇原创
正文开始
数据、信息、知识和智慧是数据创造价值的四个层次,也许你每天都碰到它们,但并不表示对其有深刻的理解,下面是一个从数据到智慧的例子。
事实上,大多数据从业者都停留在采集数据、创造信息这个层次上,能从信息中获得知识的的人寥寥无几,而能做到智慧这个层次的人,大多数其实已经跟数据专业没有关系了,比如领导。智慧的层次结构可以形象的用以下的图表示,这张图非常奥妙,下面我来解释一下。
数据(data)是事实或观察的结果,是用于表示客观事物的未经加工的原始素材,没有回答特定的问题,没有任何意义,智慧的层次结构图中那些杂乱无章的小点表征的就是数据。原始的、未编码的事件、经历和现象、出生,死亡、市场交易、投票、音乐、下载、降水、足球比赛等等都是数据。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0,1的形式表示。一只数据团队中,做数据平台和数据采集的人是最接近数据的,大多数数据从业者每天其实并不是在跟数据打交道。1948年,数学家香农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”,其实香农没有给出信息的定义,而是在说信息的大小和价值。百度百科说信息,指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。在一切通讯和控制系统中,信息是一种普遍联系的形式。智慧的层次结构图中把杂乱无章的数据描述成了正方形、三角形、圆形和六边形。这里给出信息的更通俗定义:信息用来给数据命名并将数据归入相应的类别。为了进一步说明数据与信息的区别,可以看看这2个例子:我这个“人”是数据,但给我取的“大鱼先生”这个名字就是信息。我到西湖钓到的“鱼”是数据,西湖这一天被钓走的“鱼的数量”就是信息。数据只有通过业务的加持才能转化为信息,数据是客观的,而信息则是主观的。创造信息的目的是为了方便沟通和理解,代表大家对于各类数据的共识。元数据被定义成描述数据的数据,其实元数据是信息的基础。在一只数据团队中,做数据资产管理的人是最大的信息创造者,没有他们的努力,原始的数据毫无价值可言。一个企业的数据资产的价值,不取决于拥有多少数据,在于其能将多少比例的数据转化成真正的信息。现在企业级大数据强调跨域数据的整合,其实是在说要突破各部门业务的鸿沟,达成信息上的共识和开放,企业的组织、机制和流程往往决定了数据转化成信息的效率。柏拉图将知识定义为合理的真实信念。更现代的定义则认为知识就是对相关关系、因果关系和逻辑关系的理解。知识组织了信息,呈现为模型的形式。正如智慧的层次结构图中那些正方形、三角形、圆形和六边形组成的有意义的联系一样。知识大致等同于模型,当然这里的模型远远超越了数据领域的模型范畴。市场竞争的经济学模型、网络的社会学模型、地震的地质学模型、生态位形成的生态学模型以及学习的心理学模型都体现了知识。这些模型能够解释和预测。比如化学键模型解释了为什么金属键会使我们无法将手伸进钢制的门,经济学的供需模型解释了为什么需求增加的时候价格会上涨,市场的4P理论告诉我们营销的关键要素有哪些,大数据的4V理论揭示了“大”的本质特征,机器学习的模型通过构筑相关关系预测未来。可惜的是,企业的数据团队大多时候做的是创造信息、展示信息的工作,比如提供取数和报表,极少比例的人在做创造知识的工作,比如数据团队的建模师,但这些建模师过于狭隘的定义了建模,将建模局限在了机器学习这个领域。但企业面临的环境是复杂的,往往需要用多模型的思维去解释和预测,比如你要对用户进行精确营销,懂点机器学习是不够的,还需要理解4P模型,而理解了4P模型也是不够的,也许心理学上的损失厌恶模型可以帮你优化营销策略。业务人员是企业事实上最大的知识创造和使用者,他们基于自身的业务知识来解释信息,更善于从取数和报表中发现知识,从而影响决策。区分知识和智慧最有名的例子就是纸上谈兵的赵括,他有丰富的理论即知识,但他无法在合适的场景选择适当的知识去做决策,赵括是没有智慧的人。智慧是指识别和应用相关知识的能力,智慧的本质就是决策,决策的难度在于它是需要行动的,你通过人工智能可以获得一个知识,但在生产中使用这个知识意味着你需要承担后果,这是更为复杂而有风险的事情。机器学习或人工智能关注“如果我看到/听到/闻到X,那么我能得出什么结论?”,然而,决策回答的问题是,“如果我采取了行动A,会有什么结果“。正如智慧的层次结构图中的那个IF一样。决策的关键是选择,多模型则是选择的基础。在采取行动时,有智慧的人会应用多个模型,就像医生会让病人做好几种检查来帮助诊断一样,领导在做决策的时候,也往往征询各方的意见,这些都是智慧的体现。考虑以下这个物理问题:一个小小的毛绒玩具从一架飞在6千米高的飞机上掉下来,当它着地时会造成多大的伤害?学生可能已经掌握了引力模型和自由降落速度模型,这两个模型会给出不同的答案,要想得到正确的答案需要信息(玩具的重量)、知识(自由降落速度模型)和智慧(选择正确的模型)。对于数据从业者,南向受上游系统的限制,北向受业务管理的限制,其驻留在数据和信息这两个层次难以突破,生存环境其实并不是很好。如何更好的靠近上游系统进行数据的治理,如何更好的靠近业务发挥出数据的价值,考验着数据从业者的智慧,而所有这些,都不是靠单一的技术能解决的。—————— / END / ——————
大鱼先生,给你提供最新的数据思想,欢迎关注!
有一种信息化的死敌,叫数据打通!
数据中的商机
大数据的过去、现在和未来:万字长文解读《大数据四十二条》
从吴军的“算法的油水就那么多”说起!
《长安十二时辰》的大案牍术可不是什么“穿越版”的大数据!
大数据在5G时代会有什么不同?
从计划到市场,精准营销也许到了该改变的时候了!
有了大数据这个工具,“社会科学”也许可以变得更让人信服!
如何进一步理解精准营销的内涵?
我如何用统计学指导自己的生活?
谈谈大数据时代的《别被算法困在“信息茧房”》
从大数据变现出发,如何清晰的理解新零售?
从吴恩达的“AI的壁垒非算法而是数据”说起!
大数据,悟道2016
宝洁,没必要去亵渎精准营销!
业务人员的革命:从大数据运营是一台“戏”开始
传统企业的模型最佳实践为什么很难复制推广?
一个大数据应用是如何炼成的?
不忘初心,大数据不是IT的狂欢!
传统企业大数据对内运营变现如何破局?
决战大数据的对内运营
谈谈我的《深入浅出大数据系列讲义课程》
重装上阵-大数据管理的实践和思考
“9·11”15年:致癌人数已超5400人,这个新闻靠谱吗?