查看原文
其他

DIKW模型,数据供应链中的基础生产工艺

石头 数据力学 2022-08-17

Where is the wisdom we have lost in knowledge? 

Where is the knowledge we have lost in information? 

--艾略特《The Rock》 


困惑:我们该以何种姿势进入数字世界? 


在上一篇《数据中台,数据产品的自动化生产线》中,提到“对于数据中台来讲,最核心的能力是建立业务、数据、IT一体化的数据产品研发团队。这也无疑是数据中台有别于传统数据仓库、大数据技术平台最核心的思想。”业务人员应该以什么样的姿势开始介入数据中台的工作呢?

那是不是要求业务人员学会数据建模、机器学习算法、神经元、人工神经网络等技术之后,合作才能开始呢?相信这是当前很多企业面临的困惑。

走在数字化转型前列的企业,业务部门也开始意识到数字化的重要性,甚至怀着满腔热情开始投入到数字化、数据中台建设的讨论中来。但是,由于业务人员缺乏基本的数据库知识,经过一段时间艰难的探索,始终不得其法。毕竟“隔行如隔山”,合同谈判、订单处理、经营分析等曾经引以为豪的业务技能在此似乎毫无用武之地了。结果,业务人员的积极性备受打击;数据、IT工程师面对业务人员提出的各种“奇思妙想”,往往也觉得“不可思议”。

在我们继续往下讨论之前,先做一个小测验。请看下面的图中,你是否知道这个逻辑电路图的工作原理: 

(注:图片来自网络,如涉及版权,请联系作者删除)

我相信,即使是计算机科班出身的IT专家,从学校出来若干年之后,都已经想不起来它的工作原理了。实际上,这是一个实现四位整数加法的逻辑电路图,感兴趣的同学,去网上搜索一下与非门的基本工作原理,稍微烧烧脑,就能自己验证一下。

看到这里,相信业务领域专家们也就释然了,IT专家都不懂,我学它干啥?更重要的是,希望通过这个小小的测试,告诉大家一个道理:

正确的姿势很重要,否则,在数字世界难免碰得头破血流。  


DIKW模型

接下来,从DIKW模型开始,我将尝试跟大家一起解开这个难题。

这个模型可以追溯于托马斯・斯特尔那斯・艾略特所写的诗-《岩石》(The Rock)。在首段,他写道:“知识中的智慧我们在那里丢失?资讯中的知识我们在那里丢失?”(Where is the wisdom we have lost in knowledge? / Where is the knowledge we have lost in information?)

教育家米兰・瑟兰尼、管理思想家罗素・艾可夫进一步对此理论发扬光大,前者在1987年撰写了《管理支援系统:迈向整合知识管理》(Management Support Systems: Towards Integrated Knowledge Management ),后者在1989年撰写了《从数据到智慧》(“From Data to Wisdom”,Human Systems Management)。

首先,为免去大家Baidu的麻烦,我从网上摘录了一些关于DIKW模型的解释:

D:Data (数据),是 DIKW 体系中最低级的材料,一般指原始数据,包含(或不包含)有用的信息,可以是数字、文字、图像、符号等。

I:Information (信息),在数据工程里,通过一些方式将数据经过组织和处理,数据就有了意义,这就是信息。

K:Knowledge (知识),在数据工程里,表示对信息进行针对性的实用化,让提取的信息可以用于商业应用或学术研究。对于信息的集合,使信息变得有用,更好的传递给人类。

W:Wisdom (智慧),表示对知识进行独立的思考分析,得出的某些结论。

怎么样?没看懂?没关系,忘记这些枯燥的文字。先看一个N年前我在公司内部进行数据“布道”所用的介绍: 

例如,39℃是数据,几乎没有实际意义;某某小朋友的某时的体温为39℃(这就是信息);那意味着该小朋友正在发烧(转换成知识了);建议立刻上医院看医生,或者服用紧急退烧药(智慧通过行动体现出来)。通俗易懂,没毛病。然后呢?没有然后。

清楚的记得13年前,18M顾问们为我所在的企业提供数据管理咨询服务,大家开始了数据与信息之争。顾问们搬出英文版的DIKW模型给我们进行科普教育。究竟应该叫IA(信息架构)还是DA(数据架构)呢?最终还是部门老大拍板,IA。理由是DA显得太Low,跟IT搅和在一起。 接下来轮到我们自己给业务部门同事进行科普培训了,包括什么是数据,什么是数据模型,如何进行数据管理等等。此时,DIKW模型以及关于体温的“剧本”作为开头。如今想起来,自己都不觉汗颜,感谢当年业务同事不轰我下台之恩。

在数据领域历经了十余年的摸爬滚打之后,尤其经过了从管数据到用数据的变迁,才开始真正理解DIKW模型的内在价值。那天同时开玩笑说:“终于看破红尘了。”我回了一句:


“红尘不是’看看’就能破的,而是被撞破的。” 



如何理解DIKW模型


      这是一个被严重忽视的模型。一方面因为DIKW模型中,四个要素的边界不是非常清楚;更重要的原因是,人类脑子里的,一切都自然而然发生了,谁去管它哪片是信息,哪片又是知识呢?

  • 就像吃饭、走路一样,我们也很少去认真思考我们自己是如何通过学习掌握知识,并加以利用的。要说我们不懂人工智能,其实是因为我们还不够懂我们自己。

  • 如果我们想要“教”机器如何学习,最合适的开始方式是想想我们自己如何学习。

当前,很多人习惯简单的分为现实世界(Reality world)和数字世界(Digital\Data World、Cyberspace、“data nature”),通过数字化、联接实现现实世界和数字世界的不断融合。但现实世界的范围并不明确,尤其是不断融合之后。例如,货币财富,是属于现实世界还是数字世界的范畴呢?游戏装备呢?

为此,结合DIKW模型,我尝试给大家一个更加完整的视图。我认为大家值得花上几分钟时间认真理解一下其中的逻辑,相信会有收获的。  


针对上面的划分,进行必要的补充说明:

以计算机等电子设备存储、处理的数据、信息、知识、智慧(红色框的范围),我们也称之为数字世界。

以纸为主的物理存储将越来越少,并将逐步消失;历史已有遗迹也将通过数字化手段转化为电子存储。

人类大脑为主进行存储、处理的知识、智慧,随着人工智能的发展,部分将转移到数字世界。

智能汽车等人造智能化设备也承担了一部分数据存储、处理的职能,其中的数据等也属于数字世界的范畴(逻辑上)。  

因此,数据、信息、知识产生、加工、记录的形态,并非数字世界的专利,还包括传统的纸、石头、丝绸、牛皮、甲骨等其他物理介质;在人工智能的快速发展之前,智慧几乎是人类大脑的专利。我笼统的称之为概念世界。

为了让大家理解上面这个模型,让我们来温习一个高中时代的简单物理实验(没有读过高中的读者可以选择跳过本段内容,也可以自我挑战一下自己的智力)。

记得,在物理老师的指导下,每个同学领取一个长度、粗细不一样的钢制弹簧,以及三个带有重量刻度的砝码,一把尺子,以及一个待称重的小铁块。任务是测量小铁块的重量。将带挂钩的弹簧悬挂在试验台的的架子上,让弹簧自然下垂静止,记录弹簧的长度。接下来,将每一个砝码逐一挂在弹簧的最下端挂钩上,并记下对应的弹簧长度。为了显得真实,我简单还原了一下记录如下:

通过上面的实验,我们还原了学习知识的过程。我们借助测量工具,得到数据记录,验证知识点,最后做成可以用于称重的简易弹簧秤。这一过程就是一个从数据到智慧的演变过程。

在数字世界中,也依然遵从这一套基本逻辑。不同的是:1)通过摄像头、IOT等自动完成数据测量的过程,数据量更加完整;2)公式中的x(所谓的特征)不是单一的,而变成了数十数百,甚至数千个,无论多么复杂,最终的目的都是得到的一个类似y=kx+b的公式(所谓的算法模型)。

物理老师为了节约时间,提前告知我们关于弹力和长度之间的正比关系;我们已知的专业领域知识,有些是定性的,有些是定量的,在数据科学家确定算法模型的过程中,很多情况下,是非常有价值的输入。  

写到这里,不由得想说句题外话,也算有感而发吧。

记得当时我拿到这个作业时,心中充满着好奇与惊喜。数十年前,乡下的秤是由带有刻度的秤杆和与之相匹配的秤砣构成(所谓秤不离砣)。黑色秤杆上的银色星星点点的刻度代表了重量的数字,并不直观。加上小时候大人们老是告诫小孩子不能吃鱼籽、母鸡肚子里未成形的鸡蛋等等,否则长大了就不会识秤,所以以为识秤还是一门学问呢。想到,不仅仅不担心不失秤,还可以有机会亲自体验更加“先进”的弹簧秤的原理,心中顿时充满着好奇,真有一种对知识的渴望。

为照顾新生代的读者,特地从网络上搜了一个弹簧秤的图片(如涉及版权,请联系本文作者删除): 


延伸探讨和理解

一、数据与信息

涂子沛在《数文明》一书中,把数据分为:量数和据数。

今天,所有“记录”的结果,甚至包括文字、图像、音视频,都被统称为数据。传统意义上的数据是人类对事物进行测量的结果,是作为“量”而存在的数据,可以称为“量数”;今天的照片、视频等不是源于测量而是源于对周围环境的记录,是作为一种证据、根据而存在的,可以称为“据数”。

对于量数,由于在测量之前,已经有了特定的使用目的设置的,往往是选择被测量对象的特征,因此测量的结果,本身就是信息,而不需要为了刻意区分数据和信息。但是,对于同一被测量对象,不同的观测者,由于目的不同,设置的测量特征也大有区别,因此从被测对象整体来看,各自测量的信息都是局部的,不完整的,因此相对整体来讲,被认做碎片化的信息。打个不完全恰当的比喻,就好比瞎子摸象,每个人都通过手的触觉,“测量”到了大象的某一部分的形状特征。不同的是,这里测量是“偶然”的,而我们测量的是有目的性的。

“人类在历史上,关于任何学科的每一本著作,和茫茫宇宙比起来,都只是一个碎片;即便那些看起来概括了所有学科的“通识性”见解,也都只是从某一个角度解读这个世界。

--《信息简史》

而对于据数,在被进一步应用之前,首先需要经过处理,转化为量数。

本人因工作关系,曾经参观了某市公安局的城市公共安防监控系统。该城市的监控摄像头基本覆盖了整个市区各公共场合,以及所有的交通道路。二十四小时的连续视频拍摄,所记录的视频数据是真正意义的海量。ZF家的存储能力也是有限的。于是,围绕户籍、居住登记的身份证、姓名、照片等基本信息,后台通过图像识别技术,提取个人的行动轨迹信息,包括时间、出现地点、衣着特征、随身物品特征以及现场截图,还有行人穿红灯等特定事件信息等。这样,便建立起个人的时空行为信息库。视频的包括往往只有三个月,但时空行为库可以保存上十年。ZF作为社会管理机构,基于个人的时空行为信息库,无论从个体还是整体展开研究,基本具备了足够的可利用的信息了。

尝试总结一下,从数据到信息的处理过程中,我们经过对同一对象不同来源的碎片化数据进行整合、或者从据数通过图像识别等技术手段提取尽可能多的特征,在数据世界形成相对完整的原始特征。完成从“数据”到“信息”的整合过程。

在这个过程中,业务领域专家广泛总结后续潜在的用途,尽可能完整的识别并提出需要从监控视频等原始记录中提取哪些特征信息,至于如何进行图像识别,这些特征信息用在系统中用什么样的存储格式,诸如多维模型、宽表,还是图模型存储,那就留给数据科学家和IT专家去解决了。

当然,大家作为团队一员,甚至有志向发展成为全栈人才,开始了解一些数据处理、算法,也是有必要的。此是后话,希望有机会后续讨论。 

二、知识

数据世界所处理和利用的知识量(不包括在将人类知识进行简单存储,例如专家写的论文存储在电脑中)相对于人类所拥有的知识总量,依然属于沧海一粟。

在机器学习之前,主要的模式是人类将已经掌握的知识以某种方式“喂”给计算机,再通过计算机发挥知识的作用。主要的形式包括:

1)IT系统功能、工作流:在传统信息化中,除了记录和管理业务活动所产生的信息外,还可以将预设的数据处理逻辑通过功能形式固化在IT系统中,通过已有的知识指导、甚至替代部分业务活动。其中最具代表性应属ERP系统。

2)业务规则数字化:ERP等系统中也有大量的业务规则,但主要是以功能逻辑形式存在的,也有少部分以基础数据形式预先配置的。不过最具代表性的属于专家系统,从名字就可以看出来,这类系统咱们普通老百姓很少有机会接触。

所谓的机器学习,类比我们人类学习,简单理解就是机器从海量的数据、信息中总结规律(知识),并以算法模型(公式)的形式固化下来,以对应未来出现的类似场景时,给人类以行动参考指南。

三、智慧

通过机器学习所总结的规律,可以作为人类行动的参考指南,决定权在人类手中。如果人类给与机器以足够的信任和权力,让机器自己根据判断做出行动,那就是人工智能。

我只能理解到这一步了,接下来要发挥看官自己的智慧和想象力。有兴趣的,推荐去看看《生命3.0》。 

END

我们有很多不会的,其中一部分是,我们难以学会的;但更多的是,我们曾经认为不值得去学的。数据,对于很多人来讲,属于后者。因为,从上面的内容来看,并不神秘,也不高深。



点击上方蓝字关注我们


//往期精选//

1、数据中台,数据供应链的自动化生产线

2、明明是统计学,为什么叫机器学习?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存