华为数据之道为什么这么有吸引力? by 傅一平
现在很多人都在讲数据治理,但他们讲的数据治理实践大多还是点状的东西,即使大如阿里,讲的数据之道大多也是数据技术之道,虽然数据技术也是数据治理的一部分,但从体系化的角度来讲,这远远不够。
我其实更关注组织、机制和流程,更关注一个组织的数据治理体系是如何走到这一步的,但少有大公司阐述过他们的数据组织是如何演进的。
比如大家都说雷军厉害,小米生态牛逼,但这个跟我又有什么关系,我其实更想知道小米是怎么走到这一步的,在这个追问的过程中,也许能找到一些可能于我成长有益的东西,比如《一往无前》这本书。
我也很关注数据政策,但除了银行,几乎很少看到真正得以落地的“活”的数据政策,虽然数据治理每天都在谈政策,但如果想从网上想找到某个企业的真实的数据治理政策,我想你会很失望,这让我觉得企业谈数据治理政策是很虚的东西,直到我看到华为的数据之道。
但即使是华为的数据之道,我对其内涵的理解也是渐进的,至少经过了四次亲密接触:
第一次是通过《华为数据之道》这本书,让我初步了解到华为的一些做法,自己还写了篇文章谈了认识,不过现在回过头来看当初的理解,还是非常肤浅的。
第二次是参加公司的一次培训,见到了《华为数据之道》的作者王强老师,通过他的现场讲解,自己对于这本书又有了新的理解,这个时候我产生了很多疑问,比如对总部和分部数据管理组织职能边界的疑问,一集中就僵化,一放开就混乱,这个尺度到底如何拿捏?
第三次是由于要谋划明年的数据治理工作,因此邀请王强老师通过视频的方式探讨了华为的数据之道,特别是对数据组织的设置、队伍的建设和信息架构建设等问题做了咨询。
第四次是邀请王强老师来现场面对面的交流,这进一步澄清了我心中很多的困惑,我发现其实很多东西书中已经写了,但自己没读出来,而很多东西书中是写不出来的,因为你所处的企业跟华为不一样,只有在不停的碰撞交流中才能找到答案,这个时候,王强老师更多变成了咨询的角色。
今天我第二次来谈对华为数据之道的理解,发现其最大的价值,在于其将数据治理的很多概念都具象化,体系化了,并且这种体系化的数据治理集中在一个公司里实现了,这是国内数据治理体系化实践的“活化石”。
更为关键的是,华为公司愿意分享其所有的实践,即使它并不是完美的,但在业界是绝无仅有的,至少目前是这样。
一些公司对数据技术虽然报以开放的态度,但对组织,机制,流程还是鲜有提及,甚至是讳莫如深的,这让我们很难学到真东西,DAMA,DCMM虽然都是好东西,但对于需要实践的企业还不够,因为理论与实践要相辅相成,否则理论没法进步。
多年前阿里出了一本《大数据之路》的书,里面的很多内容到现在还不时被翻出来说,因为讲某个企业数据技术实践的,比较有高度而又体系化的,还真找不到第二本。《华为数据之道》这本书,相信在数据治理实践领域也是同样的情况,很长时间内找不到第二本。
以上就是华为数据之道有吸引力的原因。
但我们学习华为,肯定不是照搬华为,而是要形成自己的数据之道,比如傅一平的数据之道,XX企业的数据之道,可惜我现在还写不出这个道道来,但我还是可以把最近从王老师身上学到的东西和心得体会分享给你,虽然我还没有找到最终答案,但记录这些过程性的理解很重要。
《华为的数据之道》这本书内容很多,以下是王强老师赠送我的这张图(华为数据之道书上也有),说华为数据治理的奥秘,都隐藏在了数据治理框架这张图里,共分为七个模块:政策指引、数据架构管理、基于主业务流的业务对象识别、流程、组织、数据质量管理及IT。
我后来发现,这七个模块是自洽的,每个模块都坏坏相扣,谁都离不开谁,读懂了这张图,也就掌握了华为数据之道的密码。
1、政策指引
华为数据管理总纲明确了数据治理最基本的原则,包括信息架构、数据产生、数据应用及数据质量的职责和分工等,从而确保数据治理环境的有效构建。虽然是短短的400多个字,但的确是纲领性的文件,我这里罗列几个印象深刻的:
“数据是公司的战略资产,不是部门私有资产”,这个虽然不言而喻,但并不容易达成共识。
“建立企业级信息架构,统一数据语言”,很多建了大数据平台的企业会认为我早就有了信息架构,但实际上99%的企业是没有的,因为这里的信息架构,更多的是指对源端系统而言的,不仅指大数据平台的资产目录,而大多企业的数据管理组织的手并没有那么长,这个跟我以前提的源端元数据管理其实是一个道理。
“所有项目须遵从数据管控要求。对于不遵从管控要求的项目数据管控组织拥有一票否决权”,某个系统没有正式发布数据资产目录就不能上线,99%的企业是达不到的。
“公司数据Owner拥有公司数据管理的最高决策权,各领域数据Owner承担数据工作路标、信息架构、数据责任机制和数据质量的管理责任”,大多公司不要说公司Owner,领域Owner也难有说法,这是顶层设计的问题。
“谁产生数据,谁对数据质量负责。数据Owner负责基于使用要求制定数据质量标准,确保数据源的数据质量”,数据质量标准不是简单的由大数据平台建设方制定,而是要由数据Owner自己制定,跟业务方协商确定。
“各数据Owner应建立数据问题回溯和奖惩机制。对不遵从信息架构或存在严重数据质量问题的责任人进行问责。” 现实情况是,数据质量问题大多提不上公司的日程。
当初自己读《华为数据之道》的时候,对于这些原则也是一带而过,但读了很多遍以后,才发现奥妙无穷,王老师跟我讲,华为的这些数据治理政策的每个字,都是一个个抠出来的,都是智慧的结晶。
我们不能照搬这些原则,因为受制于自身的环境和发展阶段,但的确是可以借鉴的,很多原则就是解决数据治理问题的根本性方法,比如信息架构就是要强调源头治理。当然我们可能永远也无法达到这些原则拟定的高度,但道就在那里。
2、数据架构标准管理
信息架构是公司统一的数据语言,是业务流打通、消除信息孤岛和提升业务流集成效率的关键要素。华为公司通过明确对信息架构的管理要求,规范信息架构的建设和遵从原则,使公司的信息资产得到有效管理和重用。
华为公司定义的信息架构包括四个方面内容:
数据资产目录:提供所属域的数据资产目录,通过分层架构表达对数据的分类和定义,厘清数据资产
数据标准:定义公司层面需共同遵守的数据含义和业务规则,是公司层面对某个数据的共同理解,这些理解一旦确定下来,应作为企业层面的标准在企业内被共同遵守
数据模型:通过E-R建模实现对源端系统数据及关系的描述,用于指导后续的数据开发
数据分布:要展现源端数据在业务流程和IT系统上流动的全景视图,这样可以识别数据的“来龙去脉”,成为定位数据问题的导航
华为定义的信息架构跟传统数据管理领域的数据标准,元数据管理,数据架构管理有很多的出入,但我觉得站在实践的角度看,它这么定义是合理的,因为方便管理,通俗的来讲,建立信息架构的目的就是要能对企业的数据资产进行定位、分类、描述和溯源,从而解决数据找得到,看得懂,能使用等问题。
3、基于主业务流的业务对象识别
数据架构标准管理提到了要管好数据资产,而业务对象识别就是要明确数据资产到底是什么,怎么确认这些就是数据资产,这是数据资产领域最为重要的一个概念。
记得某次在做某个陌生领域数据资产梳理的时候,团队还是以系统,表为对象进行梳理,那时就发现表的数量浩如烟海,根本分不清楚哪些表是有价值的,哪些表是没价值的,为了赶工期,就一股脑儿全部采集过来,然后发现一些毫无业务含义的系统配置表都被采集过来了,其实大家根本没搞清所谓的企业数据资产到底是什么,囫囵吞枣采集过来的数据除了占用空间,于业务又有什么价值?
很多年前我凭着自己的一腔热血能够梳理出一本企业级数据字典,是因为我对于B域的业务理解还是比较深刻的,知道采集哪些表是重要的,但我当时并不知所谓的业务理解其实就是对B域的业务流程和业务对象的理解,反正我就是知道客户,用户,订购,事件,营销,账务,投诉相关的表很重要,因为我取数用到的太多了,这是学而不思造成的问题。
但一旦让我进入一个新的领域去梳理那些陌生的数据资产,我就会陷入到底哪些算是数据资产的困境,因为我并不知道以前成功的本质原因,虽然我们也找了临时的解决办法,比如让业务部门去勾选,但效果其实不太好。
对于数据资产的认定在业界其实有了共识,华为这里提了基于主业务流的业务对象识别方法,比如合同流程中,合同就是一个核心业务对象,因此跟它相关的表就是数据资产,阿里有个维度建模的方法论,也是先定业务流程,然后定事实和维表,最后定指标,事实包含核心业务对象,大家最终殊途同归。
从图中可以看到,华为有四个核心业务流程,明确了这些业务流程,就能找到业务对象,然后确立主数据和参考数据(即维度数据),数据资产就这样被找到了。
在这个过程中,数据治理领域的一些核心概念都被有机的串接在了一起,比如业务流程,参考数据,主数据等等,这就是我推崇它的一个原因,即我们从来不需要刻意制造数据治理的概念,这些概念都是为解决实际问题产生的。
为了把这些问题进一步解决好,有些概念被单独提炼出来形成一个体系,比如主数据,但在很多企业,无需强调主数据,因为源生系统做得好。
4、流程管理
王老师提了一个非常重要的一个概念,就是数据治理工作要例行开展,以数据治理流程与例行化,应对数字化常态化,不搞运动,扎实落地,数据治理显然是不能毕其功于一役的。
为了支撑企业数据资产从架构设计、质量管理到数据分析应用的全生命周期管理,比如信息架构变更需要跟CMDB变更同样严谨,就需要在企业的流程架构中建立一个管理数据流程,明确数据管理的关键活动、角色,以及与周边组织的协作关系。
华为将“管理数据”流程定位为“管理BT&IT”流程下的一个L2流程,下设“管理信息架构”“管理数据质量”“管理数据分析”3个子流程。
但诸如信息架构等的变更即使有流程的保障,也需要各领域有按标准落地的能力,因此在华为的实践中,每个领域的数据团队都需要设置系统架构师和数据架构师的角色,向上承接信息架构的设计要求,同时,在管理IT流程的设计规范中,明确界面的字段要遵从数据标准的定义,数据库表和字段的设计要承接信息架构的设计要求,从而达到数据治理融入IT实施流程的目标。
流程管理要保障到位,离不开专业数据队伍的建设,否则流程就是空转,白耗管理成本。
5、组织保障
就像流程Owner一样,华为提出了数据Owner的概念。
华为公司的每一个数据,必须由对应的业务部门承担管理责任,且必须有唯一的数据Owner。业务负责制的数据管理责任体系,是华为数据治理体系多年实践经验的结晶,是确保体系发挥作用的基石。
我以前提过没有CDO,就没有数据的未来。华为早就认识到了这一点,但考虑的更为体系化。华为在公司层面设置了公司数据Owner,在各业务领域设置领域数据Owner,这样既能确保公司数据工作统筹规划,也能同时兼顾各业务领域灵活多变的特征。
很多企业难以在管理层面设置公司数据Owner,CDO角色,我觉得可以退而求其次,可以设置诸如公司IT委员会,数据委员会等组织,公司数据Owner需要承担制定数据管理体系的愿景和路标、批准公司数据管理的政策和法规、裁决跨领域的数据及管理争议,解决跨领域的重大数据及管理问题的职责。
各领域数据Owner要负责所辖领域的数据管理体系的建设和优化,包括负责信息架构建设,确保关键数据被识别、分类、定义及标准化;负责保障所辖领域的数据质量,持续度量与改进;负责所辖领域数据入湖,建设数据服务,满足公司各个部门对本领域数据的需求。
很多公司的组织架构跟华为公司的事业部架构不一样,比如IT是集中化的,不像华为那样每个事业部有自己强大的IT部门,华为的领域Owner实际包含了业务部门+IT部门,因此由其来负责自己领域的数据管理是可行的,但传统企业的纯业务部门很难担负起领域数据Owner的职责,因为可能连信息架构是啥都不清楚。因此,我们不能机械的照搬华为的领域数据Owner的策略,而是要因地制宜。
对于IT集中化的传统企业,随着数字化时代拉开帷幕,IT部门的内涵其实发生了变化,其不仅是支撑者,更是业务的赋能者,有时甚至直接创造业务,因此由其承担领域数据Owner的职责是合理的,既懂IT,又懂数据,还理解业务,大多出现在集中化的IT部门。
无论如何,为了完成数据Owner的职责,公司Owner需要有一只企业级的数据管理队伍(包括政策制定,规范制定,数据湖建设等等)来进行顶层设计和数据底座的统一建设,各领域数据Owner也需要一支懂业务、懂技术的专业数据队伍,不仅要能落实公司Owner的要求,还能快速满足本领域的数据需求。
王老师强调,企业级的数据管理队伍要更多定位自己是服务者的角色,而不是简单的管理者角色,更不要越俎代庖,去做自己不擅长的一线工作,同时顶层设计的尺度和统一建设的灵活度也考验着组织的智慧,比如入湖严控出湖百花齐放的策略。
无论如何,数据治理如果没有资源的保障,特别是各领域Owner如果没有基本的数据队伍,那前面所讲的,全是空话,留给大数据平台建设者一堆根本不可能由其完成的源端信息架构的建设任务,或者是不可能彻底解决的数据质量问题。
6、数据质量管理
企业数据往往来源于多个不同的业务系统,数据流转、处理环节多,因此会导致严重的数据质量问题,很多人甚至提出,数据治理的目标就是提升数据质量,这凸显了数据质量管理在数据治理体系中的地位。在整个数据产生、处理到消费过程中,后两个阶段的数据质量问题相对容易解决,而第一个是最难的。
用“Garbage in Garbage out(垃圾进,垃圾出)”原则保证数据质量已成为数字化转型企业的共识,数据质量需从业务源头抓起,要做到这一点,涉及到两个角色的职责明确。
公司数据Owner:下达数据质量目标,并签发数据质量度量报告;基于数据质量结果及改进状况,对相应数据Owner进行奖励及问责。
领域数据Owner:承接公司数据Owner设定的数据质量目标;明确数据质量问题改进责任人,并推动问题闭环管理;对数据质量度量结果负责,依据要求向公司数据Owner述职。
这就是华为提倡的数据质量管理之道。
华为还提出了好的数据质量需要从设计与执行两个维度开展评估的方法,设计即从信息架构的四个角度(数据资产目录、数据标准、数据模型、数据分布)来评估,比如数据分类是否完整、业务定义是否准确等,执行则从数据质量六性(一致性、完整性、及时性、唯一性、有效性、准确性)来评估,我觉得很有道理。
企业的数据质量管理是一个系统性的工程,数据质量改进的过程是一个PDCA循环,可以通过公司的变革项目进行切入推进,变革项目的改进成果则要固化到流程及管理体系中并推广执行,执行后进行度量评估并持续迭代。
7、IT保障
华为公司所有的数据管理规则,都要求在统一治理平台落地,即通过IT平台进行强制约束,无论是数据湖、主数据平台、维度数据管理平台等等。
我记得以前提过元数据驱动的开发管理,就是强制数据开发必需遵循元数据管理规范。大家把管理规则前置到了业务流程中,前置到了IT系统中,你不遵循规范,就不具备操作数据的权利,这是根本解决大法。
以数据入湖为例,华为就认为,数据入湖是数据消费的基础,需要严格满足入湖的6项标准,包括明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册。通过这6项标准保证入湖的数据都有明确的业务责任人,各项数据都可理解,同时都能在相应的信息安全保障下进行消费。
又比如数据服务,华为制定了一系列数据服务管理规范,包括数据服务要满足可重用性、服务提供方要定义SLA服务水平承诺、应用只能通过服务接口向其他应用开放其数据和功能、所有的服务需在统一的服务管控平台中进行注册和发布等等。
至此,对于这张图的解读就完了,你会发现,图中数据治理的七个模块是个有机的整体,缺一不可。
政策指引是为了形成数据文化的共识,数据架构管理是为了确保数据资产清晰可见,基于主业务流的业务对象识别+流程管理是为了确保数据资产被准确发现,组织保障是为了确保有正确的足够的人来运营这些数据资产,数据质量管理是为了确保数据资产始终可用,而IT则是为了确保数据资产运营的标准化和规范化。
读书就是要读薄吧,读懂了华为这张图,我想能抵上10年的数据治理经验吧,因为它让数据治理的逻辑变得清晰,从实践的角度给出了很多本质性方法,这也是华为数据之道吸引我的原因。
当然很多企业的确达不到华为的条件,那就学学孔子,“用之则行,舍之则藏”,但这个道,你还是需要知道,万一机会真到了呢?
点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶!