数据治理:治数VS养数,哪个棋高一招?
来源:谈数据,作者:石秀峰
Hi,大家好,今天继续聊数据治理!
站在“企业数字化转型”这个时代浪尖上,我相信,数据领域乃至整个IT界“数据治理”这个词应无人不知、无人不晓了吧?如果你身边还有没听过“数据治理的,赶紧把咱们的公众号【谈数据】的名片推给他,哈哈~
关于企业数字化转型为什么要做数据治理,我在文章《数据战略的8个要素》一文中曾提到,原因无外乎两个:“一是无数据可用,二是无可用数据。”
一方面,“数”到用时方恨少。在一些传统企业,IT一直被认为是支撑性职能,从来没有将数据作为一个重要生产要素去看待。在以往的信息化建设过程中,都是“以流程为驱动,以线上化、自动化为目标”,数据思维和数据意识淡薄,没有将精力放在数据的收集、整理和处理上,导致“无数据可用”。
另一方面,事因经过始知难。每个企业都希望将数据用起来,用它来驱动企业的决策和管理,实现数字化转型。但是,数据分散在各个信息孤岛中,缺乏统一的数据标准,彼此之间无法很好地通信,数据质量低下,不一致、不完整、不准确、不及时等问题常见,导致了“Garbage in, Garbage out”。有数据却无可用的数据,你说气人不?!
— 01 —
“养数据”的内涵
“养数据”其实也算不上是一个新词儿了,车品觉老师的《决战大数据》(2014年出版)一书中就曾提到:“主动收集数据的行为即为养数据”。
笔者认为“养数据”不仅在数据收集上,而是应贯穿在数据的收集、处理和使用的全生命周期中。养数据就如同“养猫、养狗、养孩子”一样,需要持续地投入。“养”有两个层面的含义,一是要将数据“养大”,收集、积累和沉淀大量的数据;二是要将数据“养活”,提升数据的“活性”,让数据易用、好用!
1、养“大”数据
养“大”数据,就是收集、积累和沉淀大量的数据,让企业有数据可用。这里有个误区,究竟数据养多大才算是“大”?其实,养“大”数据不在于收集的数据体量有多大,更重要的是能够为企业带来多大的潜在价值!
2014年大数据正如火如荼的时候,我们接到一个大数据项目,客户的要求是将所有业务系统的数据全部接入到大数据平台,具体为什么要收集这些数据,要这些数据干什么?这些问题客户并没有想好。按照当时客户的思路是:大数据一定是有价值的,虽然我们现在不知道怎么用它,但我们现在把它收集起来,说不定将来的哪一天就能用到了。后来,数据收集的越来越多,管理的成本越来越大,但实际上却没有使用起来,虽然该项目最终成功验收了,但在我看来,这个项目不算是一个成功的项目,因为它没有给客户真正带来价值。
没有目标的收集数据,就只是单纯的收集数据,并不是“养数据”。“养数据”是需要带有明确的目的性的,因为数据是枯燥的,数据也不会自己说话,需要人运用适当的方法从这些枯燥的数据中提取有价值的信息。因此,“养数据”的过程,需要对数据收集的内容、渠道、方法进行策划,以确保通过正确的方法收集正确的数据,进而确保数据分析过程是有效的。
2、养“活”数据
养“活”数据,提升数据的“活性”和质量,打通数据孤岛,实现数据交换共享,让企业有可用数据。盲目的收集数据并不能让数据“活”起来,所收集的数据都是“死数据”。所谓“死数据”也叫“暗数据”,指那些企业在日常业务活动中收集、处理和存储,但未被发掘或理解、不具备特定用途的数据。
— 02 —
企业数据到底怎么“养”?
介绍了养数据的概念,可能很多人更加关心到底该如何“养数据”。个人认为企业要养好数据,得从以下5个方面入手。
1、将“养数据”作为一种战略
关于数据如何赋能数字化转型,大家谈的更多的是数据分析、数据挖掘、模型、算法、可视化、报表、仪表板、大屏等数据应用相关内容,我们把这些内容都可以称为“用数据”。但是,“巧妇难为无米之炊”,如果企业“无数据可用”,那模型再强大、算法再完美、界面再漂亮,可能也无济于事。
保证企业“有数据可用”,从有效和正确的收集数据开始,数据收集越早,积累的越多,能够带来的潜在价值就越大。
①确定收集需求,数据收集一定是为业务需求服务的,不能盲目收集,数据收集到“最小够用”即可。没有目标的盲目收集,不仅可能造成成本的浪费,还可能引发“合规性”的风险(例如违反个人信息保护法)。
②确定数据源,明确要从哪里获取数据,例如:企业内部还是外部数据。
③确定收集方式,针对不同数据应用需求和数据源类型选择相应的数据采集方式,例如:表单采集、报表采集、库表批采、文件采集、消息采集、流式采集、爬虫采集、埋点采集等。
④执行数据收集。在收集非结构化、半结构化数据过程中利用图像识别、语音识别、自然语言处理等AI技术对这些数据进行结构化处理,并提供统一的元数据查询,是解决“无数据可用”的一个重要解决方案。遗憾的是,这些技术还处于探索阶段,还未形成普及化的产品和应用。
⑤分析验证,验证收集的数据是否有效,是否能够满足业务所需。
①数据处理。对收集来的结构化和非结构化数据进行转换和整理,确保数据正确、有效、可用和安全。统一提取这些数据的元数据并进行存储和管理,并补齐关键元数据,使其具备可识别性。
②数据编目。数据编目就是为数据建立一个目录,并向用户提供获取数据可访问性、健康和位置等内容所需的必要信息。编目的方式有手工编目和自动编目,主要涉及数据的识别、编目和发现。随着机器学习、人工智能等技术的应用,增强了企业数据管理的能力,让编目工作越来越自动化。
在企业数字化转型的路上,必须牢记的一个原则是“数据来源于业务,且必须回归于业务”,我们将数据“养大”、“养活”不是目的,而是过程,“养数据”的本质目的还是要让数据能够对企业的业务起到更好的驱动或支撑作用。
① 数据是由业务产生的,从业务规划和设计之初,就要做好“养数据”的准备。大到整体的企业架构规划,小到一个业务模块的流程、表单和操作设计,都需要考虑如何才能收集到完整、准确、真实的数据,做好与之对应的数据规划,例如:数据架构、数据标准、数据分布、数据流向等。
②“养数据千日,用数据一时”,将“养数据”作为企业的一种习惯,一种文化,企业的数据战略才能真正落地。同时,只养好数据还不够,还需要培养“数据化思维”,坚持“用数据说话、用数据管理、用数据决策”,将数据应用在日常工作中。
— 03 —
这是一个伪命题,如果你看过我之前的数据治理文章,也不难得出这个结论:治数与养数并没有高低之分,养数据也是一种数据治理的策略,而数据治理以全面的视角,为养数据提供保障。本质上,养数据即为数据治理,数据治理也是养数据!
1、狭义理解:养数据过程的治数
上文我们说过,养数据就像养小孩一样,需要持续投入,以使其茁壮成长。但这个过程并不容易,有孩子的读者一定深有体会,孩子生病即使只是最为普通的感冒,也会让父母操碎了心。
养数据的过程也一样,你的数据宝宝也是会经常“生病”的,例如:
请参考《数据治理的成功要素3:治理的时机和切入点》
生了病就得治,早治早好!
“养数据”是企业的数据战略,一定从战略思维开始,不仅包含了数据收集和管理的各种技术、方法和工具,更包含了数据管理的组织、制度和流程。在我的新书《一本书讲透数据治理:战略、方法、工具与实践》(下附购买链接)中,将数据治理分为了“道、法、术、器”四个层面,其中:数据治理之道即涉及数据战略、数据组织、数据文化;数据治理之法则主要讲解组织实施数据治理的方法论;数据治理之术主要对数据治理用到的技术进行了说明;数据治理之器即为数据治理/管理常用的工具/系统。
因此,从广义上理解,养数据的过程就是数据治理,数据治理也是养数据!
据统计,99%的数据大咖都关注了这个公众号