其他
网易数据治理工具产品规划实践
The following article is from 网易有数 Author 云水谣
听众收益:
另一方面,数据本身的加工链路长,数据的加工处理没有统一的标准,整个团队内到底有哪些数据,数据的负责人是谁,这些数据是通过哪些任务产出的,这些数据有没有被有效的使用,数据的存在是否有意义,这些都是管理者比较关心的问题,但数据团队都很难回答。
对于计算资源,会对离线任务、自助查询任务消耗的成本进行分析,包括任务的执行时长、预估消耗的费用、消耗的CU等内容,便于业务进行优化,也给任务的下线治理提供依据,成本分析会默认保留近半年的数据,在对任务进行优化后,也可以进行对比分析。
另一方面是项目的管理员/负责人,可以知道当前项目下一共还有多少数据需要治理,治理后总共可以节省多少年费用,也可以知道整个项目中治理做的好的负责人Top5,以及还有哪些人占据的成本最多,可以以此为依据,催促负责人进行治理工作。
首先业务数据本身没有规范化创建和管理,比如外部表定义目录不规范,有些分区目录location的是表的目录,在对表生命周期进行管理时,若选择删除目录,那么文件就会有被误删的风险。 数据开发团队人员更换频繁,面对众多的业务需求,疲态应对,处于只开发不治理的循环中,数据治理的动力不足,项目内遗留大量的历史数据。 还有就是当计算和存储等资源达到瓶颈后,被领导催着进行治理,缺乏长效的数据治理机制,导致阶段性治理和资源告急循环往复。 然后是治理的效果量化指标粗糙,哪些负责人下线了哪些数据,为项目节省了多少存储,具体节省了多少费用,没有有效的可评估的数据,这也衍生了治理者的消极心态。
针对成本,包括计算和存储成本,数据量持续在增加,源源不断的带来存储成本,队列的资源也持续紧张,任务优化也亟待解决。 对于质量,数据的加工链路长,任何一个环节都可能带来质量问题;对于规范,基于ODS、DWD层直接制作的报表数量居高不下,模型的复用率低。 对于安全,项目内的管理员数量众多,太多人有比较高的权限,权限太大应该要怎么控制,以及离职等人员闲置下来的权限应该怎么收回。 对于价值,API、BI等这些下游应用系统,引用表和计算成本要如何进行估量,怎么根据下游应用来量化数据价值。
治理的范围、治理的价值和体系化的治理。首先要让决策者能够看见和关注,对数据治理的范围进行系统性的梳理,明确需要进行数据治理的范围。 其次需要有一套抓手,能够让真正做治理工作的负责人看到问题,并且有可量化的体系,对治理成效可评估。 最后将治理过程中的策略能够落地到产品功能上,通过短期业务线的宣传运营和长期的闭环机制,整体达到体系化的治理。
在数据生产阶段,需要对需求进行分析,明确业务口径,对数据进行规范采集、任务开发和监控运维。 在数据消费阶段,涉及到快速的查找数据,对数据的分析和对数据质量的探查。 在数据管理过程中,包含权限和成本管理等。整个流程涉及到成本、标准、质量、安全和价值,各个阶段都会面临对数据的治理工作。
对于成本,包括计算和存储成本的费用量化,对无用数据的下线治理等。 对于价值,需要能够评估每个数据模型、数据报告和API的价值。 对于质量,会包含监控任务覆盖了多少稽核规则,涵盖了多少强弱规则。 对于标准,需要对指标和模型进行规范化定义。 对于安全,会包含数据安全登记和数据权限的治理等工作。
作者简介
云水谣,网易有数产品经理,主要负责数据服务、指标系统和数据治理相关内容。从0到1构建数据服务平台,从1到1.1实现数据治理整体闭环,有丰富的数据平台产品经验。
<END>
1、企业数据中台介绍及建设方案(PPT)
2、数据治理体系架构设计方案(PPT)3、华为数字化转型:从战略到执行(PPT)4、2万字详解数据仓库数据指标数据治理体系建设方法论5、数据标签的分类、设计及实现方法6、9000字详解企业大数据项目规划落地实施路线图7
9、8000字详解银行业数据治理架构体系搭建10、中国农业银行数据指标体系建设与运营实战11、企业数据资产盘点原则与方法12、
数据学堂