京东基于主动元数据构建智能数据治理体系
导读 京东零售在数据管理和治理上面临着多方面的挑战:首先,数据量的持续增加导致了大量低效及冗余的数据模型,增加了维护成本并影响数据质量和准确性,用户找表难,用表难;其次,数据管理和开发使用相同账号资源,缺乏有效的变更管理,容易因误操作引起线上问题;再次,表数量和存储规模的增大,进一步加剧了计算、存储资源消耗。面对这些挑战,京东零售提出了一套全面的数据治理方案,包括建立数据标准、优化数据架构、规范数据开发流程和控制数据成本等措施,旨在通过技术手段提高数据管理的效率和效果,促进企业的数据高效运转。
今天的介绍会围绕下面五点展开:1. 数据管理挑战
2. 数据治理体系建设
3. 主动元数据治理实践
4. 总结与未来展望
5. Q&A
分享嘉宾|吕代军 京东零售 架构师
编辑整理|王吉东
内容校对|李瑶
出品社区|DataFun
数据管理挑战
1. 资产感知弱
找资产难:几十万张数据模型,存在大量临时表、无效表,以及大量重复/相识模型 不敢用:口径黑盒,数据质量参差不齐,业务难分辨
2. 数据架构不敏捷
架构耦合:口径、维度扩展耦合,预计算耦合
不够敏捷:大量刷岗预算任务,迭代工作量大,交付周期长,且存在大量物化宽表导致存算资源消耗多
3. 开发质量、安全问题
表结构风险:表结构的增加、删除和修改等调整缺乏管控
运营风险:参数、依赖错配;开发任务抢占线上资源;开发数据写入线上表
4. IT 资源成本不断攀升
数据规模持续增长:表数量持续增长,存储、计算资源消耗不断增长,分析场景增多
资源利用低:无效表、无效任务占比高,冷僵数据占比高,重复、相似模型占用大量资源
02
数据治理体系建设
制定数据标准、标准系统化、数据认证 敏捷高效的数据架构升级,快速灵活地支持业务战略目标 开发生产隔离,数据安全生产 存算治理体系建设,降低业务/企业运营成本
2. 数据治理体系建设
主动元数据治理实践
1. 主动元数据
2. 存储治理的挑战
缺乏数据支撑,无法准确掌握表分区消费情况以及分区存储、计算代价; 缺乏评估体系,20 万+模型,数据研发自行评估生命周期值成本高、效率低、主观性强
数据回填效率低,占用开发人员大量工作时间 担心引发线上问题
部门作为零售数仓主要建设方,大量历史数据必须全部保留
3. 智能生命周期评估体系建设
量化代价:近 90 天单分区存储,计算(CPU,内存)金额占用,以及分区访问数据。
非量化代价:模型所属分层、是否精选、认证,以及加工任务等级、任务执行时长等。
建设面向治理管理者、推动者、执行者的可视看板,实现数据研发自助式分析。
4. 智能生命周期消费模式识别提升
5. 智能生命周期产品化
业务沉淀的策略模型、治理方法与大数据平台治理工具化能力复用共建,提升治理效率,进一步赋能集团数据治理。
帮助管理者、推动者、治理者看清看全治理空间、治理进展、治理收益
一键式发起治理行动与实施治理、方便快捷
业务方根据自身业务特点、自主探寻治理模型、策略,满足个性化治理。
6. 智能生命周期建设效果
智能推荐:几十万张模型自动推荐生命周期,自动识别数百 PB 治理空间 效果显著:推荐值接受度大于 70%,试点模型完成 100+PB 治理 开放赋能:集成大数据平台、赋能集团存储治理
7. 数据回填挑战
8. 智能回填方案架构
回填感知:通过查询、订阅信息、新版本发布触发自动感知分区缺失、版本变更消息,通过分区检查器、版本变更感知器确定回填日期范围; 回填编排:构建数据生产血缘,逐层解析表分区回填依赖,编排回填拓扑; 优化执行:依据回填拓扑和任务执行的元数据,将回填日期范围拆解为不同批次,系统化创建回填实例,通过并发协调器动态提交执行实例,运行完成后对结果进行校验并通知回填结果。
04
总结与未来展望
1. 总结
使用数据生产、消费场景等主动元数据构建分析能力 生命周期值推荐,提升治理效率
依赖指标生产、数据生产等血缘数据构建智能高效重算能力 依据执行元数据动态分批优化执行
基于认证数据资产,构建资产图谱元数据,结合数据使用场景、消费场景构建 HBO,CBO,RBO 模型,实现智能物化与生产
2. 未来展望
Q&A
分享嘉宾
INTRODUCTION
吕代军
京东零售
架构师
数据架构师,先后在科技、零售行业从事数据开发与数据架构相关工作,专注于端到端数据链路优化与数据可观测体系建设,以及基于主动元数据、图技术构建智能数据治理能力,推动数据标准牵引数据集成加速。
往期推荐
一种性能和易用性更好的 ClickHouse 实时数据更新方案
LLM 快速发展时代下图基础模型初探
使用 ClickHouse 企业版技术解析
滴滴国际化出行场景指标体系建设
为何开源 OLAP 纷纷加入向量检索能力
知乎 DMP/CDP 平台的应用和实践
Alluxio:面向 AI 计算的高性能数据访问平台
基于深度学习多实验叠加效果因果推断
Alluxio 在携程大数据平台的探索与优化
点个在看你最好看
SPRING HAS ARRIVED