数据仓库模型管理与标签资产价值评估实践
导读 本文将分享京东科技团队在数据模型和标签核心价值评估方面的实践经验。
主要内容包括以下四大部分:1. 京东科技大数据之路
2. 数仓模型管理
3. 标签价值评估
4. 总结和展望
分享嘉宾|李然辉 京东科技集团 数据资产管理专家
编辑整理|汪维
内容校对|李瑶
出品社区|DataFun
京东科技大数据之路
数仓模型管理
一是数据模型的标准规范、设计规范一定要在前期先制定,避免事后出现问题,甚至在团队成立之初就要有。我们现在已经将数据标准嵌入到了设计阶段,进行业务术语的管理,业务怎么定义,怎么命名,大家用统一的一套规范。对于还没有的数据,要先申请才能使用。在模型设计工具里面自动化地引用标准生成相应的表、字段名。数据标准存在模型里面,哪些是标准化的,哪些不是标准化的,就非常清楚。 二是数据血缘关系。在设计阶段要做 mapping 设计,知道数据源和目标表之间的映射关系是什么样的,到字段级,每个字段的转换逻辑是什么样的要统一按照模版进行设计。这样,字段的血缘关系就比较清晰,在使用的时候知道数据的来龙去脉,以及是如何转换的。 三是模型评审。我们做了模型评分卡,相比原来行业上的评分卡,我们的评分卡会更贴近实际的业务、更详细、更可操作。在评分卡的指导下,能够知道怎么去衡量模型的好坏。要求所有的项必须是满分,如果不是满分,要修改完善直至满分才能正常上线。在模型评审的时候,会兼顾数据治理方面的原则标准,比如要求数据成本要低、模型要能够在数仓复用等。与数据治理进行关联,可以在事前就考虑到这些方面,避免先污染后治理。模型评审也兼顾了一个比较新的理念 DataOps,邀请业务参与模型评审,业务在模型评审的时候签字确认,避免验收的时候才发现问题。另外,为了敏捷地快速交付,我们省略逻辑模型设计的环节。
数据认责:每个模型必须有一个唯一负责人,并且确定数据负责人的职责正式化;另外,对资产移交,在产品上做了一些支持,比如在离职流程中加入了资产移交的环节,必须进行资产移交后,才能进行下一步,数据资产管理平台支持一键移交的便捷操作。
模型的健康度评估:很多模型视角的健康度评估,包括存储的健康情况,模型的存储策略是怎么设计的,是拉链、是全量,还是快照,压缩情况怎么样,是否兼容等;还有元数据检查,提升元数据的质量;还有模型的安全性,需要脱敏加密的数据是否做了处理等等。并且在系统上展现模型整体的健康情况,包括每一项的得分,以及变化趋势等。
满意度调查和意见反馈:数据资产管理平台支持用户对模型进行满意度打分和意见反馈,这样可以知道模型的元数据是否容易理解和使用,另外还有线下定期的问卷调研,了解用户的满意度。
标签价值评估
总结和展望
分享嘉宾
INTRODUCTION
李然辉
京东科技集团
数据资产管理专家
李然辉,京东科技集团数据资产管理专家,具有 10 年以上数据治理和数据资产管理经验,通过 DAMA 国际数据治理专家认证,国家工程实验室特聘专家。
往期推荐
DataFunCon 2024·北京站首日圆满收官
数据指标在金融行业的应用
【参会攻略】DataFunCon 北京站开幕倒计时 2 天!直播预约、幻灯片免费下载……
全球化视野下,多云数据架构如何应对出海挑战?
京东零售数据湖应用与实践
辛选集团数据建设历程以及数据在直播电商的应用
实时智能全托管-云器Lakehouse重新定义多维数据分析
优化数据管理效率:DataFun助力企业提升竞争力
通义灵码智能编码助手技术解密
点个在看你最好看