查看原文
其他

数据仓库模型管理与标签资产价值评估实践

李然辉 DataFunSummit
2024-09-10

导读 本文将分享京东科技团队在数据模型和标签核心价值评估方面的实践经验。

主要内容包括以下四大部分:

1. 京东科技大数据之路

2. 数仓模型管理

3. 标签价值评估

4. 总结和展望

分享嘉宾|李然辉 京东科技集团 数据资产管理专家

编辑整理|汪维

内容校对|李瑶

出品社区|DataFun


01

京东科技大数据之路

在数据管理方面,京东科技从 2013 开始做数据积累,进行各个业务领域的数据分析,并建设了各自的数仓。2016 年,开始出现指标口径不一致等问题,这时开始关注数据治理,当时仍处于传统的数据治理阶段,重点解决数据口径不一致等基础的数据标准问题。2018 年,从传统的数据治理转变成数据资产主动管理,开始做数据资产的盘点、目录、价值评估等一系列整体规划的工作。2021 年,进入数据资产量化管理的阶段,数据管理的好坏通过相应的指标衡量,及时发现问题并主动通过指标解决问题。2023 年开始进入数据资产持续优化的阶段,根据量化的指标以及整个运营机制和体系,持续进行优化迭代。

随着数据资产规模的不断发展壮大,管理难度也随之增加,需要更有效的管理和治理策略,而模型管理则是整个数仓建设的核心环节。

02

数仓模型管理

数仓建设大致可分为四个阶段,如上图所示,本次分享主要聚焦于设计阶段的模型设计、优化迭代和治理的工作。

1. 分层

在介绍模型管理之前,首先来谈一下数据分层的必要性。

数仓之父 Bill Inmon 推出的信息工厂架构中,最先提出了数仓分层的概念。之所以要做分层,主要有五个方面的原因:首先是可以使数据结构更加清晰,第二是实现数据血缘追踪,第三是减少重复开发,第四是把复杂问题简单化,最后一点也是非常重要的一点是屏蔽原始数据变更对业务的影响。如果不进行分层,下游应用直接引用,那么业务系统的变化可能会导致下游系统的大量调整,特别是在业务不是很稳定的情况下,如果前端业务系统的数据进行重构下游就需要随之进行调整。如果有了数仓的分层,形成了中间的公共层,就可以在公共层做一次调整,而对下游是无感知的,从而减少前端业务变更对下游业务造成的影响。分层能够对中间过程进行整合开发,降低整体复杂度,类似于零部件的加工,加工好的零部件可以用到多个机器上。

传统的分层方式是采用三层架构。京东零售起步要早一些,数仓分层在通用三层架构的基础上有一些变化。京东科技在其基础上,又进行了改进。

因为指标要依赖数仓共同的模型,所以分层与指标有非常强的关系。原子指标对应 IDM 层(明细汇总层);基于原子指标加工的衍生指标或者复合指标对应的是 SDM 层(公共加工层);除此之外,敏感数据有一个专门的库,即 SDP,因为有金融属性,对敏感数据的管控比较严格,所以单独设计出来;DIM 层是与传统一致的;还有开发库(DEV)和临时库(TMP);关于 STG 层和 ODM 层存在两种不同的观点,一种观点认为 STG 是临时缓冲层,ODM 做全量的历史数据,而另一种观点认为 STG 应该存储全量的历史数据,ODM 负责清洗、转换和临时存储,这在不同企业会有不同的设计。

2. 模型设计

不同的层级可以采用不同的模型设计方法,主要是两种:一种范式建模,另一种是维度建模。我们采用的混合建模策略,在 IDM 和 DIM 层大多用范式建模的方式,在 SDM 整合汇总层进行维度建模,集市层则应用宽表模型,更利于数据分析的效率。

整体来看,京东科技的数仓分层还是按照 Bill Inmon 提出的方式:先做数仓公共层,在此基础上建数据集市(但是在前期也存在先有数据集市再下沉淀数仓的情况),这种方式就决定了在前端的轻度汇总阶段以偏范式的方式为主,这样对数据的整合加工比较有利,可以避免数据不一致。

在正式的建模之前一定要做数据的探测工作。先分析数据源,发现数据源有什么问题,才能知道模型怎么设计比较合适。数据探查可以分为很多类,包括单数据源和多数据源,单数据源的又包括列的、跨列的、整表的、跨表的探查分析。

比如对学历进行分析,数仓工程师们接到需求,直接去做数据加工,按维度去计算,发现有一些空值不在考虑范围内,用 not in 的方式无法完全排除。这种情况下,如果做了数据探查,就可以提前发现这个问题。包括数值型的最大值是不是异常,是不是超范围等,就可以判断要做填充还是要做舍弃。还有经常出现的数据重复问题,也是因为在数据建模的时候没有做数据探查,没有去看数据的唯一性,也不知道数据质量的监控规则该怎么配置,因为不知道数据可能会出现什么问题。所以,一定要做数据探查。

在模型设计阶段有几个关键点:
  • 一是数据模型的标准规范、设计规范一定要在前期先制定,避免事后出现问题,甚至在团队成立之初就要有。我们现在已经将数据标准嵌入到了设计阶段,进行业务术语的管理,业务怎么定义,怎么命名,大家用统一的一套规范。对于还没有的数据,要先申请才能使用。在模型设计工具里面自动化地引用标准生成相应的表、字段名。数据标准存在模型里面,哪些是标准化的,哪些不是标准化的,就非常清楚。
  • 二是数据血缘关系。在设计阶段要做 mapping 设计,知道数据源和目标表之间的映射关系是什么样的,到字段级,每个字段的转换逻辑是什么样的要统一按照模版进行设计。这样,字段的血缘关系就比较清晰,在使用的时候知道数据的来龙去脉,以及是如何转换的。
  • 三是模型评审。我们做了模型评分卡,相比原来行业上的评分卡,我们的评分卡会更贴近实际的业务、更详细、更可操作。在评分卡的指导下,能够知道怎么去衡量模型的好坏。要求所有的项必须是满分,如果不是满分,要修改完善直至满分才能正常上线。在模型评审的时候,会兼顾数据治理方面的原则标准,比如要求数据成本要低、模型要能够在数仓复用等。与数据治理进行关联,可以在事前就考虑到这些方面,避免先污染后治理。模型评审也兼顾了一个比较新的理念 DataOps,邀请业务参与模型评审,业务在模型评审的时候签字确认,避免验收的时候才发现问题。另外,为了敏捷地快速交付,我们省略逻辑模型设计的环节。
3. 模型使用

在模型使用阶段,我们制定了模型元数据标准。可以看到上图右边元数据的类型有很多,包括生产元数据、实时元数据,还有模型元数据等等,我们制定了一整套的标准,模型元数据共 24 个属性进行标准化定义。元数据系统按照元数据的标准进行采集,并进行质量检查,如果不符合标准,就去推动治理完善。

另外,为了提升数据质量,一方面会推动对缺失的、不合格的数据进行补充完善,另一方面会进行监控和通报,自动识别元数据不合格的情况,定期通报个人和部门,监督大家去提升,通过监控看板能够看到数据质量变化的情况。

4.模型治理

模型治理是做得比较系统的一部分。

  • 数据认责:每个模型必须有一个唯一负责人,并且确定数据负责人的职责正式化;另外,对资产移交,在产品上做了一些支持,比如在离职流程中加入了资产移交的环节,必须进行资产移交后,才能进行下一步,数据资产管理平台支持一键移交的便捷操作。

  • 模型的健康度评估:很多模型视角的健康度评估,包括存储的健康情况,模型的存储策略是怎么设计的,是拉链、是全量,还是快照,压缩情况怎么样,是否兼容等;还有元数据检查,提升元数据的质量;还有模型的安全性,需要脱敏加密的数据是否做了处理等等。并且在系统上展现模型整体的健康情况,包括每一项的得分,以及变化趋势等。

  • 满意度调查和意见反馈:数据资产管理平台支持用户对模型进行满意度打分和意见反馈,这样可以知道模型的元数据是否容易理解和使用,另外还有线下定期的问卷调研,了解用户的满意度。

这些就是在治理方面采取的措施,来保证模型的健康、好用。

03

标签价值评估

在上述模型管理的基础上,我们建立了标签和画像体系,下面将分享我们在标签价值评估方面的实践。

1. 标签的开发与运营

标签的开发过程与数仓架构相呼应,从业务明细数据,加工到用户行为事实数据,业务明细是由 IDM 层提供支持,然后在上层进行汇聚汇总,行为事实有些是自然属性,有些需要加工汇总,按照某个维度加工分类指标或者特征;再往上是用户标签的加工,为每个用户去打标签,用户标签集市层有一个对应;再往上就是客户数据平台、用户画像在数据标签里面做一些圈选等产品化的使用,就可以直接与业务打通。

标签运营是指用户标签加入平台后,通过用户的圈选、标签自动运行等支持后端业务应用,然后再把标签应用的数据/流量等采集到前端供标签加工。

2. 标签价值评估

在标签运营里面有一块是标签的价值评估。下图是来自 Gartner 报告的关于数据资产价值评估方法的描述。

左侧蓝色部分是非货币化、非财务表现的相对价值评估,为数据标签的运营包括数据治理提供支持;右侧绿色部分是基于财务价值的评估。我们参考了其中基于业务价值的评估方法,并做了一些改动。

影响标签价值评估的因素有几个方面:标签质量,包括有效性、稳定性;数据频率,即更新频率,比如日更、月更或实时等;覆盖率,指的是标签在整个人群的覆盖情况;稀缺性,是标签的稀缺程度;数据热度,分为广度和深度两方面;应用场景经济性,标签的应用场景也决定其价值。

标签价值评估算法:

标签数据资产价值(BVI)=5%*有效性(V)+5%*稳定性(S)+5%*数据频率(T)+22%*覆盖率(C)+15%*稀缺性(S)+15%*广度(B)+8%*深度(P)+25%*应用场景经济性(U)

标签质量通过有效性和稳定性两个维度去衡量。有效性方面,考察标签准确反映事实的数量和总量的比值。具体落地方案可以进行样本数据校验,拿到确认真实数据与标签数据进行对比,就可以知道标签的准确性。

稳定性方面,考察标签的分布比例是否稳定,还是波动较大,比如男女分布比例一直稳定为 50% 和 50%,如果突然变成了 20% 和 80%,就可能是出现了问题。

关于数据频率、覆盖率、标签热度、应用场景经济性及稀缺性的定义和落地方案如以上图中所示,在此不做详细介绍。

3. 标签价值评估的结果应用与效果

通过标签价值的评估,能够清晰地知道标签存在哪些问题,从而清楚应该从哪些方面增强可以提升标签的价值,比如,如果覆盖度有问题,就需要使标签覆盖更广。从而能为标签运营和治理人员提供非常有针对性的、细化的、可落地的运营指导。

根据标签的价值评估,用户可以清楚知道每个标签有哪方面的问题,判断标签是否可用,以及怎样选择更合适的标签。对用户也是非常有帮助的。

标签价值的评估及结果已经在我们数据资产管理平台上实现,通过平台可以看到标签价值评估的总得分和各个分项的得分。该功能第一期上线后,从 2000 多个标签中保留了 500 多个价值密度比较高的标签,后来标签的数量又增长到了 2000 多个,但是都是价值很高的标签。标签的价值评估对标签的运营提供了很重要的支持,增加了数据资产价值的密度。

04

总结和展望

1. 数据仓库架构

在前文中介绍了,数仓架构的核心是分层。随着数据湖的出现,大家在讨论数仓是不是会被取代,我认为数据湖和数仓是相互补充的,谁也不能取代谁。数仓的可靠性、稳定性和数据质量的保证都是非常重要的,而灵活性、实时性以及多样性是数据湖的强项,两者之间需要找到相应的定位。

未来,应该取消对数据流向的强管控,以前为了保证分层定位,数仓各个层级之间的流向有非常严格的限制。未来考虑数据虚拟化,各层级、包括业务数据可以相互使用,提升数据的使用效率,降低数据加工成本。

2. 数据模型管理

在数据模型方面,我们的数据模型管理是贯穿事前、事中、事后的管理体系,包括数据探查、模型评审和健康评估等。

未来,会采用最先进的网络建模方法,另外也会考虑加强概念模型的构建。

3. 标签价值评估

标签的价值评估方面,我们对标签做了非货币化的价值评估,也通过 A/B 实验做了部分标签的财务收益价值评估。

下一步,计划打通后链路做支撑业务的财务收益价值评估;另外,考虑为数据资产入表做准备,包括成本核算、价值评估、安全合规等,以满足财务记账和披露的要求。
以上就是今天分享的内容。如有想进一步交流的也可以进我的知识星球畅聊,或者订阅我的公众号学习数据资本相关的知识和经验。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


李然辉

京东科技集团

数据资产管理专家

李然辉,京东科技集团数据资产管理专家,具有 10 年以上数据治理和数据资产管理经验,通过 DAMA 国际数据治理专家认证,国家工程实验室特聘专家。

往期推荐


DataFunCon 2024·北京站首日圆满收官

数据指标在金融行业的应用

【参会攻略】DataFunCon 北京站开幕倒计时 2 天!直播预约、幻灯片免费下载……

全球化视野下,多云数据架构如何应对出海挑战?

京东零售数据湖应用与实践

辛选集团数据建设历程以及数据在直播电商的应用

实时智能全托管-云器Lakehouse重新定义多维数据分析

优化数据管理效率:DataFun助力企业提升竞争力

通义灵码智能编码助手技术解密

要跟 Spark PK,新一代计算加速引擎 Meson 的底气来自哪里?

点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存