查看原文
其他

指标与标签在数仓中的角色解析:深入了解其差异与联系

涤生-稳哥 涤生大数据
2024-12-05

 

01

概述

很多我们的内部小伙伴已经开始我们的用户画像的项目学习,最近项目群的小伙伴反馈对标签和指标的应用略有模糊,大家就开始了热烈的谈论,其实这个问题在我们的课程里也有讲到,今天在这里就来给大家在详细的梳理一下。

02

指标

2.1 概念

世界万物都要有一个好坏,那这个好坏该怎么去衡量?那我们就要基于一个统一的标准,这个标准就是指标,我们将某样东西或者说将一个具体业务通过可量化、可拆解的形式进行描述,通常这个描述是数值型数据。 

一般指标有以下几个特征:

1.指标是说明总体综合性数量特征的概念,所有指标都必须用数值来表示,一个完整的统计指标,一定要讲时间、地点、范围;

2.指标的评价较易量化,通常有一定的标准和尺度,也就是我们说的度量;

3.指标是生产性的思维、拆解式的思维,讲究的是化整为零,将一个业务拆解开来进行多角度的描述,得到很多的指标;

4.指标最擅长的应用是分析、统计、监控、建模和评价等;

5.指标是业务管理导向的,需要提前规划,应用场景很多,业务监测、业绩考核、任务分解、数据分析、数据建模。当指标和具体业务结合起来才能体现出他的价值。

例如:以网购文章为例,销售额这个指标就是用来衡量交易金额。

2.2 指标分类

指标的分类相对比较统一,通常划分为原子指标、派生指标、衍生指标

  • 原子指标:非常好理解,指标不叠加任何维度,仅是对业务事实的最基本的描述,通常是一些整体指标,通过SQL直接统计出来的,比如客户数、留存率、交易量等。

  • 派生指标:派生指标就是原子指标叠加维度,这个维度可以是一个或者多个。例如:7日留存率,30天内理财交易次数等。

  • 衍生指标:顾名思义,衍生指标就是通过原子指标或派生指标互相加工而来。最常见的就是留存率,渠道转化率等。

2.3 指标体系

知道了指标的概念,那指标体系就非常好理解了,任何指标都离不开业务,任何业务也必须和指标体系建立联系;指标体系是从不同维度梳理业务,把指标有系统地组织起来。简而言之,指标体系=指标+体系,所以一个指标不能叫指标体系,几个毫无关系的指标也不能叫指标体系。 

指标体系的建设也是企业数仓建设必不可少的一个环节,不仅符合“创新驱动”的意识,更是企业实现自身“数据驱动”发展的重要途径。

03

标签

3.1 概念

标签通常是人为定义的概念,根据业务场景和需求,对业务运营状态运用一定算法得到的高度精炼的信息,标签在数据结构中包含:标签名称及其值。

比如 客群标签可以分为潜在客户、活跃用户标签;产品标签有高风险和低风险等其他一系列的标签。它并不是一个客观存在的事实,而是由人为的定义和客观事实结合得到的数据标签。

标签由互联网领域逐步推广到其他领域,打标签的对象可以是用户,但随着大数据的发展,逐渐扩展到产品、渠道、营销活动等,标签有助于实现精准营销、定向推送、提升用户差异化体验等,标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等。一般标签具备以下几点特征:

1. 标签是对象的属性,对象可以是人,或者产品,渠道等;

2 标签应用在客户分群、用户画像、精准营销、个性化定制、活动运营、数据可视化等;

3. 标签的评价一般与使用者的感受、应用的结果有强关联关系,不同的人、不同的应用场景,标签能发挥的效果可能大相径庭;

4.标签的口径业务精密结合,没有统一的规定,都由具体的业务而定。

3.2 标签分类

标签由于其人为划分的特性,分类就没那么统一,比较常见的一种划分为统计类标签、规则类标签、算法挖掘类标签。

统计类标签:事实类标签用户画像最基础、最常见的标签,是既定发生的事实,不可以修改,通常是基于原始数据清理后的归类,用于描述客观事实。例如,姓名、终端类型、购买次数、购买金额等。

规则类标签:规则类标签,顾名思义,是基于确定的规则而产生。与事实类标签不同的是,规则类标签拥有更多的业务属性,其业务规则需与业务人员共同制定。例如,将“活跃用户”、生命周期等标签进行综合评定。

预测挖掘类标签:根据算法模型生成。挖掘型属于算法标签,利用用户行为数据或者文本数据,结合业务规则进行算法加工,输出对应的属性值或分值。如有必要,对分值进行归一化处理。

3.3 标签体系

所谓标签体系,标签体系就是分类,而且是对全集的分类,把内容或者用户依据统一的规则分到不同的类别中去,类与类之间彼此有联系,这就构成了标签体系。我们上文已经提到过,标签分类就是一套体系,当然,我们可以从不同的视角去划分标签的时候,具体到互联网金融业务的时候,就可以划分成下图的一个整体的体系。

标签体系建设一般是选定目标对象,根据业务需求确定标签所打的业务对象,业务对象范围参考公司发布的信息架构中的业务对象,根据标签的复杂程度进行标签层级设计。进行详细的标签和标签值设计,包括标签定义、适用范围、标签的生成逻辑等。

04

结论

上面就是对指标和标签的一些理解,简言之指标是可量化的,用数值表示的字段,而标签则是对数据的描述,一般是对象的属性,特别是‘人’的描述。

从二者之间的关系来说是可以相互转化的。指标可以从标签中转化,比如高价值客户的转化率(从活跃客户转化到高价值客户的比率),其中高价值客户和活跃客户都是标签,但在标签的基础上增加一个转化率,就由标签转化为了指标。

同样标签也可以从指标转化得来,比如说银行中常用的数据标签:活跃客户(一个月内登录次数>=15次),其中一个月内登录次数就是数据指标,不同银行的标签设定可能是不同的。

涤生大数据往期精彩推荐

1.企业数仓DQC数据质量管理实践篇

2.企业数据治理实战总结--数仓面试必备

3.OneData理论案例实战—企业级数仓业务过程

4.中大厂数仓模型规范与度量指标有哪些?

5.手把手教你搭建用户画像系统(入门篇上)

6.手把手教你搭建用户画像系统(入门篇下)

7.SQL优化之诊断篇:快速定位生产性能问题实践

8.SQL之优化篇:一文搞懂如何优化线上任务性能,增效降本!

9.新能源趋势下一个简单的数仓项目,助力理解数仓模型

10.基于FlinkSQL +Hbase在O2O场景营销域实时数仓的实践

11.开发实战角度:distinct实现原理及具体优化总结

12.涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(一)

13.涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(二)

14.深入理解Spark BlockManager:定义、原理与实践


继续滑动看下一个
涤生大数据
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存