指标与标签在数仓中的角色解析:深入了解其差异与联系
01
概述
很多我们的内部小伙伴已经开始我们的用户画像的项目学习,最近项目群的小伙伴反馈对标签和指标的应用略有模糊,大家就开始了热烈的谈论,其实这个问题在我们的课程里也有讲到,今天在这里就来给大家在详细的梳理一下。
02
指标
2.1 概念
世界万物都要有一个好坏,那这个好坏该怎么去衡量?那我们就要基于一个统一的标准,这个标准就是指标,我们将某样东西或者说将一个具体业务通过可量化、可拆解的形式进行描述,通常这个描述是数值型数据。
一般指标有以下几个特征:
1.指标是说明总体综合性数量特征的概念,所有指标都必须用数值来表示,一个完整的统计指标,一定要讲时间、地点、范围;
2.指标的评价较易量化,通常有一定的标准和尺度,也就是我们说的度量;
3.指标是生产性的思维、拆解式的思维,讲究的是化整为零,将一个业务拆解开来进行多角度的描述,得到很多的指标;
4.指标最擅长的应用是分析、统计、监控、建模和评价等;
5.指标是业务管理导向的,需要提前规划,应用场景很多,业务监测、业绩考核、任务分解、数据分析、数据建模。当指标和具体业务结合起来才能体现出他的价值。
例如:以网购文章为例,销售额这个指标就是用来衡量交易金额。
2.2 指标分类
指标的分类相对比较统一,通常划分为原子指标、派生指标、衍生指标。
原子指标:非常好理解,指标不叠加任何维度,仅是对业务事实的最基本的描述,通常是一些整体指标,通过SQL直接统计出来的,比如客户数、留存率、交易量等。
派生指标:派生指标就是原子指标叠加维度,这个维度可以是一个或者多个。例如:7日留存率,30天内理财交易次数等。
衍生指标:顾名思义,衍生指标就是通过原子指标或派生指标互相加工而来。最常见的就是留存率,渠道转化率等。
2.3 指标体系
知道了指标的概念,那指标体系就非常好理解了,任何指标都离不开业务,任何业务也必须和指标体系建立联系;指标体系是从不同维度梳理业务,把指标有系统地组织起来。简而言之,指标体系=指标+体系,所以一个指标不能叫指标体系,几个毫无关系的指标也不能叫指标体系。
指标体系的建设也是企业数仓建设必不可少的一个环节,不仅符合“创新驱动”的意识,更是企业实现自身“数据驱动”发展的重要途径。
03
标签
3.1 概念
标签通常是人为定义的概念,根据业务场景和需求,对业务运营状态运用一定算法得到的高度精炼的信息,标签在数据结构中包含:标签名称及其值。
比如 客群标签可以分为潜在客户、活跃用户标签;产品标签有高风险和低风险等其他一系列的标签。它并不是一个客观存在的事实,而是由人为的定义和客观事实结合得到的数据标签。
标签由互联网领域逐步推广到其他领域,打标签的对象可以是用户,但随着大数据的发展,逐渐扩展到产品、渠道、营销活动等,标签有助于实现精准营销、定向推送、提升用户差异化体验等,标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等。一般标签具备以下几点特征:
1. 标签是对象的属性,对象可以是人,或者产品,渠道等;
2 标签应用在客户分群、用户画像、精准营销、个性化定制、活动运营、数据可视化等;
3. 标签的评价一般与使用者的感受、应用的结果有强关联关系,不同的人、不同的应用场景,标签能发挥的效果可能大相径庭;
4.标签的口径业务精密结合,没有统一的规定,都由具体的业务而定。
3.2 标签分类
标签由于其人为划分的特性,分类就没那么统一,比较常见的一种划分为统计类标签、规则类标签、算法挖掘类标签。
统计类标签:事实类标签用户画像最基础、最常见的标签,是既定发生的事实,不可以修改,通常是基于原始数据清理后的归类,用于描述客观事实。例如,姓名、终端类型、购买次数、购买金额等。
规则类标签:规则类标签,顾名思义,是基于确定的规则而产生。与事实类标签不同的是,规则类标签拥有更多的业务属性,其业务规则需与业务人员共同制定。例如,将“活跃用户”、生命周期等标签进行综合评定。
预测挖掘类标签:根据算法模型生成。挖掘型属于算法标签,利用用户行为数据或者文本数据,结合业务规则进行算法加工,输出对应的属性值或分值。如有必要,对分值进行归一化处理。
3.3 标签体系
所谓标签体系,标签体系就是分类,而且是对全集的分类,把内容或者用户依据统一的规则分到不同的类别中去,类与类之间彼此有联系,这就构成了标签体系。我们上文已经提到过,标签分类就是一套体系,当然,我们可以从不同的视角去划分标签的时候,具体到互联网金融业务的时候,就可以划分成下图的一个整体的体系。
标签体系建设一般是选定目标对象,根据业务需求确定标签所打的业务对象,业务对象范围参考公司发布的信息架构中的业务对象,根据标签的复杂程度进行标签层级设计。进行详细的标签和标签值设计,包括标签定义、适用范围、标签的生成逻辑等。
04
结论
上面就是对指标和标签的一些理解,简言之指标是可量化的,用数值表示的字段,而标签则是对数据的描述,一般是对象的属性,特别是‘人’的描述。
从二者之间的关系来说是可以相互转化的。指标可以从标签中转化,比如高价值客户的转化率(从活跃客户转化到高价值客户的比率),其中高价值客户和活跃客户都是标签,但在标签的基础上增加一个转化率,就由标签转化为了指标。
同样标签也可以从指标转化得来,比如说银行中常用的数据标签:活跃客户(一个月内登录次数>=15次),其中一个月内登录次数就是数据指标,不同银行的标签设定可能是不同的。
涤生大数据往期精彩推荐
8.SQL之优化篇:一文搞懂如何优化线上任务性能,增效降本!
10.基于FlinkSQL +Hbase在O2O场景营销域实时数仓的实践
12.涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(一)
13.涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(二)
14.深入理解Spark BlockManager:定义、原理与实践