数据标签分类设计与实现方法

数据学堂大数据学习与分享 2022-07-29

收录于合集

#用户画像 12 个

#数据指标 15 个

在开展对数据的各种分析应用之前，如果在数据仓库的基础上再开展一些数据标签的工作，提前做一些准备工作，那么后续对数据应用的设计开发将更加深入、更加便利，也更容易快速交付。

整个数据中台的系统规划如下图所示。从这里可以看到，数据标签介于数据仓库与数据集市之间，在数据仓库之上，是为数据集市做的准备工作。

数据标签在数据中台中的位置

如果以数据标签为基础再开展各种数据分析与应用，那么对数据的分析利用将更加深入与便捷，这就是数据标签的作用。

01 什么是数据标签？

标签由标签和标签值组成，打在目标对象上，如下图所示。

打标签示例

标签由互联网领域逐步推广到其他领域，打标签的对象也由用户、产品等扩展到渠道、营销活动等。

在互联网领域，标签有助于实现精准营销、定向推送、提升用户差异化体验等；
在行业领域，标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等。

02 数据标签的分类

对数据打标签，可以由浅入深地分为以下三种类型。

1）属性标签，就是对业务实体各种属性的真实刻画。比如企业类型、所处行业、经营范围、所处地域等信息，用户性别、年龄段、职业状况、身高体重等信息，发票类别、代开发票、作废发票、异常发票等信息。

这些标签可以从某些字段直接获得，也可以通过某些字段进行一个条件判断获得。

2）统计标签，就是对业务实体从某个维度的度量进行的汇总，比如企业的月经营业绩、月增长额、季增长额、前n名的客户或供应商的交易额等。

通过这些统计可以真实地反映该企业的经营状况。

3）算法标签，就是通过某些算法推理得到的特性。算法标签相对比较复杂，但非常有用。它既可以设计得简单易行，如企业的行业地位、交易成功率、客户开拓能力、客户忠诚度、企业成长度等。

也可以运用一些数据挖掘算法进行推算，如通过用户近期的购买商品推算该用户的性别、职业、兴趣喜好、购物习惯，以及是否怀孕、是否有小孩等信息，以便日后的精准营销、商品推荐。

华为将标签分为事实标签、规则标签和模型标签，如下图所示。

三种类型的标签

事实标签是描述实体的客观事实，关注实体的属性特征，如一个部件是采购件还是非采购件，一名员工是男性还是女性等，标签来源于实体的属性，是客观和静态的。

规则标签是对数据加工处理后的标签，是属性与度量结合的统计结果，如货物是否是超重货物，产品是否是热销产品等，标签是通过属性结合一些判断规则生成的，是相对客观和静态的。

模型标签则是洞察业务价值导向的不同特征，是对于实体的评估和预测，如消费者的换机消费潜力是旺盛、普通还是低等，标签是通过属性结合算法生成的，是主观和动态的。

03 数据标签的设计

数据标签通常按照以下步骤分析设计。

1、确定标签对象

数据标签的设计首先从确定标签对象开始。数据标签是规划在数据集市这边的，就意味着它的设计与数据分析业务息息相关。

真实的世界有那么多的事物，每个事物都有那么多的属性，因此漫无目的地打标签没有意义。给什么事物打什么样的标签，一定是与分析业务息息相关的。

数据标签的对象可以是人（个人/群体）、事物与关系，比如用户、企业、订单、发票，以及开票行为、供销关系，等等。

给什么对象打标签，关键在于我们对数据分析与应用的兴趣点，对哪些方面的事物感兴趣。譬如，要进行精准营销就要关注用户的购物喜好，要进行防虚开风控就要关注企业开票行为，等等。

2、打通对象关系

很多标签，特别是算法标签，都是通过比对某个对象方方面面的状况推算出来的。如何才能推算呢？就需要通过某些key值将该事物方方面面的属性关联起来。

譬如，将用户通过订单与其购买的商品关联起来，然后又将哪些是婴儿用品关联起来，那么通过这些关联就可以推算某用户是否有了小孩；将企业所处的行业与地域关联起来，同时汇总各行业、各地区的平均水平，就可以推算该企业在本行业、在该地区的经济地位，等等。

3、标签类目设计

确定了标签对象，打通了对象关系，那么就正式进入标签设计环节。

标签的设计首先按类目进行划分，把标签对象按照业务划分成多个不同的方面，接着再依次确认每个类目下都有哪些标签。

04 数据标签的实现

通过以上分析，确定了数据标签的对象以及标签的类目，接着就是数据标签的设计实现。

每个标签都有它的规则，通过一系列脚本定期生成。但数据标签设计实现的核心是标签融合表，即标签按照什么样的格式存储在数据库中。

标签融合表的设计通常有两种形式：纵向融合表与横向融合表，如下图所示。

标签融合表的设计

纵向融合表，就是每个对象的每个标签都是一条记录，如一个用户的每种兴趣偏好都是一条记录，我们能识别出他的多少种兴趣偏好是不确定的。

纵向融合表的设计比较灵活，每个对象的标签可多可少，我们也可以自由地不断增加新的标签。然而，每个对象的每个标签都是一条记录，会导致数据量比较大。

横向融合表，就是将一个对象的多个标签按照字段放到一个表中。由于多个标签都放到了这一条记录中，因此横向融合表的每个对象一条记录，可以大大降低标签的数据量。

然而，一旦需要增加新的标签，就需要修改表结构，从而增加新字段。这样，不仅需要修改标签生成程序，还要修改标签查询程序，维护成本较高。因此，横向融合表往往应用于那些设计相对固定的属性标签或统计标签。

05 华为数据标签管理体系
华为标签管理分为标签体系建设和打标签。
1、标签体系建设（1）选定目标对象，根据业务需求确定标签所打的业务对象，业务对象范围参考公司发布的信息架构中的业务对象。（2）根据标签的复杂程度进行标签层级设计。（3）进行详细的标签和标签值设计，包括标签定义、适用范围、标签的生成逻辑等

事实标签应与业务对象中的属性和属性值保持一致，不允许新增和修改。
规则标签按照业务部门的规则进行相关设计。
模型标签根据算法模型生成。

2、打标签（1）打标签数据存储结构

打标签是建立标签值与实例数据的关系，可以对一个业务对象、一个逻辑数据实体、一个物理表或一条记录打标签。

为了方便从“用户”视角查找、关联、消费标签，可增加用户表，将标签归属到该“用户”下，这里的“用户”是泛指，可以是具体的人，也可以是一个组织、一个部门、一个项目等。
（2）打标签的实现方法

事实标签：根据标签值和属性允许值的关系由系统自动打标签。

规则标签：设计打标签逻辑由系统自动打标签。

模型标签：设计打标签算法模型由系统自动打标签。

推荐文章：

推荐系统之标签体系

用户画像 | 标签数据存储之Hive真实应用

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

数据标签分类设计与实现方法

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

生成图片，分享到微信朋友圈

数据标签分类设计与实现方法

您可能也对以下帖子感兴趣