查看原文
其他

用户画像-标签体系(dwt层)

数仓与大 数据仓库与Python大数据 2022-11-29
用户画像专题系列:☞用户画像专题

1 前言


最近在学习用户画像,翻看了七十多份资料,简单过了一遍赵宏田老师的书,最近又看了许多微信公众号里的文章。


整体感受就是,资料太杂、内容太乱、重复的太多、相互间也会有些冲突。但大致可以归为两类:赵宏田老师的一套,另外其它的一套。


有那么七八张图在各种文档、公众号文章里反复出现,我也搞不清楚哪个是原创了。用户画像的描述至少在六个地方看到连文字都是一样的。


本来想着直接抄一下权威老师的作业就好了,但发现了一些问题,比如标签分类违背了分类的基本原则、混淆了标签与标签取值的区别。可能是我较真了但还是希望能按照我认为的更好的方式去实现。


最后,由于以下内容大多源于最近看过的资料,原创声明肯定是不能写的,有参考到的比较好的文章我会在文末一一列出来。


2 标签体系概览


2.1 什么是对象



2.2 什么是标签


标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识。


标签是对对象某个维度特征的描述与刻画,是某一种用户特征的符号表示,每一种标签都规定了我们观察认识描述对象的一个角度,用于对象的标注、刻画、分类和特征提取。


现实世界中标签还有三种表现形态:实物标签、网络标签和电子标签。

  • 实物标签(Label)是用于标明物品的品名、重量、体积、用途等信息的简要标牌,例如:商品标签、价格标签、车检标签、服装吊牌、车票、登机牌都是实物标签;

  • 网络标签(Tag)是一种互联网内容组织方式,是相关性很强的关键字,它能帮助人们通过关键词快速建立对内容总体印象;

  • 电子标签又称RFID射频标签(Label),是一种识别效率和准确度都比较高的识别工具,通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预,可工作于各种恶劣环境。


用户画像里的标签,实际上属于网络标签(Tag)。


2.3 什么是标签体系


所谓标签体系,就是对企业需要的多种标签进行归类、同时对标签属性加以定义,从而更方便的对标签进行管理维护。标签体系包含两部分(标签分类体系即标签类目+标签内容信息),最好能通过标签系统来维护。也可按描述对象分类。



2.4 用户标签体系


标签类目,分类方式很多,建议采用按业务场景的分类方式。


以下是电商场景的标签类目(最底层分类我只是象征性写了几个能说明问题就好)。个人觉得阿里达摩盘的分类更好些,因为赵宏田老师的分类违背了不丢不重的基本分类原则:



标签内容信息,也叫标签属性,是从多个不同角度对标签进行描述。



2.5 商品标签体系


按照应用场景区分,商品标签分为基础属性、交互行为、适配场景、供应链属性、商品价值等。


2.6 什么是用户画像


用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。


用户画像可看作企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基础。由此看来,如何从海量数据中挖掘出有价值的信息越发重要。


上边这段话是赵宏田老师书里写的。我觉得,用户画像就是在用户标签的基础上进行组合提炼,来刻画描述用户群体,以便更清晰的了解用户,从而投其所好。毕竟用户才是金主爸爸。


2.7 标签体系的应用场景


DMP、CDP


  • CRM应该听的比较多,就是客户关系管理系统(Customer Relationship Management)。

  • DMP就比较少的人听说了,是数据管理系统(Data Management Platform),对应的前台应用叫DSP,广告精准投放平台(Demand-Side Platform )。

  • CDP最近倒是挺火的,是客户数据平台(customer data platform)。


以下是摘要,想看更多的,文末有分享链接。

  • CRM,它应该是企业的核心客户的系统,是以交易ID或者Leads ID定义数据的系统,存放的主要是“井水不犯河水”时代的那些客户的静态数据。

  • DMP,它应该是以广告投放管理,尤其是程序化广告投放管理为核心目的的受众数据系统。

  • CDP,它应该是支持流量运营、用户运营、客户运营、潜在客户运营的人群细分的数据系统。


DMP的核心思想,是记录每一个个体消费者在不同营销触点上的“交互痕迹”,基于这些痕迹,区分不同消费者的特征,并对不同特征的消费者群体提供针对性营销策略或是输出这些人群作为细分受众给其他营销执行机构。


因此,它具有几个核心特征:

1. 它能够收集不同营销触点上的数据,如果有遇到不能收集的营销触点的情况,也应该能够整合别人收集的数据;

2. 它能够通过这些数据,建立不同的消费者的特征,即建立消费者特征属性的标签;

3. 它能够依据不同的消费者属性标签及消费者触点上的数据,将具有同样特征或数据的消费者筛选出来,并组合成特定受众人群;

4. 它能够分析特定人群的触点数据和属性数据,并进而判断已经执行的营销决策是否合理,或是为即将执行的营销提供策略支持;

5. 它能够将它生成的特定细分人群及相关数据输出给营销执行机构实现相关人群触达或投放。


上面的是标准意义上的DMP的意思。围绕人的数据,收集数据 - 整合数据 - 打标签 - 人群细分为群主 - 输出为策略/输出为人群包 - 投放支持。


DMP的数据源可以是第一方自己的数据、也可以是合作企业的数据、也可以是购买的公开数据源或者数据市场里面的数据。


推荐系统


一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商品;对于音乐平台来说就是每一个首歌,对于新闻资讯平台来说就是每一条新闻。下一篇要介绍的是用户画像,画像中那些用户实时变化的兴趣点大都也是来自于标签体系,依据用户长期和短期行为中对于物料搜索、点击、收藏、评论、转发等事件,将物料的标签传导到用户画像上,就构成了用户的实时画像和离线画像中的各个动态维度。


用户画像系统


所谓的用户画像系统,顾名思义,就是对用户进行一些画像……这句话好像啥信息量也没有。但说白了,其实就是对用户的特征进行提炼、进行复原。


功能上,其实主要分为两大系统,一部分是标签系统,一部分画像系统。用户标签是整个系统的数据基础,是链接标签系统和画像系统的桥梁。除此之外,也包括一些人群管理等外围系统功能。


所谓标签系统,就是利用企业自由数据、第三方数据、采购数据等等,对自有的用户进行打标签的处理。标签系统既可以自主生成标签,也可以对标签进行有序管理维护。

所谓画像系统,就是利用标签,进行的可视化分析及各类应用的落地。简单的,可以是一些统计分析;复杂的,可以是人群的各维度的透视。


数据中台


在众多的数据中台的解决方案中,一个叫做“标签中心”或“标签体系”的应用,几乎成了数据中台的“标配”。

数据中台是数据+技术+产品+组织的有机组合,是快、准、全、统、通的智能大数据体系。与数据仓库等传统数据工具相比,数据中台是一种新的理念,以“技术+业务”为双驱动,是企业开展新型运营的一个中枢系统。


因此,如果你将数据中台定位成一个存数据、管数据的技术平台,那或许有“分类体系”就可以了。如果你的数据中台定位的是企业数字化转型的运营中枢系统,要实现对前端业务的支持和赋能,那“标签体系”就是数据中台一个标配。原因前边介绍过,分类是自上而下的规划,侧重标准化,标签是自下而上的倒推,注重业务场景。


“数字转型,场景为王”,在“技术+业务”双驱模式的数据中台中,标签体系、数据萃取将助力企业运营转型升级。


3 标签体系建设方法及质量评估标准


3.1 标签体系构建流程

标签体系构建原则


原则一:

因此最佳的处理方式是,我们应该放弃顶层的用户抽象视角,针对各业务线或部门的诉求和实际的应用场景,分别将标签聚类起来提供给相应部门。


原则二:

标签生成的自助化能够让沟通成本降最低

标签生成的自助化,可重复修改的规则,降低无效标签的堆积

释放数据团队人力,释放业务团队的想象力


原则三:

规则及元信息维护

调度机制及信息同步

高效统一的输出接口


我们回顾标签体系构建的三原则,本质上是解决了价值、手段、可持续性三方面的问题:以业务场景倒推需求,让业务方用起来作为最终目标,让标签系统价值得以实现;标签生成的自助化,它解决的是我们用什么样的手段去实现价值;有效的标签管理机制,意味着一套标签体系能否可持续性地在一家企业里面运作下去。

总之,对企业最重要的是:一套标签系统在业务上用起来,能不能覆盖更广泛的需求,而不是一个大而全的框架。


标签体系实施架构


标签体系架构可以分为三个部分:数据加工层,数据服务层,数据应用层。每个层面面向用户对象不一样,处理事务有所不同。层级越往下,与业务的耦合度就越小。层级越往上,业务关联性就越强。



标签体系整体设计-业务梳理


以业务需求为导向,可以按下面的思路来梳理标签体系:

  • 有哪些产品线?产品线有哪些来源渠道?一一列出

  • 每个产品线有哪些业务对象?比如用户,商品

  • 最后再根据对象聚合业务,每个对象涉及哪些业务?每个业务下哪些业务数据和用户行为?



标签体系整体设计-标签分类


按业务需求梳理了业务数据后,可以继续按照业务产出对象的属性来进行分类,主要目的:

  • 方便管理标签,便于维护和扩展

  • 结构清晰,展示标签之间的关联关系

  • 为标签建模提供子集。方便独立计算某个标签下的属性偏好或者权重


梳理标签分类时,尽可能按照MECE原则,相互独立,完全穷尽。

标签层级控制在三到四个为宜。

一级标签控制中 10 个以内,太多不易于使用。


3.2 标签体系质量评估标准


为什么要进行标签质量评估


想象一下,我们开发了一个“用户年龄”标签,业务想针对20-30岁的人进行精准投放。但经过筛选,才筛出来几千个人,和公司总体用户相比仅仅是九牛一毛,那这样的标签,还有价值不?


因此,对标签的质量进行科学完整地评估,有助于指导标签的管理者、开发者不断地提升标签质量。通过创建一套完整的评估体系,对于质量过差的标签,不着急上线,等达到基本的质量要求后再开放给业务使用。不然,既对业务带来不了价值,也容易让标签画像系统失去用户的信任。


回过头来,上面这个例子反映的问题,其实就是标签的质量差。准确地说,是标签的覆盖度太低了。除了覆盖度,还有很多指标可以衡量一个标签的质量,咱们在下面详细展开,主要通过 数据质量、应用质量、业务质量 三个方面来评价标签的质量。


数据质量评估是标签质量最基础的评价,主要分为准确度、覆盖度、稳定性 三部分。


标签覆盖度的含义,是指在一个标签中,有业务含义的人群数量与总人群数量的比例。


标签的稳定性也是影响标签质量的重要因素。


什么是稳定性呢?举个用户年龄标签的例子。昨天30岁以下的用户有200万,占比10%,今天就成了1000万,占比50%。这种标签数据,你敢用么?是数据的计算逻辑出现问题,还是其他原因导致?


因此在标签的质量评估中,标签值的相对稳定性,是重要的评估标准之一。


应用质量评估是从产品角度出发,评估标签对于产品应用的价值。


若一个标签的数据质量高,但是用户都用不起来,不好用,那么也是难以发挥出标签内在的价值。


关于应用价值的衡量,往往会用一些滞后性的指标衡量。基础假设是,业务人员用的多的标签,一定是应用质量好的;业务人员用得少的标签,一定是应用质量弱的。

具体衡量应用多少的指标,可以用【使用次数】、【使用热度】、【调用次数】等来综合衡量。


对于应用价值低的标签,可以针对性地进行分析,不断提升每个标签的应用价值。


业务质量评估是最不好衡量的,但又是最最重要的。因为相比于数据质量是从数据层出发、应用质量是从产品层出发,业务质量是从业务层出发,是离业务价值最近的。


想象一下,业务如果用了一个标签,对一群人进行了投放,ROI是日常投放的好几倍,那这个标签的价值可以说是毋庸置疑了。这时,我们可以说这个标签的业务质量很高。

什么样的标签的业务质量会比较高呢?比如:【用户购买偏好】、【用户的营销敏感度】等等。这类的标签往往都是一些复杂逻辑的算法标签,常常有比较强的业务质量。


但这里存在的一个悖论,就是业务质量是后验的。即想知道一个标签的业务质量,就一定要进行投放测试才行。而且往往不同场景的一些投放带来的结果也不太一样,就导致业务质量的评估往往很难落地。


这确实是个难点。作者的经验是,在评估标签质量时,先重点考虑数据质量和应用质量,这两者都没问题的时候,就可以上线开放给业务使用。但对于业务使用标签后的数据进行回流,监控标签应用在业务场景的价值情况。最终可以有个比较公允的衡量。而这个衡量,将对后面标签的优化方向,带来很强的指导性意义。


4 参考资料


用户画像标签体系

推荐系统之标签体系

用户画像:3种标签类型、8大系统模块

用户画像从0到100的构建思路

一文了解用户标签画像,从洞察到突破

10亿用户量,连续7天登录的用户标签该怎么打?


以下是我参考过的两本书




- END -




专题系列


数仓之路      学习路线

面试系列      大佬访谈


点击上面文字即可跳转



还想看更多?

戳下面查看更多干货👇


☞字节、快手实时数仓实践分享.PPT

数据指标体系框架设计方法和思路

美团优选-数据仓库高级工程师二面

大数据岗面经,已拿offer(解决北京户口)


☑大数据生态0-1全景图谱.xmind

☑实时数仓ClickHouse全面学习指南.xmind

☑Apache Flink 学习0-1知识点全景图.xmind



  1. 指标体系:


  2. ♤ 指标体系 | 完整的指标体系

  3.  指标体系 | 有赞指标库实践

  4.  指标体系 | 数据指标体系建设

  5.  指标体系 | 数据指标体系搭建

  6.  指标体系 | 最佳实践-指标逻辑树

  7.  指标体系 数据指标体系搭建实践

  8.  指标体系 | 滴滴指标体系搭建实践

  9.  指标体系 | 数据指标体系0-1搭建流程



欢迎大家关注呀!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存