查看原文
其他

快看漫画用户画像产品搭建

贾玮 DataFunSummit
2024-09-10

导读 本文聚焦于如何构建用户画像平台。将分享快看画像平台的功能,以及建设中的关键问题。

主要包括以下五大方面:

1. 了解用户画像平台

2. 画像平台功能和标签体系

3. 画像服务和应用

4. 总结与展望

5. Q & A

分享嘉宾|贾玮 快看漫画 数据产品 

编辑整理|王露露

内容校对|李瑶

出品社区|DataFun


01

了解用户画像平台

用户画像平台的价值在于通过精准分析用户数据,提供全面的用户洞察、用户行为和用户偏好等数据,进而实现精准营销、产品优化和科学决策。

用户画像平台主要面向的用户有:产品、运营、销售、分析师、市场营销和用户用研等。除此之外,作为数据平台部门还会面向算法研发、推荐系统研发、广告研发等研发类型的用户。

针对上述用户和使用场景,画像平台的搭建整体可以分为三个方面:


  • 平台功能方面。主要包括用户圈选、人群洞察、单一用户标签查看与修改以及标签等画像平台元信息的管理和生命周期管理。
  • 标签数据体系建设方面。重点是要选择适合公司业务的标签体系,包括 ID 选择、ID 映射方案的设计、标签类型划分、标签层级确定、标签值的类型确定。还需要重视离线和实时标签需求的收集,特别是实时标签的需求。除此之外要考虑到算法研发和业务使用画像平台能力的诉求,也需要考虑到算法标签和业务自建标签的能力支持。
  • API 服务和应用方面。API 服务可以划分为两部分,一种是平台功能性 API,比如 ID 转换、人群导出、上传 ID 文件等;另一种是画像实时查询 API,可以对接业务后台、业务服务端的 API 能力。

当前快看漫画的用户画像产品架构如上图所示,在此不多做赘述。接下来,将具体介绍上面提到的画像平台搭建的三个方面,将从「画像平台功能和标签体系」与「画像服务与应用」展开介绍。

02

画像平台功能和标签体系

1. 画像平台行业趋势

在用户画像平台的构建过程中,我们一直关注着数据服务提供商在画像平台能力方面的推陈出新。观察到神策、友谋、TalkingData 等公司除了其本身拥有/直接接入较丰富的数据源以外,近半年来,他们在标签管理和标签体系上也进行了深入的迭代。在平台功能和服务方面他们的表现较为一致,均涵盖人群圈选、人群洞察、单一用户画像、可与推送系统对接的功能,以及较早具备的成熟的数据分析能力。

2. 画像平台功能设计

基于行业现状和公司用户的需求,快看漫画的画像平台设计主要分为三大类功能。

第一部分是产品运营等业务同学最常使用的生成人群包功能。在这方面,我们提供了四种生成人群包的能力:第一种是基于标签值的直接条件筛选;第二种是基于埋点数据的条件圈选,并且支持条件之间的且并运算;第三种是文件上传生成人群包;第四种是支持以上三种方式创建的人群包结果之间的交并差计算。

第二部分是针对生成的人群包进行人群洞察和标签分布分析。除了人群洞察以外,还计划支持单一用户画像的查看和编辑,以满足运营或产品同学在上线特定功能或活动的测试需求,为 QA 同学测试提升效率。

第三部分是平台管理相关。包括三个主要方面:标签各种元信息的管理以及上下线管理、标签体系的管理、人群包生命周期的管理。本文将着重介绍团队在这方面遇到的一些挑战和经验总结,希望能够提升画像平台建设中对平台元信息管理和维护的重视程度。

无论是画像 0-1 的建设,还是在其后续迭代的过程中,平台元信息管理和生命周期管理都至关重要。

首先,标签管理是其中的一个重要方面。

从用户产品和运营的角度来看,他们关心标签的定义和标签的覆盖度等信息,而数据团队也需要关注标签的上下线状态以及使用权限范围等信息。这些信息和状态均可以在标签管理中进行维护和管理。

从数仓研发和画像平台侧研发的角度,他们也需要关注标签的元信息,包括存储路径、数据依赖以及码值对应关系等。特别是对于标签可支持的运算条件,可通过标签的数据类型与其运算条件做映射关系,通过维护映射关系信息,可以显著缩短上线标签在人群圈选上的开发周期。

另外,作为数据产品,我们需要维护标签应用的信息,例如是否是实时标签、是否支持洞察分析等。

其次是标签体系的管理,包括对标签体系分类的管理和标签层级的管理。

第三是对人群包生命周期的管理,综合考虑计算和存储成本,以及后续人群包的使用,需要对人群包的生命周期进行管理和限制。

我们在搭建标签数据体系的最初阶段走了一些弯路,但通过学习业界经验和收集公司内部需求,我们认识到标签体系的设计主要考虑当前的使用,以及未来短期时间的扩展适配即可。分析梳理业务需求在指导标签体系的设计上也很重要,可以避免标签冗余或歧义的问题。

首先,需要确定标签的分类。业界的标签通常包含以下四大类:基础属性标签、用户行为标签、偏好标签和基于自身业务的场景标签。在考虑用户的基本属性、设备属性、行为活跃标签以及偏好标签等属性后,还需要综合考虑公司各业务方向的标签需求。举例来说,电商或广告类业务可能需要商业化标签,而偏内容向的APP 可能需要用户在内容喜好上的分类标签。

其次,需要确定好标签层级,从标签分类到末级标签形成一个层级体系,末级标签的下一级则直接为标签值。需要控制标签分类的层级,确保不过深,从而保障平台使用的良好体验。标签的数据质量也是非常重要的,需要保障标签的准确性,并且可以在画像标签平台上展示标签的覆盖度,让业务方了解标签的覆盖情况。

另外除了以上提到的标签体系,画像平台的数据层面中还需要关注到以下三点:

第一是画像平台的 ID 选择和设计。公司不同业务对 ID 的需求不完全相同,在 ID 设计中也需要考虑不同 ID 间的映射方案,以及需要在满足数据隐私政策的同时去满足业务需求。

第二标签需求收集和设计时也需要重点关注标签离线和实时的使用诉求。其中实时标签的需求确认以及使用场景的确认,关乎到后续数据和服务的技术方案选型和设计,所以非常重要。

第三是一些较个性化的需求,例如算法团队或业务团队会有自己设计的自定义标签,这些标签只会在特定业务场景较短期的使用,但这些团队希望能够利用画像平台的能力,包括API 能力、创建人群包和推送资源位等能力。因此我们在产品设计时还需要考虑扩展标签的能力。

03

画像服务和应用

API服务主要应用于产品内资源位、push 推送、发送 message 或站内信,以及与业务后台对接等。

除 API 的应用之外,画像平台可直接搭建公司画像大盘和业务方向的垂类画像,以加强业务同学洞察用户的诉求。例如电商类业务想要了解专属于其电商部分的用户画像,并与整体画像进行对比的场景。画像标签也被应用在行为分析平台上,将用户画像标签与用户的埋点行为相结合进行分析对比。在 BI 平台上画像标签也作为重要的维度应用于报表中,同时在 AB 实验中也进行应用和结果的分析。

04

总结与展望

其实不论是在画像平台的搭建过程中,还是在每一次的复盘中,以下两点是我们最大的收获也是大家公认的最重要的部分:
  • 第一点是作为公司级画像平台,全面收集各方需求非常重要。这个过程不止要包括直接使用平台功能的用户,也需要包含使用数据和 API 的用户们。
  • 第二点是画像平台的核心功能依旧是人群圈选能力,但也需要关注到各元信息的管理和生命周期的管理,在前期对此部分的关注和思考可以避免未来大规模的数据治理工作。
针对用户画像平台,我们未来的展望主要是以下两点:
  • 一是提升自助创建画像标签的能力,提高对业务方标签诉求的支持效率。
  • 二是完善画像服务建设,探索人群包在 AB 实验中的支持和应用能力。
05

Q & A

Q1:怎么定义实时标签?

A1:说到这个问题,可能需要先说实时标签的使用场景。在冷启动时,如果是对于具有强注册性质的 APP,在用户注册时生成的标签,例如性别和兴趣标签,会被实时存储在 Redis 中,数据研发团队将实时消费这些标签数据,并直接提供给业务方,以便根据用户直接选择的标签进行冷启动,推送相关内容。这是第一部分,即注册阶段的相对实时标签;第二部分涉及用户浏览内容时生成的实时标签。例如,用户浏览恋爱类型的小说并达到三个章节,会触发标签的生成,该信息会实时提供给业务方,以便推送相关活动或标签给用户。因此,我目前遇到的实时标签有两种情况,一是在业务用户冷启动时生成的标签,另一种是在用户行为满足某个规则时生成的标签。实时标签的定义要根据业务需求来划分,只有在业务方需要实时响应时,并且数据能力和服务能力都能够实现的情况下,会将其定义为实时标签。

Q2:标签分类分级是如何做的?

A2:在标签的分类和分级方面,我们首先进行了大量调研,尝试了解不同类型的APP是如何进行分类和分级的。这一过程相对困难,因为各公司的画像体系都是公司内部的划分体系。通过调研我们发现电商类、内容类型和工具类型等各有其倾向性的分类方式,但这些倾向都是根据业务特点而划分的。

首先,关于用户的基本属性,包括人口类型的属性,如性别、年龄、地域等。其次是设备属性,涵盖用户使用的设备类型,比如是苹果还是华为。再次是行为属性,包括用户的活跃程度、活跃时间等。这些是每家公司都会考虑的基本属性。此外,不同APP 根据自身业务特点进行更细致的分类,比如电商 APP 可能会关注商品分类,女装、男装、母婴等。在我们公司的情况下,我们可能会对漫画内容进行分类,同时考虑社区的不同分类。总体而言,不同公司会根据其业务特点进行分类的细致划分。

至于分级,我们从标签的第一个分类开始,例如设备属性,逐层分级直到标签值的最后一层。以设备属性为例,我们可以从设备的分辨率这个维度进行分级。目前,我们采取这样的分类方式。

Q3:如何衡量标签的好坏,如何实现标签的全生命周期管理?

A3:对于标签的好坏,我们目前有两个主要方面的分析。首先是在一段时间内统计标签的业务使用量,我们可以统计标签被使用到分群的情况,包括接口调用等。另一方面,我们也考虑标签自身的准确性。我们与用户用研部门合作,进行问卷调查或线上线下的调研,从实际收集到的真实信息评估标签的准确性,包括算法标签准确率的评估。此外,业务方更关注标签的覆盖度情况。例如,一些具有较高覆盖度的标签,如注册时的性别信息,可能是准确的。然而,对于年龄等信息,有些用户可能选择不填或填写不准确,导致覆盖度较低。业务方对此也有一定的理解。

因此,度量标签的好坏主要从数据化的角度出发,包括标签的业务使用情况、标签的准确率和覆盖度,以及业务方对标签是否真实需要的认可。

对于标签的生命周期管理,我们会延续对标签使用情况的监控。如果一个标签是新提出的,或者提出了一段时间但使用较低,我们可能会做一个预下线的标记,即在内部做标记,但不是真正下线。在回访时,我们会与业务方确认。在标签生命周期管理中,我们还会在产品功能上设计标签的上下线的处理。可能会先进行预下线,如果业务方没有反馈,我们会判断是否要在数据层面进行真正的下线。这样的处理方式有助于更好地管理标签的生命周期。

Q4:ID Mapping 这一块是怎么做的?如何向老板体现其价值?

A4:关于 ID Mapping 我不方便做细节的透露,不过我目前了解到的各家的策略基本是比较一致,基本的逻辑是在用户隐私同意的前提下,收集设备的多个标识,然后通过某种规则来映射它们,以确定它们是否对应同一设备。这种方式有助于建立设备之间的关联。

关于如何体现 ID Mapping 的价值,解决了业务的实际使用需求和痛点就是价值的体现,比如:广告团队依赖 ID Mapping,可以更准确地将广告投放给目标用户提高广告效果,这就是实际地解决了业务的痛点并带来了正向收益。

Q5:ID Mapping 的应用场景都有哪些?

A5:以渠道业务投放为例,ID Mapping 将用户在不同媒体平台上的 ID 统一为内部用户 ID,可以更准确地评估各广告渠道的效果,了解不同渠道对用户的吸引力和转化效果,还可以剔除低质量用户。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


贾玮

快看漫画

数据产品

2016 年硕士毕业,曾在小米、keep、百度任数据产品经理,主要负责画像平台建设、埋点搭建、数据分析平台。

DataFunCon2024·上海站正式开启!本次活动共邀请了60+位行业专家参与分享,聚集了1000+技术从业者参与,在这里你可以做行业交流,生态合作,寻找投资机会,了解行业发展,了解落地案例,寻求解决方案,拓展人脉。扫码咨询门票:

往期推荐


阿里面向企业数字化的文档智能技术与应用

发动机铸造模具温度智能管理调节应用落地

懂车帝准实时指标体系架构及应用

华为盘古大模型微调实践

算法&大数据如何赋能?OPPO推荐领域降本增效指南

小米 OLAP 引擎在 Trino 的应用实践

标签与指标融合应用业务案例详解

阿里飞猪供应链算法之推荐和选品模型

基于 StarRocks 和 Paimon 打造湖仓分析新范式

腾讯金融 AI 开发平台落地实践

字节跳动数据集成引擎 BitSail 开源架构演进和实践

金融行业在数仓建设与数据治理的最佳实践

点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存