查看原文
其他

腾讯(大禹投放平台)用户LTV建模技术研究和实践

徐国强 DataFunSummit
2024-09-10

导读 本次分享题目为投放场景下的问题分析与用户价值预估。

主要包括以下三部分内容:

1. 投放场景的问题分析

2. 投放场景下用户价值建模实践

3. 未来工作展望

分享嘉宾|徐国强 腾讯 高级研究员 

编辑整理|river

内容校对|李瑶

出品社区|DataFun


01

投放场景的问题分析

首先来剖析一下投放场景中的问题。

1. 用户价值在用户增长的作用

如何实现用户产品的增长,对于每个产品和业务来说都是非常重要的。早期比较经典的用户增长模型是 AARRR 模型,它强调的是通过获客快速抢占市场,但是随着用户流量红利逐渐消失,这种买量的方式越来越受到限制,所以大家逐渐转向了 RARRA 模型。RARRA 模型强调的是存量用户的激活和运营,在整个降本增效的大背景下,要去优化不同 stage 的 ROI,需要不断进行迭代和技术能力升级。

站在技术的视角,可以把增长模型分为两个技术阶段,分别是从外部获取新用户、持续激活新增和存量用户。这两个阶段的技术栈,本质上是根据用户状态进行展开的。上图的右上角的用户生命周期状态图,展示了对于不同状态用户进行分析和理解的用户模型。而用户价值建模,就是从用户价值的角度分析和理解用户的能力,它是非常底层的通用能力。在不同的业务增长环境当中,看清楚处于不同状态下的用户的价值,制定出合理的增长策略,才能实现增长的目标。

主要的应用场景包括:
  • 投放获客场景:通过 CLTV 建模预估不同渠道 cohort 粒度的 CLTV,得到每个渠道投放的 ROI,调整出价策略和预算分配策略。
  • 投放获客场景:通过 CLTV 建模得到⽤户粒度的 CLTV,在投放过程中对媒体流量进⾏筛选,提升买量效率和效果。
  • ⽣命周期运营场景:预估运营策略⼲预下的⽤户价值弹性,找到对运营策略敏感⼈群,叠加资源分配策略提升整体⼲预效果。

2. 用户增长中的用户价值定义

  • CLTV 的定义
CLTV(Costumer Lifetime Value)最早为市场营销领域的一个重要概念,表示的是用户在生命周期内为产品带来的收入总和。在⽤户增⻓实践过程中,⽤户时长、用户活跃等也可以被认为是⼀类⽤户价值。我们通常采用的建模目标是 SCV(nLTV),即用户在生命周期的某个 session 内的价值。
  • 客户资产的定义
CE(Costumer Equity)客户资产被定义为⼀组⽤户的 CLTV 总和。在⼀些场景下,客户资产最大化是产品的重要优化⽬标。例如:生命周期运营中,在有限的资源下,最大化运营⼲预下的⽤户活跃是最大化客户资产的任务之⼀。

3. 用户价值建模行业的工作

随着整个广告行业的发展,⾏业相关⼯作越来越多,主要围绕数据稀疏、数据不平衡、多分布等问题展开。从上图表格中可以看到,随着深度学习技术的发展,近年来的这些工作,都是围绕着用户价值相关问题展开的。

4. 投放场景下的问题分析和用户价值的应用

付费投放,是用户增长领域当中用于获客的最重要的手段。它是在多方博弈下对于公域流量的利用,多个参与方的目标并不是完全一致的,他们之间是互相博弈的关系。比如广告主的目标是希望通过合理的成本,最大限度地获取更高质量的用户;而作为广告平台,其目标是能够最大化广告流量曝光的收入,期望整体 GMV 越大越好;对于流量媒体,目标则是能够提升商业变现的效率,并且能够去保证用户体验不受到损害。在这样的博弈之下,三方会找到一个平衡的状态。

然而随着广告技术的发展,这个平衡其实是在动态变化的。作为媒体平台,渠道分布越来越割裂,用户的流量更多是分散在不同的渠道里面。作为广告主平台,希望通过数据的深度加工,更加自主地去提升投放的 ROI。但是面临着渠道割裂的情况,需要一个统一的对接方案来解决和优化。提升获客的 LTV 是提升 ROI 的关键抓手。

从上述 ROI 公式可以看出,CAC 优化中,降低出价可带来分母快速下降,但严重影响拿量能力。LTV 优化中,对媒体流量的优选是潜客拉新中投放端的最有效抓手。

5. 提升 LTV 的解决方案

随着⼴告平台、数据能⼒的⽀持和⾃身能⼒的不断探索,提升 LTV 的⼿段不断进化。

内容选品: 分析建模“品类”带来的人群 LTV 差异,优化投放品类。但也存在粒度太粗,数据稳定性差。

回传 LTV 建模:广告平台深度出价能力+浅层指标回传,实现“平台助力质量建模与优选”。存在的问题是行业统一建模,难以深入解决业务特有问题。

RTA(Realtime API):自主建模个性化 LTV 表征用户价值,并通过 RTA 实时流量优选/分层出价。实现方案统一,适合平台化。优势在于个性化粒度,自主灵活建模,具备 ABTest。

02

投放场景下用户价值建模实践

1. 大禹投放平台多业务用户价值建模实践

⼤禹投放平台是腾讯 PCG 内部的⼀站式⼴告投放平台,向 BG 范围内产品的增长业务线提供素材创意、广告投放、RTA 策略、效果分析等多维度的能力,让接入产品可以更低成本、高效率地落地广告投放业务。⼤禹投放平台已经服务于⼿机 QQ 浏览器、腾讯应用宝、全民K歌、腾讯动漫等⼗余个业务和产品,并且为这些业务的付费获客投放的 ROI 带来了巨⼤的提升。

然而,该平台也面临着一些挑战:
  • 业务众多:业务线多样化,商业模式差异也比较大;
  • 接入媒体渠道多样化:媒体渠道各种各样,数据分布和投放效果存在较大差异。
建模的基本问题主要分成两大类:一是如何选择建模目标,二是如何合理地评估建模的效果。主要问题包括:
  • 样本数据非常稀疏;
  • 样本存在多分布、多成分问题;
  • 如何合理利用多个渠道的投放数据。
2. 投放场景下 CLTV 建模目标选择问题

因为需要收集很多样本,所以样本等待时间比较长,这会导致我们的 AB test 观测周期也比较长,会影响迭代。因此,在 RTA 流量优选的这个场景下,我们一定要选择一个相对较短期的,才可以敏捷地迭代和建模。

选择 Pearson 相关性的这个方案去建模,并对自然新增流量的 LTV 数据,进行相关性分析。比如图中的例子,可以看到,LTV 14 这个指标和 LTV32、LTV120 这些指标的相关性都是比较高的。LTV 14 是一个相对比较符合预期的观测指标。综合来看,选择 LTV 14 作为建模目标。

3. 投放场景下 LTV 建模效果评估方法

⾏业⼤部分⼯作及我们针对渠道粒度 LTV 建模评估均采⽤ nMAE、nMAPE 评

估⽅法,但在投放应⽤场景中存在问题。因为偏差小,并不代表 LTV 价值的高低。流量优选场景下,LTV 建模更偏向于 Discrimination 问题,而不是 Calibration 问题。样本的 Ranking 比样本的精确值更重要。这里主要提供两种方法:
  • 方法 1:将头部 x% 的样本作为正样本,其它或末尾 y% 的样本作为负样本,评估 AUC。
  • 方法 2:采用 Normalized Gini Coefficient [Google ZILN 2019]。
当投放场景主要为头部高价值用户的筛选或出价时,需要补充关注头部用户的 Precise-Recall 等指标。

在指标评估之外,具体策略上线之前,还可以通过历史数据的趋势去决定策略。比如需要筛选用户流量,那么需要判断筛选多少低价的用户来达到预期的 LTV 提升。此时通过历史的数据回测,如果过滤 20% 的话,LTV14 可以提升的百分比例是符合预期的,就可以把策略上线 AB test。

4. 样本收集成本高带来的数据稀疏问题和解决思路

为提升个性化建模的准确性,在搜索和推荐场景中通常采⽤超⾼维⽤户特征和海量样本的⽅案。付费投放因为预算条件,获取海量样本⼏乎不可能。

可以通过预训练的方式去解决。

这里的解决方案是,用户价值是由多种因素或者因子去共同作用的,而某些因子属于用户特质。引入外部数据强化用户表达,某些因素的信息在业务间进行迁移。

5. 用户价值建模中的多成分多分布问题和解决思路

用户增值付费场景存在零值膨胀问题,即增值服务类产品 LTV 分布非常极端,付费用户占比极低,回归预测效果较差。

解决方案有两种,一是借鉴 ESMM 进行建模,将付费概率和金额进行级联建模;另一种是类似谷歌于 2019 年提出的,对付费期望进行建模。但该方法有个强烈的假设条件,即数据分布符合 log normal。但很多场景下不符合该条件,从微观角度来看,用户收入是由多种成分构成的,这就形成了多成分多分布问题。

这里可以参考两种优化方案:一种是类似快手 2022 提出来的 MDME 多分布 LTV 模型,通过分桶采样缓解样本稀疏和数据不平衡问题,增加 14 天的 LTV 和 30 天的偏序依赖约束进行建模;另一种方案是类似阿里在 2019 年提出来的贝叶斯子成分依赖模型,学习各个 LTV 子目标之间的关系。

6. 用户价值建模中的多渠道问题和解决思路

不同渠道采集到的用户数据的差异性在一些业务中是比较大的,无法直接复用,直接累加会存在数据冲突问题。对于我们的一大挑战就是如何复用。

这里提出一种解决方案是迁移学习。通过对齐分布,把业务需求和目标需求进行对齐,参考 DANN 的解决方案,增加域适应机制,通过梯度反转的方式将各种原业务样本的正向信息,迁移给到目标业务做建模,提升多个渠道之间的复用效率。

03

未来工作展望

未来的工作主要在两方面展开:预算分配策略优化与持续迭代用户价值模型。

首先,基于客户资产模型优化用户价值分层,通过渠道间预算分配策略达成客户资产最大化。比如,不同的价值用户采用不同的策略,如提升 profit、提升 ROI、提升规模等。

其次,持续迭代用户价值模型,从序准往值准优化,探索更精准的投放策略。

RTA 现在其实有很多高阶的能力,需要去进一步探索从序准往值准的优化,做更细粒度的投放策略,进一步优化投放效果。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


徐国强

腾讯

高级研究员

硕士毕业于南京大学,目前就职于腾讯(深圳)计算机有限公司,担任高级研究员,主要研究领域包括知识图谱、用户增长、因果推断等。从 19 年开始参与用户增长算法相关工作,近年来,深度参与了腾讯大禹投放中台建设,赋能用户增长获客提效,目前覆盖了手机 QQ 浏览器、应用宝、全民 K 歌等众多产品和业务。


优质原创文章

往期推荐


快手关于因果科学及其工业界应用落地

小米数据中台建设实践指南

货拉拉利用时空熵平衡提升营销效率的实践

小红书应对万亿社交网络关系的图存储实践

快手短视频强化学习与多任务推荐

百度视频推荐系统跨域多目标设计的双向奔赴之路

CVR 2023进展:Click-aware Structure Transfer with Sample Assignment

一线大厂数据产品经理成长之路

网易Apache Iceberg +Amoro 构建云原生湖仓探索

深度强化学习的风吹到了电网

坦白局!网易数帆解读 Apache Kyuubi 1.8 特性

美团 Doris Bitmap 精确去重优化实践

小米如何用数据智能驱动业务增长

B 站基于 StarRocks 构建大数据元仓和诊断系统

直播推荐

点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存