其他
知乎 DMP/CDP 平台的应用和实践
导读 本文将分享知乎舰桥平台的研发背景、组成部分,以及它是如何解决业务问题的。文中还将详细介绍 DMP/CDP 落地中遇到的难点和解决方案。
主要内容包括以下四大部分:1. 背景介绍
2. 架构和设计
3. 难点与解决方案
4. 未来展望
分享嘉宾|侯容 知乎 舰桥平台研发 Leader
编辑整理|余凡
内容校对|李瑶
出品社区|DataFun
01
背景介绍
1. 业务背景
2. 舰桥平台的能力地图
内容运营平台 内容池:提供配置化的内容池能力,解决内容的推荐、搜索召回源和粗排场景,提高策略建设和优化的效率。 内容榜单:生成和输出各类头部的内容和创作者的榜单,以展示优质内容和创作者。 内容管理:管理内容从筛选、打包到导出、协作、审批、分享的全流程,确保内容质量和快速响应。 内容干预:通过强插、提权、扶持、鼓励等手段对内容进行干预,以及进行场景化运营。 内部营销平台 核心是通过活动手段激发用户参与,包括 CDP(客户数据平台)的使用,营销内容池的管理,内部投放平台的优化,以及活动平台的构建。 创作者运营平台 专注于创作者的管理,包括社区 CRM(客户关系管理),创作者挖掘、孵化和促活等。 数据中心 包括 DMP 负责人群选择、人群洞察等能力,同时也包含数据分析能力,包括生态分析、领域分析和效果分析等。 分层运营平台 根据用户特征、需求或行为进行精细化运营和分层管理。
架构和设计
信息流广告投放或信息流投放:核心逻辑涉及判断特定用户行为或特征是否匹配预设的人群包。一旦匹配成功,系统将匹配的所有广告内容按照转化进行排序或者针对扶持的内容按照扶持得分排序,以确保广告能够精准触达目标用户群体。 内部投放(包遍历):此类型调用涉及对内部构建的人群包进行遍历。通过这一过程,完成对用户的投放触达,并能根据投放效果积累基础转化的数据,支持数据挖掘和用户画像构建,为后续的业务投放策略提供有力支持。 内部人群包外部投放:这一类型将内部精心构建的人群包用于外部广告平台。通过与外部广告平台的数据对接和投放策略调整,我们能够充分利用这些人群包的优势,实现广告在更广泛范围内的精准投放,提升广告效果。
人群定向 首先,系统需要能够快速计算并预估在特定标签下的人群数量。 在预估人数之后,系统要能够根据用户选定的标签和条件,精确地圈选出目标人群,并将这些人群组合成一个可管理的“包”概念。 人群洞察 构成分析:系统需要能够深入分析构成特定人群的用户特征,如年龄、性别、兴趣等,以理解这些人群的基本属性和行为模式。 对比分析:在投放广告或内容后,系统需要能够追踪并分析用户的点击、转化等行为数据。通过对比不同人群在相同投放策略下的表现,识别出哪些人群对广告或内容更感兴趣,哪些人群更容易产生转化。这种对比分析有助于优化未来的投放策略,提升投放效果。 ID Mapping 在跨平台或跨系统投放时,不同系统可能使用不同格式的 ID 来标识用户,同时相关 ID 也只能使用密文传输。因此,系统需要能够支持大小写 ID 的转化和不同的摘要算法,通过关联导出和上传碰撞的方式,确保在不同家公司之间传递身份的一致性。 特征接入 包括实时接入和离线的接入。
基于 Spark 的离线特征计算与写入:利用 Spark 进行日级别和周级别的计算,提取和生成关键特征;将这些计算得到的特征写入中间通用节点的离线 mapping,为后续的数据处理和用户画像构建提供基础。 基于 Flink 的实时特征抽取与写入:Flink 实时处理系统用于捕获和处理今日的新增用户数据,如 ODA 用户(即一次性访问用户)或冷启动新用户;今日新增的各种用户特征会被实时抽取,并通过 Kafka 进行流式处理,完成实时的 mapping 操作。
首先,是标签的筛选与优化。通过标签搜索功能精准定位目标用户,例如母婴高转化人群,需要细致选择标签,如一线城市、女性、年轻等。接着,对潜在投放规模进行快速预估,如设定 200 万的投放预算。通过不断尝试添加或移除标签,观察投放效果的变化,从而优化标签组合,直至完成目标人群的精准圈选。 其次,是人群包的生成与泛化。此过程涉及收集站内历史表现良好的用户包,并利用这些数据进行模型训练。具体操作为,将用户 ID 与知乎平台上的所有相关特征进行关联,利用这些特征数据训练模型。随后,将训练好的模型应用于全站用户,为每个用户生成智能评分,从而形成一个全站用户智能评分模型。在此基础上,对模型进行泛化,生成代表不同评分段的全站人群标签,如 50 分、80 分、90 分的用户群体。销售投放团队可根据实际业务需求,选择不同的人群包进行投放试验,并根据效果反馈调整策略。
03
难点与解决方案
未来展望
分享嘉宾
INTRODUCTION
侯容
知乎
舰桥平台研发 Leader
知乎舰桥平台研发 Leader,知乎舰桥平台是:面向内容运营、用户运营、活动运营、创作者运营、场景运营(热点&热榜&话题&推送等)、生态分析等业务场景搭建的一站式平台。其中包含内容&用户管理和运营平台、内部营销平台(活动引擎&搭建&分析&投放平台)、内部投放和资源管理平台、创作者管理平台、DMP 平台、内容池平台、经营分析平台、场景运营平台等等,全方位赋能业务运营和业务发展。
往期推荐
Alluxio:面向 AI 计算的高性能数据访问平台
基于深度学习多实验叠加效果因果推断
Alluxio 在携程大数据平台的探索与优化
GraphGPT: 大语言模型的图结构指令微调
锁定营销敏感人群:因果推断在智能营销中的关键作用
B 站的数据治理运营框架实践「 内有案例分享 」
云器Lakehouse:Multi-Cluster弹性架构如何实现湖上高并发低延迟分析
大模型百度数据科学领域典型应用
ClickHouse 在 58 同城画像系统的应用
点个在看你最好看
SPRING HAS ARRIVED