其他
ClickHouse 在 58 同城画像系统的应用
导读 本文将分享 58 同城利用 ClickHouse 搭建用户画像平台的架构实践。
主要包括以下三大部分:1. 58 画像系统业务简介
2. ClickHouse 实践
3. 成果与展望
分享嘉宾|马建彪 58同城 资深数据研发工程师
编辑整理|辛颖
内容校对|李瑶
出品社区|DataFun
01
1. 画像系统的定位
2. 画像系统的核心功能
标签生产:提供快速上线标签的能力,将已加工好的标签发布到万象系统中,形成公司资产。 标签市场:是对已接入到万象系统中的标签的知识管理,包括数据来源,加工口径,以及标签在业务中应用效果的跟踪。 标签运维:对标签进行上线、下线的状态管理,以及对标签支持的应用场景管理。
人群统计:获取满足人群组合的集合基数,可以辅助投放分析,进而确定投放的成本。 人群分析:对目标人群按指定标签维度进行分布分析和 TGI 分析,辅助业务人员了解目标人群的情况。 人群圈选:是将满足条件组合的用户集合以文件的形式导出形成人群包。
3. 用户画像系统的挑战
平台累计用户量级巨大; 标签数量庞大; 标签来源数据表多。
支持上千个标签的任意组合的圈选分析; 支持标签新增和下线; 支持单个数据表(部分标签)的更新; 支持单值、多种、数值、文本等多种标签类型。
支持 1s 左右的人群精准统计; 支持 3s 左右的人群分析; 支持覆盖 1 亿+用户的人群包以及每小时 1 万以上的吞吐量的人群圈选能力; 标签数据接入存在 SLA 限制。
ClickHouse 实践
1. 为什么选择 ClickHouse
2. ClickHouse 应用架构设计
显式合并相同标签值的位图; 通过 with 子句将目标群体声明成一个标量,以加速与运算; 按标签聚合,取每个标签下覆盖用户的 Top N, 使用 cluster、view 表函数实现分布式计算。
3. ClickHouse 优化
用户画像系统的成果与展望
1. 服务效果
2. 用户画像系统后续规划
优化查询架构,减少本地节点频繁建立连接的问题。 支持明细数据、实时数据的综合分析能力。 打造全面的数据应用、效果、分析的闭环。
分享嘉宾
INTRODUCTION
马建彪
58同城
资深数据研发工程师
往期推荐
京东物流面向一线业务的敏捷 BI 实践
当大模型遇见因果推断!
大模型时代下,基于湖仓一体的数据智能新范式
数字经济时代,元数据驱动的数据治理还重要吗?
微信全局因果作用估计实践
基于因果的机器学习及银行业应用
20 分钟带你搞懂 LLMOps !!
一文带你掌握AB实验最佳流程 ! ! !
免费下载:《数据湖应用架构与MySQL数据库电子书领取》
点个在看你最好看
SPRING HAS ARRIVED