其他
网易数帆 指标中台构建核心技术解析
导读 本文将分享网易数帆在指标中台构建方面的实践。
主要围绕以下四个方面展开:1. 网易数帆大数据产品介绍
2. 网易数帆指标中台
3. 指标中台核心技术解析
4. 未来规划及展望
分享嘉宾|祝联新 网易数帆 指标中台技术负责人
编辑整理|李挺
内容校对|李瑶
出品社区|DataFun
1. 网易数据分析的发展历史
2. 网易 EasyData 产品矩阵
网易数帆指标中台
1. 为什么要构建指标中台?
指标口径不一致:常规数据质量问题统计中,约有 31% 涉及指标口径问题; 指标入口不统一:缺少一个企业级的统一消费入口,不知道从哪去找,拿到了不知道口径是否一致、是否可信; 指标价值难以量化:难以跟踪和量化指标的使用,报表开发成本涉及存储资源、计算资源、开发资源等多方投入,如果长时间无人访问,就是一种浪费; 指标开发效率低:指标开发涉及多部门、多角色协同,业务人员无法独立完成,数据分析团队成为指标开发的瓶颈; 重复计算大量消耗资源:大量的中间表计算冗余、复用度低等,涉及到分层设计加工; 指标质量差:问题溯源难度大,排查效率低;因为加工路径长,开发引入的问题占比超 60%,而且其中 90% 由业务先发现。
物化到业务库:由于 Hive 源数据和下游应用库分属不同团队管理,客户期望将指标中台的加工结果,物化到下游业务系统库; 指标目标管理:在指标计算的基础上,客户关注指标目标达成情况的在线查看、关联指标的进展查看等,需要考虑指标业务目标的管理能力; 统一调度引擎:企业内部已有成熟的调度平台,如 Apache DolphinScheduler 等,采用统一的调度平台可以方便指标上下游任务统一管理,使计算依赖管理成为可能,加快指标生产。
2. 网易数帆指标中台解决方案
指标中台核心技术解析
1. 构建跨数据源的统一逻辑语义模型层
屏蔽数据源差异:不同数据源的插件化扩展管理,构建 PF4J 库,实现可插拔式的插件式数据源管理模块; 逆向建模:基于现有物理表 DDL 能快速逆向建模出逻辑数据模型; 物化 DDL:建模出的逻辑数据模型,可以正向生成物化的 DDL,方便生成物理表。
2. 构建简洁高效的指标分析查询语言
AVG、COUNT、SUM 等 7 种聚合函数; AND、OR 等 10 种逻辑操作函数; +、-、*、%、ABS 等 11 种常用数据处理函数; 直接使用时间周期。
3. 构建统一指标查询语义层
4. 引擎解耦,灵活对接第三方引擎
未来规划及展望
深入指标应用场景:数据洞察、仪表盘、KPI 管理、指标地图等; 对接更多 BI 系统,打通生产到消费的完整链路; 支持更多的数据源,例如 Doris 等 MPP 数据源; 接入 AIGC,实现基于自然语言的指标查询。
分享嘉宾
INTRODUCTION
祝联新
网易数帆
指标中台技术负责人
从业十余年,有丰富的互联网业务系统和大数据平台架构建设经验。目前是网易杭研规范建模、数据质量、标签画像、指标中台相关系统技术负责人。
往期优质文章推荐
往期推荐
DataFun
点个在看你最好看