其他
快手数据成本白盒化治理实践
导读 本文介绍我们最近一年在大数据成本方面的白盒化治理实践,通过深入到引擎、数仓和工具,打开架构,进行拆解和分析,实现有深度的成本治理,同时也拿到了不错结果。
主要内容包括以下几个部分:1. 数据治理体系
2. 引擎白盒化
3. 数仓白盒化
4. 收益分析
5. 未来规划
分享嘉宾|冯赞锋 快手 大数据架构师
编辑整理|苏屿
内容校对|李瑶
出品社区|DataFun
数据治理体系
1. 效率
2. 安全
3. 质量
避免发生:在设计、开发、测试和验收环节,是否符合规范。 主动发现:出了问题之后,一定是我们自己先发现,而不是用户告诉我们。首先要做到监控覆盖全面,其次还要实现有效的告警,确认告警的有效率,是非常关键、也是最难的部分。 故障结果:各个级别故障数量,是否在预期范围内,我们对故障是容忍的,只要控制在一定数量内。 故障复盘:首先,复盘要足够深刻,抓住问题本质、找到共性。其次,复盘会产生很多待改进问题,这些问题是否被及时解决了。
4. 成本
存储成本:存储效率是白盒化的重点:压缩比、压缩性能、副本数。压缩比关注存储密度,压缩性能关注压缩耗时,副本数关注能否用较少的副本存储数据,确保数据不丢失。 计算成本:CPU 平均利用率衡量资源调度能力。如果调度能力不行,很容易出现负载不均,可能部分机器打满,另一部分却很空闲,导致集群整体利用率上不去。单 CU 处理数据量衡量引擎算力水平,随着我们不断去优化计算引擎,单 CU 处理的数据量也会随之升高。 流量成本
02
引擎白盒化
1. HBO 自动调参
2. 压缩算法替换
技术选型:湖仓的底层存储是 PARQUET + GZIP。 数据规模:新增 PB / 存量 EB。 数据读写:读写比大于 20:1,读取数据量远高于写入数据量,所以我们会更加关注解压性能,而压缩性能稍微差点,是可以接受的。 存储周期:很多数据存储周期比较长,甚至是永久存储,满足审计相关的需求,所以对于存储系统来说,压缩比永远是我们首要考虑的。
3. 引擎算子分析
03
数仓白盒化
1. 数仓架构度量
2. 如何减少重复计算
3. 如何降低链路层级
4. 常规治理自动化
04
收益分析
05
未来规划
分享嘉宾
INTRODUCTION
冯赞锋
快手
大数据架构师
先后就职于百度、创新工厂-豌豆荚、快手三家公司,主要擅长大数据中台构建、数据治理,在搜索、爬虫、后端服务开发等方向也有一定积累,目前在快手主要负责数据治理架构设计和开发工作。
往期推荐
音频表征大模型在QQ音乐歌曲冷启的应用与探索(更新版)
金融领域文档智能应用实践
基于 Native 技术加速 Spark 计算引擎
双核驱动的新质生产力,阿里云如何做?
阿里云大数据 AI 一体化最佳实践
无需等待:电商领域重排模型在线学习可以先于用户反馈
增强大模型智能:数学推理能力的提升策略与实践
Data+AI 一体架构的产品创新
点个在看你最好看
SPRING HAS ARRIVED