其他
Apache Spark在小米的生产实践
1. Multiple Catalog 落地与应用
2. Hive SQL 迁移 Spark SQL
3. 离线场景下 Spark 的稳定性与性能优化
4. 未来规划
5. 问答环节
分享嘉宾|蔡灿 小米 软件研发工程师
编辑整理|许通
内容校对|李瑶
出品社区|DataFun
01
源表名称和 Hive 表名称可能不一致,造成数据血缘异常 元数据二次存储,可能造成源表的 schema 变更在 Hive 表中无法实时感知 每一张表都需要手动注册,工作量巨大
2. Spark3 的元数据管理
Hive SQL 迁移 Spark SQL
2. 语法检测与数据一致性校验
3. 批量自动化升级
4. 升级过程中的典型问题
Use db create temporary view ... create temporary funtion ...
离线场景下 Spark 的稳定性与性能优化
1. 性能优化
2. 稳定性优化
未来规划
问答环节
分享嘉宾
INTRODUCTION
蔡灿
小米
软件研发工程师
现就职于小米,主要负责 Spark 稳定性、性能优化等相关工作。
往期推荐
Al Agent--大模型时代重要落地方向
基于因果推断的推荐系统:回顾和前瞻
当大语言模型遇见推荐系统
指标平台加速零售数字化转型--Kyligence Zen 智能一站式指标平台
大语言模型在开放世界中的推理能力探索实践
面向2026年的推荐算法前瞻
用户画像算法:历史、现状与未来
大模型在金融领域落地思路与实践
ETL原罪是什么?NoETL怎么搞?
点个在看你最好看