其他
开源大数据 OLAP 的思考及最佳实践
导读 本文将介绍开源 OLAP 及其在不同场景下的需求。文章将从 EMR 的角度,简要介绍 OLAP 的数据架构。并重点讲解 StarRocks 的核心功能和后续发展规划。
本次分享主要分为以下五个部分:1. 开源 OLAP 综述
2. OLAP 场景思考
3. 开源数据湖/流式数仓解决方案
4. StarRocks 介绍
5. 未来规划
分享嘉宾|周康 阿里云 技术专家
编辑整理|徐纯根
内容校对|李瑶
出品社区|DataFun
开源 OLAP 综述
OLAP 场景思考
开源数据湖/流式数仓解决方案
StarRocks 介绍
高查询性能:StarRocks 以其卓越的查询性能脱颖而出,能够迅速返回查询结果,满足用户对实时数据的需求。 高效数据导入:StarRocks 在数据导入方面表现出色,具有较高的吞吐量和较小的延迟,能够保证数据的快速导入和同步。 良好的并发支持:StarRocks 具备强大的并发处理能力,可支持多个并发任务同时进行,提高系统性能和利用率。 丰富的数据模型:StarRocks 提供了多样化的数据模型,便于进行多维数据分析。用户可以根据实际需求,选择合适的数据模型进行数据处理和分析。
避免性能瓶颈:全面向量化引擎在 Shuffle 和 Join 等环节都能高效处理数据,避免了单一环节成为性能瓶颈。 更高的查询性能:通过引入向量化技术,StarRocks 在核心计算环节相对于传统引擎有显著优势。例如,虚函数调用和 CPU 调度等操作都能实现高效优化。 优化系统资源利用:全面向量化引擎能够更充分地利用系统资源,进一步提高整体性能。
引入主键索引:在导入数据时,StarRocks 首先创建主键索引,以便知道写入的 key 在哪个历史文件中。基于这个信息,可以更新 DELETE 信息以避免无效查询。 高效的实现:尽管引入了主键索引,但 StarRocks 保证了写入性能不会受到太大影响。这是因为主键索引的实现较为高效,整体上与传统导入方式的速度差距不大。 查询性能优化:由于有了 deliver vector 信息,StarRocks 无需进行排序合并。同时,谓词可以进行下推,进一步提高查询性能。 物化视图:StarRocks 从 2.5 版本开始,对物化视图的支持较为完备。物化视图可以大幅提高实时分析的性能,尤其是针对增量数据。
未来规划
存储和计算分离:这是 StarRocks 3.x 版本的核心优化之一。 Lake House:StarRocks 3.x 版本将支持硬字联合力,使得在存储和计算分离的基础上,实现多仓库、多作业的能力变得更加便捷。此外,针对 ETL 场景,StarRocks 也在不断优化和完善产品自身能力。 场景优化:去年,StarRocks 重点关注了 Big House 场景,并已实现较为成熟的能力。目前,许多客户正在使用这一场景。建议关注这一场景的用户进行尝试。 ETL 能力优化:StarRocks 针对算落盘等场景进行了重点优化,并支持增量物化视图。实时更新物化视图的同时,导入端也实现了统一。 简化用户体验:StarRocks 致力于简化导入方式,降低用户学习成本。针对不同场景,StarRocks 提供了相应的导入方式。例如,Snowflake 在这方面做得非常好,StarRocks 也将借鉴其经验,优化用户体验。 半结构化数据类型支持:针对数据库场景,StarRocks 3.x 版本增加了对半结构化数据类型的支持,以满足此类场景用户的需求。
分享嘉宾
INTRODUCTION
周康
阿里云
技术专家
阿里云计算平台开源大数据技术专家,StarRocks Committer,负责 EMR OLAP 产品研发,包括 StarRocks、ClickHouse、Presto(Trino)等开源组件。曾参与基于开源组件构建的分布式调度平台、分布式计算平台、数据分析平台的建设。
课程推荐
往期推荐
点个在看你最好看