其他
湖仓一体(Lakehouse)——新的大数据架构模式
湖仓一体的架构是怎样的? 湖仓一体架构特点和优势 湖仓一体架构应用场景
01
—
湖仓一体的架构是怎样的?
Lakehouse 是一种新的架构模式,简单理解它有存储层和计算层组成的。如下图所示:
存储层的构成
云存储:作为数据湖和Lakehouse平台的基础设施,云存储提供了必要的高可用性、持久性和可扩展性。无论是使用S3、OSS还是本地HDFS,云存储都是实现Lakehouse的理想选择,特别是考虑到成本效益、计算与存储分离以及易于扩展等因素。 开放的文件格式:Lakehouse支持多种数据文件格式,如CSV、JSON和XML。对于分析平台,Apache Parquet、Apache ORC和Apache AVRO这三种列式存储格式因其开源特性和广泛的兼容性而受到青睐。 开放的表格式:Lakehouse支持多种表存储格式,包括Apache Iceberg、Apache Hudi和Delta Lake。这些格式不仅支持时间回溯和schema推演,还提供了SQL查询、ACID事务保证等高级功能。
云存储的优势
成本效益:云服务通常按需计费,有助于降低存储成本。 计算与存储分离:这种分离架构允许独立扩展存储和计算资源,提高资源利用率。 易于扩展:云存储的弹性扩展能力保证了数据存储的灵活性和可扩展性。
开放文件格式
兼容性:许多存储和处理引擎都支持这些格式,确保了数据处理的灵活性。 列式存储:优化了查询性能和存储效率,尤其适用于分析型工作负载。
开放表格式的功能
时间回溯:能够查询数据的历史版本。
schema推演:支持数据模式的动态变更。
高级功能:如ACID事务、审计跟踪等,提高了数据的可靠性和安全性。
计算层的特点
计算引擎的多样性
Spark:支持批处理和微批处理,适用于复杂的数据分析。 Flink:专为流批一体低延迟数据处理设计,实现低延时、复杂的数据分析。 Trino(原PrestoSQL):一个高性能、分布式的SQL查询引擎。 Hive:提供了一种通过SQL进行数据查询和分析的能力。
W inQ SPL:支持高性能的批量处理,和高并发的复杂数据分析查询引擎。 W inQ flow: 支持批处理和微批处理,适用于复杂的数据分析,并支持高性能的数据查询引擎。
管理和服务层的构成
2、数据虚拟化管理:数据虚拟化是一种数据管理技术,它允许用户通过统一的接口访问多个分散的数据源,而无需物理地将数据集中或复制。通过统一的数据接口管理支持数据服务、科学计算、机器学习、联邦查询等多种应用场景。
02
—
湖仓一体的架构具有以下的架构特点:
事务支持:湖仓一体架构提供了对ACID事务的支持,确保了数据的一致性和可靠性。 Schema管理:支持对数据结构的严格管理,允许数据模式的演进,同时保持数据治理。 BI工具支持:可以直接在原始数据上使用BI工具,减少了数据转换和复制的需要。 存算分离:存储和计算能力可以独立扩展,适应不同的业务需求。 开放性:使用开放和标准化的数据格式如Parquet,支持多种工具和引擎直接访问数据。 多样化数据支持:能够存储和处理从非结构化到结构化的各类数据。 多工作负载支持:支持数据科学、机器学习、AIGC以及SQL和分析等多种工作负载。
这种架构特点和其它传统的大数据平台有以下几个方面的优势:
简化数据架构:通过统一数据存储,避免了数据在不同系统间的迁移和转换,降低了数据管理的复杂性。 提高数据利用率:由于数据的集中存储和统一管理,提高了数据的可访问性和分析效率。 降低成本:利用云存储的低成本特性,减少了数据存储和处理的成本。 加速创新:开放的架构支持快速集成新技术,加速了企业数据应用的创新和迭代。
03
—
大数据分析:处理和分析大规模数据集,提供深入的业务洞察。 实时数据处理:支持实时数据流的处理和分析,满足即时决策需求。 机器学习和人工智能:提供数据科学家和AI工程师所需的数据基础,支持模型训练和部署。 数据集成和联邦查询:简化来自不同数据源的数据集成,实现联邦查询和统一视图。
欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,商务合作加微信备注商务合作,AIGC应用开发交流入群备注AIGC应用
往期数据平台历史热门文章:
基于DataOps的数据开发治理:实现数据流程的自动化和规范化
往期AIGC历史热门文章:
往期数据资产入表热门文章: