其他
Alluxio:面向 AI 计算的高性能数据访问平台
导读 随着技术发展,涌现出很多不同的数据架构,比如数据湖、湖仓一体、Data Fabric、Data Mesh 等,都是当前业界前沿的数据架构。本文将介绍目前主流的大数据技术栈和企业数据平台架构的最新发展趋势,并介绍Alluxio 产品所能带来的价值。
主要内容包括三大部分:1. 大数据技术栈、企业数据平台趋势、Alluxio 架构定位
2. Alluxio 典型应用场景及核心能力
3. Alluxio 全球客户案例分析
分享嘉宾|张青锋
编辑整理|韩松
内容校对|李瑶
出品社区|DataFun
01
存算分离架构
云原生技术应用
数据湖/湖仓一体、MPP/云原生数据库架构演进
数据编织/Data Fabric 数据编织的核心是提供数据架构各结点之间的点对点的连接,数据结点可以是一个数据源,可以是存储系统,也可以是内外部的应用程序等。Data fabric 要实现将现有数据管理系统和应用系统编织在一起,提供可重用的 Pipeline 服务。这种 Pipeline 服务类似传统的 ETL 处理流程,涵盖数据集成、访问、转换、建模、可视化、治理和交付等。偏传统 ETL 方式的集成架构,Data Fabric ETL/CDC、DataOps。 数据编排/Data Orchestration 数据编排和数据编织只差了一个字,非常容易混淆。数据编排的核心是要提供跨异构存储系统的全局统一命名空间以拉通不同存储的数据,屏蔽底层存储系统的技术差异及安全框架集成的复杂性。面向上层数据计算提供统一的数据访问接口(API)以支持应用层进行灵活的数据编排、数据编织、数据虚拟化、数据网格应用。另外,通过缓存加速、策略化数据管理等方式提升数据访问/编排的效率。数据编排是介于存储计算之间的中间层设计,代表厂商有 Alluxio。 数据虚拟化/Data Virtualization 数据虚拟化是一种新的数据集成策略,物理上不将数据移至新的位置,而是提供整合式的虚拟视图,源数据则保留在原处。可以建立企业数据访问层,提供对组织所有关键数据源的通用访问,在需要访问数据时,业务用户可以查询数据虚拟化层。同时提供数据连接、发现、转化、准备、交付、发布、治理等操作。核心是基于元数据层构建轻量化的虚拟数据层,管理的是元数据,数据还是停留在原来的物理数据源。代表厂商有 Denodo。 数据网格/Data Mesh 数据网格目前还处于一个快速发展的初级阶段,还没有一些代表的厂商或产品,更多的是一种前沿的数据管理的架构思想。数据网格有四个基本的建设原则,分散数据所有权、数据即产品、自助数据的基础设施以及联合治理。其核心是去中心化的数据架构设计,通过将系统划分为由较小的职能团队管理各自的数据,来实现整体的数据管理,解决大型、复杂、单体数据架构问题。
数据的趋势 每天产生越来越多的数据,存放在不同的存储中,形成了数据孤岛。 还会增加越来越多的人、越来越多的团队,以不同的方式、不同的 API、不同的业务角度使用这些数据,而且需要在这些数据之间做共享和分享。 近年来技术栈发展速度非常快,平均 3—8 年就会创造出新的计算引擎和存储技术。 繁杂的平台 从 Spark 到 Presto,再到向量化的计算引擎、流式计算的引擎、存算一体的引擎,很多新技术不断涌现,使得传统的数据共享、数据复制、数据同步成本越来越高。 随着不同的计算引擎和存储引擎的推出,应用需要非常频繁地去适应各种 API 以及系统集成的改造。 存算分离架构发展,本地集群、公有云、混合云和多云环境特性各不相同,也带来了很大的挑战。
一是混合云或多云部署,云上应用需要访问本地数据或者本地应用需要访问云上数据。 二是采用新的数据架构,这种架构可以适应数据位于本地或多云环境,或者采用数据湖、数据编织、数据虚拟化等新技术。 三是平台扩展/增加新的应用,搭建新的数据驱动型应用需要访问位于不同位置的数据,同时扩展平台支撑新的应用团队。 四是从旧有系统迁移,从传统 Hadoop 架构迁移到能够原生支持云环境的现代数据栈(对象存储、数据湖、云原生数据库)。
统一命名空间:拉通跨区域、跨异构技术栈的不同存储系统,实现存储系统的统一数据视图。 统一数据访问:针对计算层提供统一的 API 接口转换及访问。 统一缓存加速:部署缓存应用需要的热数据,让数据离计算层更近,从而提升计算的整体性能,并节省计算跟存储之间的带宽。 统一安全管理:编排层可以针对计算层屏蔽不同底层存储的安全认证机制,降低安全集成的复杂性,构建统一的安全管理机制。
Alluxio 典型应用场景及核心能力
单一部署 可以基于本地也可以基于公有云,比如本地有一个大数据集群使用 Hadoop、Presto,或者是单一的公有云,比如 AWS 上的 S3 集群,上面跑 TensorFlow。Alluxio 在这样单一的环境中可以提供上述四个统一的能力。 混合云部署 现在很多企业可能面临一些服务在本地集群,一些在云上。在公有云和本地部署之间,Alluxio 可以实现数据拉通、存储拉通,并实现统一的访问。 跨数据中心/多云部署 更复杂的情况就是跨数据中心、跨多云的部署,既有本地的数据中心,又有跨不同公有云的数据,Alluxio 在这种架构下也可以实现数据的统一编排和统一访问。
Alluxio 全球客户案例分析
存储集成 基于 Alluxio 提供的统一全局命名空间,整合了不同区域的远程数据,所有的远程数据都可以挂载到 Alluxio 命名空间,这样就不需要将数据从多个存储孤岛复制到主数据源。 计算集成 集成了原来数据平台上的 Databricks、Hive、Jupyter 等计算引擎,现在所有计算引擎只需要与 Alluxio 对话,不再需要从远程数据湖中获取数据。 Catalog 集成 集成 Waggle Dance 作为 Hive Metastore 转换服务,如果表数据存储在远程会将表路径转换为 Alluxio URI。Hive、Spark、Trino 或 Databricks 执行的 SQL 查询都指向指定位置的同一目录。
往期推荐
Alluxio 在携程大数据平台的探索与优化
GraphGPT: 大语言模型的图结构指令微调
锁定营销敏感人群:因果推断在智能营销中的关键作用
B 站的数据治理运营框架实践「 内有案例分享 」
云器Lakehouse:Multi-Cluster弹性架构如何实现湖上高并发低延迟分析
大模型百度数据科学领域典型应用
ClickHouse 在 58 同城画像系统的应用
华为实时入湖 Hudi 应用解决方案
京东物流面向一线业务的敏捷 BI 实践
点个在看你最好看
SPRING HAS ARRIVED