其他
数据网格到底是什么,它真的能替代数据仓库和数据湖吗?
对齐业务、技术和现在的分析数据
数据网格的每个业务单元承担分析数据的所有权和管理责任。这是因为离离数据最近的人最能理解存在哪些分析数据以及如何最好地解释这些数据。域名所有权导致分布式数据架构,其中数据工件——数据集、代码、 元数据和数据政策——由其相应的领域维护。
缩小分析数据与操作数据之间的差距
数据网格建议通过以产品形式共享的数据,缩小分析和运营两个层面之间的差距和反馈循环。数据网格在一个新结构下连接这两个层面——一个点对点连接的数据产品和应用的网络。
将数据更改本地化到业务领域
数据网格将变更本地化到各个领域,并赋予它们根据对业务的深入理解自主建模数据的权利,而无需中央协调单一的共享标准模型。
减少管道和数据复制的意外复杂性
数据网格通过创建一个新的架构单元即数据产品量子来解决传统集中式数据交换的复杂性,数据量子对其每种本地访问模式——SQL、文件、事件等——都有一套明确的合同和保证。在访问时对每个接口提供访问控制和政策执行。数据量子封装了转换和维护其数据的代码。数据管道被分解并成为数据量子逻辑的内部实现。数据量子在不需要中介管道的情况下共享数据。
消除集中式和单体瓶颈
数据网格采用点对点的方法来服务和消费数据。这种架构使得消费者能够直接发现和使用源数据产品中的数据。
减少数据管道的协调
现有架构基于组件的技术分解——即数据采集、处理、服务等管道任务。这种架构分解风格导致每当交付新的数据源或新的用例时,这些功能之间需要进行大量协调。数据网格摆脱了数据管理的技术分区,转向以领域为导向的分区。以领域为导向的数据产品独立于其他数据产品进行开发和演变。这种以领域为导向的分解减少了实现结果所需的协调。
减少数据治理的协调
数据治理的中央集中化和高度手动的流程抑制了数据共享的灵活性。数据网通过两个功能减少治理协调摩擦:第一、在每个数据产品中自动化和嵌入政策作为代码,第二、将治理的核心责任委托给各个领域的数据产品负责人。
通过数据平台抽象技术复杂性
数据网格批判性地审视现有的技术格局,并将技术解决方案重新构想 为一个数据产品开发者(或用户)-中心的平台。它旨在消除对数据专家的需求,使通才专家能够开发数据产品。
将产品思维嵌入各处
数据网格将我们的思维从将数据视为一个资产转变为将数据视为一个产品。它改变了我们衡量成功的方式,从数据量转向数据用户的满意度。
超越界限
数据量子提供了一组接口,允许任何拥有适当访问控制的人发现和使用数据产品,而不受其物理位置的限制。
数据基础设施(实用)平面:原子服务用于提供和管理物理资源,如存储、管道编排、计算等。
数据产品体验平面:更高级的抽象服务,直接与数据产品操作,使数据产品的生产者和消费者能够创建、访问和保护数据产品,以及其他在数据产品上运行的操作。
网格体验平面:在互联数据产品网络上运行的服务,例如搜索数据产品和观察它们之间的数据沿袭。
数据产品边车:边车是一个实现政策执行和其他需要在网络中标准化的数据产品方面的过程。它由平台提供。它与数据产品作为一个单元进行部署和运行。
数据产品计算容器:一种让平台将执行策略封装为一个可部署单元与数据产品的方法。为了简洁,我有时称之为数据容器。
控制端口:控制端口提供了一组标准接口来管理和控制数据产品的策略。下图显示了这些逻辑组件。理想情况下,平台提供并标准化与领域无关的组件,例如边车、控制端口实现以及输入和输出端口。
自治性:数据产品能够独立运行,不依赖中央控制。
领域导向:每个数据产品都代表特定的业务领域。
可发现性:用户能够轻松找到并理解数据产品。
可组合性:不同的数据产品可以组合以创造新的价值。
服务数据:提供多样化的数据访问方式。
消费数据:从各种源头获取数据。
转换数据:处理和分析数据。
发现与理解:让用户能够轻松找到并理解数据。
组合数据:将不同来源的数据整合。
生命周期管理:管理数据产品的整个生命周期。
观察与调试:监控数据产品的运行状况。
治理:确保数据的正确使用和管理。
多模态访问:提供多种数据格式和访问方式,如API、文件下载等,以满足不同用户的需求。
不可变性:一旦数据被创建,就不应被修改。这确保了分析的可重复性和数据的一致性。
双时态性:记录数据的实际发生时间和处理时间。这对于时间序列分析和数据溯源至关重要。
只读访问:用户只能读取数据,不能直接修改,以保证数据完整性。
多源支持:能够从操作系统、其他数据产品、外部API等多种源头获取数据。
跨环境消费:支持在不同环境(如云端和本地)之间获取数据。
输入端口:设计标准化的输入接口,便于管理和扩展。
灵活性:支持编程式(如使用Python、Java)和声明式(如SQL)转换方法。
可扩展性:允许轻松添加新的转换逻辑。
版本控制:对转换逻辑进行版本管理,确保可追溯性。
元数据管理:提供详细的数据字典、数据谱系和质量指标。
搜索功能:实现强大的搜索能力,支持关键词、标签和语义搜索。
示例和文档:提供数据使用的示例代码和详细文档。
标准化接口:定义标准的数据交换格式和协议。
语义互操作性:使用共同的数据模型和术语。
版本兼容性:确保不同版本的数据产品可以协同工作。
基本信息:名称、版本、所有者等。
数据模型:详细的数据结构和关系。
访问控制:定义谁可以访问数据及如何访问。
质量SLA:承诺的数据质量指标。
嵌入式策略:将数据访问、隐私保护等策略直接编码到数据产品中。
审计跟踪:记录所有数据访问和使用情况。
合规性检查:自动检查是否符合相关法规。
日志:详细记录数据处理和访问活动。
指标:实时监控关键性能指标。
跟踪:跟踪数据在整个系统中的流动路径。
去中心化:避免单点控制,提高系统弹性。
标准化:确保互操作性,但不牺牲灵活性。
时间敏感:重视数据的时间维度,支持时间序列分析。
可扩展性:设计应该支持轻松添加新功能和数据源。
自治性:数据产品应能自我管理和监控。
不可变性:保证数据的一致性和可追溯性。
多模态:支持多种数据访问方式,满足diverse用户需求。
组织复杂度:数据源和用例的数量和多样性
数据导向的战略:是否将数据作为战略差异化因素
高层支持:是否有高管层面的支持和投入
数据技术成熟度:是否将数据技术视为核心能力
创新文化:是否属于早期采用者类型
工程实践:是否具备现代化的软件工程实践
领域导向的组织结构:是否已经按业务领域组织团队
从互补的用例开始
了解并优先考虑数据消费者和提供者角色
从对平台缺失功能依赖最小的用例开始
创建平台服务和数据产品的长期拥有权和预算管理
探索阶段:选择1-2个领域进行试点,建立基础概念和实践
扩展阶段:将成功经验推广到更多领域,完善平台能力
提取阶段:优化和巩固已有成果,实现规模化效益
数据产品数量: 少量(Small number of DPs)
数据产品功能: 基本功能(Essential affordances)
开发重点: 制定标准和合理做法(Set standards, sensible practices)
数据产品类型: 低风险(安全性、可靠性)(Low risk (security, reliability))
数据产品角色: 主要是源对齐的(Majority source-aligned)
数据产品数量: 大量快速增长(Large number of DPs rapidly growing)
数据产品功能: 为快速开发提供大多数功能(Most affordances for rapid DP dev)
开发重点: 支持多样性(Support diversity)
数据产品类型: 高风险(High risk)
数据产品角色: 包括所有类型,包括聚合数据(All including aggregates)
数据产品数量: 趋于稳定(Number of DPs stabilizing)
数据产品功能: 所有功能都为弹性而设计(All affordances for resilience)
开发重点: 优化数据产品(Optimize data products)
数据产品类型: 遗留系统(Legacy)
数据产品角色: 主要是消费者对齐的(Majority consumer-aligned)
领域所有权:参与数据产品开发的领域数量和数据产品使用的增长率
数据即产品:数据产品的使用率、用户满意度和数据质量指标
自助服务平台:数据产品开发周期、平台服务的采用率
联邦计算治理:自动化策略的覆盖率、跨领域数据连接的数量
数据责任共担:每个团队都对自己的数据负责
跨界数据连接:鼓励跨领域的数据共享和集成
用户中心:以数据消费者的需求为导向设计数据产品
自主与协作:平衡本地自主性和全局一致性
持续变革:构建能适应变化、持久和独立的数据产品
自动化优先:通过自动化提高数据共享的速度和质量
领域数据产品团队:作为流式对齐团队,负责特定业务领域的数据产品开发和维护
数据平台团队:作为平台团队,提供自助服务平台,支持数据产品的开发和运营
联邦治理团队:作为赋能团队,制定全局策略和标准,协调跨领域合作
数据产品负责人:负责数据产品的愿景、路线图和价值交付
领域数据产品开发者:负责数据产品的技术实现和运维
平台产品负责人:负责数据平台的用户体验和功能优先级
为所有人提供基础数据分析和可视化培训
为技术人员提供数据建模、数据质量管理等专业培训
为管理者提供数据战略和数据治理的培训
详解大厂实时数仓建设 2203
数仓的建模和BI的建模有啥区别?2388
一图看懂数据仓库、数据平台、数据中台、数据湖的内涵和区别! 3060
常见数据同步工具之实时同步 2640
那一年,为了进阿里背过的SQL题 3431