其他
知乎热议:数据仓库、数据湖、湖仓一体,究竟有什么区别?
一、基本概念
1.1数仓发展历史
1.2数据湖、数据仓、湖仓一体发展历程
1.3数据湖
保真性,有一份业务原始数据,对业务数据一模一样完整拷贝。 灵活性,读取型schema,数据逻辑处理延后 可管理,数据管理能力,包括数据源、数据连接、数据格式、数据schema(库/表/列/行),权限等。 可追溯,数据生命周期管理,定义、接入、存储、处理、分析、应用全过程,可清楚重现数据完整产生过程和流动过程。 丰富计算引擎,批处理+流式技术+交互式分析+机器学习。 多模态的存储引擎
1.4数据湖与数据仓库对比
二、阿里大数据治理平台
2.1产品架构
全面托管的调度 DataWorks提供强大的调度功能,详情请参见调度配置。 支持根据时间、依赖关系,进行任务触发的机制。详情请参见时间属性配置说明和配置同周期调度依赖。 支持每日千万级别大规模周期性任务调度,其将根据DAG关系准确、准时地运行。 支持分钟、小时、天、周、月、年多种调度周期配置。
完全托管的服务,无需关心调度的服务器资源问题。 提供隔离功能,确保不同租户之间的任务不会相互影响。 DataWorks提供丰富的节点类型,详情可参考:选择数据开发节点。全面的引擎能力封装,让您无需接触复杂的引擎命令行。并提供自定义节点插件化机制,支持您扩展计算任务类型,自主接入自定义计算服务,同时,支持您结合DataWorks其他节点进行复杂数据处理。 数据集成:依托DataWorks中数据集成的强力支撑,支持超过20种数据源,为您提供稳定高效的数据传输功能。详情请参见数据集成。 数据转化: 依托引擎强大的能力,保证了大数据的分析处理性能。例如:创建ODPS SQL节点、ODPS Spark、EMR Hive、EMR MR等节点。 提供通用类型节点,,结合引擎节点可实现复杂数据分析处理过程。例如:赋值节点、do-while、for-each等节点。 支持自定义节点,通过自定义计算服务进行数据开发。关于自定义节点配置详情,可参考文档:概述。 可视化开发DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。详情请参见界面功能点介绍。只要有浏览器有网络,您即可随时随地进行开发工作。 监控告警运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况,详情请参见运维中心。您可以方便地配置各类报警方式,任务发生错误可及时通知相关人员,保证业务正常运行。详情请参见智能监控。
2.2功能介绍
切分键,切分源端数据;并发数小于DMU两倍。 资源单位DMU,为完成同步需要占用的CPU、内存、网络资源 任务DMU<=5,并发资源数<=10 自定义资源组,独占资源,利用专线+独占资源=提高速度
大幅提升工作效率
非技术人员1~2小时即可掌握完整的数据研发流程 无需维护各类开源技术栈,释放更多人力专注于业务
支持顺序、循环、分支、判断等节点类型 支持跨引擎、跨地域、跨周期的任务调度
高效的多人协同任务开发模式 规范且安全的任务发布上线流程
2.3应用场景
资源优化:帮您节省计算、存储费用 移动运维:轻松搞定任务运维 运行诊断:为您快速定位疑难问题 智能监控:提高生产力,更加智慧的告警处理方式 字段级数据血缘:快速定位脏数据源头 多种控制节点:满足复杂业务场景逻辑 数据保护伞:进行数据安全保障 实时流计算开发:极大降低新技术使用门槛
三、华为数据湖治理中心- DGC
3.1产品架构
管理中心,提供DGC数据连接管理的能力,将DGC与数据湖底座进行对接,用于数据开发与数据治理等活动。 数据集成之批量数据迁移,批量数据迁移提供20+简单易用的迁移能力和多种数据源到数据湖的集成能力,全向导式配置和管理,支持单表、整库、增量、周期性数据集成。 数据集成之实时数据集成,实时数据接入为处理或分析流数据的自定义应用程序构建数据流管道,主要解决云服务外的数据实时传输到云服务内的问题。实时数据接入每小时可从数十万种数据源(例如日志和定位日志事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。 规范设计,作为数据治理的一个核心模块,承担数据治理过程中的数据加工并业务化的功能,提供智能数据规划、自定义主题数据模型、统一数据标准、可视化数据建模、标注数据标签等功能,有利于改善数据质量,有效支撑经营决策。 数据开发,大数据开发环境,降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。支持数据建模、数据集成、脚本开发、工作流编排等操作,轻松完成整个数据的处理分析流程。 数据质量,数据全生命周期管控,数据处理全流程质量监控,异常事件实时通知。 数据资产,提供企业级的元数据管理,厘清信息资产。通过数据地图,实现数据资产的数据血缘和数据全景可视,提供数据智能搜索和运营监控。 数据服务,数据服务定位于标准化的数据服务平台,提供一站式数据服务开发、测试部署能力,实现数据服务敏捷响应,降低数据获取难度,提升数据消费体验和效率,最终实现数据资产的变现。 数据安全,数据安全为数据湖治理中心提供数据生命周期内统一的数据使用保护能力。通过敏感数据识别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储、数据风险识别以及合规审计等措施,帮助用户建立安全预警机制,增强整体安全防护能力,让数据可用不可得和安全合规。
3.2数据集成(批量数据迁移)
表/文件/整库迁移支持批量迁移表或者文件,还支持同构/异构数据库之间整库迁移,一个作业即可迁移几百张表。 增量数据迁移支持文件增量迁移、关系型数据库增量迁移、HBase/CloudTable增量迁移,以及使用Where条件配合时间变量函数实现增量数据迁移。 事务模式迁移支持当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。 字段转换支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。 文件加密在迁移文件到文件系统时,CDM支持对写入云端的文件进行加密。 MD5校验一致性支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。 脏数据归档支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据单独归档到脏数据日志中,便于用户查看。并支持设置脏数据比例阈值,来决定任务是否成功。
3.3数据开发
3.4总结
四、阿里云数据湖方案
数据存储:OSS 数据加工:数据湖构建+E-mapreduce 数据湖构建(DLF),云原生数据湖架构核心组成部分,帮助用户简单快速构建云原生数据湖解决方案,DLF提供湖上云数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。 E-mapreduce,构建在阿里云服务器ECS上的开源Hadoop、spark、Hbase、hive、Flink生态大数据Pass产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时分析、机器学习等场景下的大数据解决方案。 数据分析与治理,对企业数据的可用性、完整性和安全性全面管理。数据湖采用API接口让数据湖实现多引擎的统一元数据管理和权限管理。 MaxCompute :MaxCompute 是一项面向分析的大数据计算服务,它以 Serverless 架构提供快速、全托 管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高 效的分析处理海量数据。 云原生数据湖分析(Data Lake Analytics,简称 DLA) 采用全新的云原生+Serverless+ 据库与大数据一体化架构,支持企业级权限管理、高效入湖、 ETL、机器学习、流计算与交互式分析等。核心组 包括:统一Meta、Lakehouse、Serverless Spark、Serverless Presto. 机器学习 PAI:机器学习 PAI(Platform of Artificial Intelligence)是阿里云面向企业客户及开发者,提供 轻量化、高性价比的云原生机器学习平台支持百亿特征、千亿样本规模加速训练,百余种落地场景,全面提升机器 学习工程效率 日志服务SLS,日志大数据解决方案,一站式提供数据收集、清洗、分析、可视化和告警功能。 dataworks,基于EMR/MC-Hologres 等大数据计算引擎,为客户提供专业高效、安全可 的一站式大数据开发与治理平台。
4.1数据湖架构
4.2数据湖构建(Data Lake Formation,简称 DLF)
元数据管理,通过控制台查看和管理数据湖中元数据库和表的信息,通过API的方式操作元数据,集成到第三方应用服务。并支持多版本管理、可通过元数据发现和入湖任务自动生成元数据。 数据入湖,通过入湖任务的方式将分散在MySQL、Kafka和PolarDB等数据统一存储,入湖过程如果没有定义元数据信息,入湖任务会自动生成元数据的表信息。 数据权限管理,可以加强湖上数据权限控制,保障数据安全。可支持对元数据库、元数据表、元数据列三种粒度的权限。 数据探索,为您提供一键式数据探索能力,可支持Spark 3.0 SQL语法,可以保存历史查询,预览数据,导出结果,一键生产tpc-ds测试数据集。 湖管理,将为您提供对湖内数据存储的分析及优化建议,加强对数据生命周期管理,优化使用成本,方便您进行数据运维管理。
数据分析场景,通过元数据发现、数据探索能力,可以快速的对OSS内结构化、半结构化数据进行分析、探索。 结合E-MapReduce、OSS两个产品,DLF协助客户快速构建云上数据湖。
结合MaxCompute、Dataworks、E-MapReduce3个产品,DLF协助客户快速构建湖仓一体架构。
结合Databricks、OSS产品,构建云上全托管Lakehouse数据架构。
基于商业版 Spark 的全托管大数据分析& AI 平台 内置商业版 Spark 引擎 Databricks Runtime ,在计算层面提供高效、稳定的保障 与阿里云产品集成互通,提供数据安全、动态扩容、监控告警等企业级特性
100% 兼容开源 Spark,经阿里云与 Databricks 联合研发性能优化 提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务
Databricks数据洞察构建在ECS之上,使用阿里云对象存储服务(OSS)为核心存储。存储访问加速层方便您可以像操作HDFS上的数据一样访问OSS上的数据。 Databricks数据洞察提供了两种执行Spark作业的方式,包括通过Notebook或者在项目空间里新建Spark作业。 Databricks数据洞察还提供了监控告警、元数据管理、权限管理等功能,方便您对集群资源进行管理。
五、华为数据湖探索(Data Lake Insight,以下简称DLI)
5.1产品架构
三大基本功能 SQL作业支持SQL查询功能:可为用户提供标准的SQL语句。具体内容请参考《数据湖探索SQL语法参考》。 Flink作业支持Flink SQL在线分析功能:支持Window、Join等聚合函数、地理函数、CEP函数等,用SQL表达业务逻辑,简便快捷实现业务。具体内容请参考《数据湖探索SQL语法参考》。 Spark作业提供全托管式Spark计算特性:用户可通过交互式会话(session)和批处理(batch)方式提交计算任务,在全托管Spark队列上进行数据分析。具体内容请参考《数据湖探索API参考》。 多数据源分析: Spark跨源连接:可通过DLI访问CloudTable,DWS,RDS和CSS等数据源。具体内容请参考《数据湖探索用户指南》。 Flink跨源支持与多种云服务连通,形成丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态:具体内容请参见《数据湖探索开发指南》。 云服务生态:数据湖探索在Flink SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据,如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等。 开源生态:通过增强型跨源连接建立与其他VPC的网络连接后,用户可以在数据湖探索的租户独享队列中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。 BI工具 对接永洪BI:与永洪BI对接实现数据分析。具体内容请参考《数据湖探索开发指南》。 支持地理空间查询。具体内容请参考《数据湖探索开发指南》。
5.3应用场景
大数据ETL:具备TB~EB级运营商数据治理能力,能快速将海量运营商数据做ETL处理,为分布式批处理计算提供分布式数据集。 高吞吐低时延:采用Apache Flink的Dataflow模型,高性能计算资源,从用户自建的Kafka、MRS-Kafka、DMS-Kafka消费数据,单CU每秒吞吐1千~2万条消息。 细粒度权限管理:P公司内部有N个子部门,子部门之间需要对数据进行共享和隔离。DLI支持计算资源按租户隔离,保障作业SLA;支持数据权限控制到表/列,帮助企业实现部门间数据共享和权限管理。
多源数据分析免搬迁:关系型数据库RDS中存放车辆和车主基本信息,表格存储CloudTable中存放实时的车辆位置和健康状态信息,数据仓库DWS中存放周期性统计的指标。通过DLI无需数据搬迁,对多数据源进行联邦分析。 数据分级存储:车企需要保留全量历史数据支撑审计类等业务,低频进行访问。温冷数据存放在低成本的对象存储服务OBS上,高频访问的热数据存放在数据引擎(CloudTable和DWS)中,降低整体存储成本。 告警快速敏捷触发服务器弹性伸缩:对CPU、内存、硬盘空间和带宽无特殊要求。
高效的Spark编程模型:使用Spark Streaming直接从DIS中获取数据,进行数据清理等预处理操作。只需编写处理逻辑,无需关心多线程模型。 简单易用:直接使用标准SQL编写指标分析逻辑,无需关注背后复杂的分布式计算平台。 按需计费:日志分析按实效性要求按周期进行调度,每次调度之间存在大量空闲期。DLI按需计费只在使用期间收费,成本较独占队列降低50%以上。
六.Dremio(产品定位有差异)
6.1公司简介
6.2产品架构
快速的数据查询
Data Reflections Columnar Cloud Cache (C3) Predictive Pipelining work alongside Apache Arrow 使用Predictive Pipelining和Columnar Cloud Cache(C3)技术加速数据读取
为云而建造的现代化执行引擎
Data Reflections - 能够更高效查询速度的开关
Arrow Flight - 以1000x的倍速移动数据
自助式服务语义层
可自定义化的语义抽象层
高效的数据上下文管理
直接应用在BI或数据科学工具上
细粒度的访问权限控制
数据血缘
七.Databricks
7.1公司概况
Databricksis the Data + AI company,为客户提供数据分析、数据工程、数据科学和人工智能方面的服务,一体化的 Lakehouse 架构 开源版本 VS 商业版本:公司绝大部分技术研发资源投入在商业化产品 多云策略,与顶级云服务商合作,提供数据开发、数据分析、机器学习等产品,Data+AI 一体化分析平台
Databricks的全球客户数量达5000多家,且全球有超过40%的财富500强企业都在使用Databricks的云平台。 2021年8月20日,H轮,15亿美元,估值380亿美元。
7.2不同产品介绍
ACID 事务性:Delta Lake 在多个写操作之间提供 ACID 事务性。每一次写操作都是一个事务操作,事务日志(Transaction Log)中记录的写操作都有一个顺序序列。事务日志(Transaction Log)跟踪了文件级别的写操作,并使用了乐观锁进行并发控制,这非常适用于数据湖,因为尝试修改相同文件的多次写操作的情况并不经常发生。当发生冲突时,Delta Lake 会抛出一个并发修改异常,抛给供用户处理并重试其作业。Delta Lake 还提供了最高级别的隔离(可序列化隔离),允许工程师不断地向目录或表写入数据,而使用者不断地从同一目录或表读取数据,读取数据时会看到数据的最新快照。 Schema 管理(Schema management):Delta Lake 会自动验证正在写入的DataFrame 的 Schema 是否与表的 Schema 兼容。若表中存在但 DataFrame 中不存在的列则会被设置为 null。如果 DataFrame 中有额外的列不在表中,那么该操作将会抛出异常。Delta Lake 具有 DDL(数据定义语言)显式添加新列的功能,并且能够自动更新 Schema。 可伸缩的元数据(Metadata)处理:Delta Lake 将表或目录的元数据信息存储在事务日志(Transaction Log)中,而不是元数据 Metastore 中。这使得 Delta Lake够在固定时间内列出大目录中的文件,并且在读取数据时效率很高。 数据版本控制和时间旅行(Time Travel):Delta Lake 允许用户读取表或目录的历史版本快照。当文件在写入过程中被修改时,Delta Lake 会创建文件的新的版本并保留旧版本。当用户想要读取表或目录的较旧版本时,他们可以向 Apach Spark的 read API 提供时间戳或版本号,Delta Lake 根据事务日志(Transaction Log)中的信息来构建该时间戳或版本的完整快照。这非常方便用户来复现实验和报告,如果需要,还可以将表还原为旧版本。 统一批流一体:除了批处理写入之外,Delta Lake 还可以作为 Apache Spark 的结构化流的高效流接收器(Streaming Sink)。与 ACID 事务和可伸缩元数据处理相结合,高效的流接收器(Streaming Sink)支持大量近实时的分析用例,而无需维护复杂的流和批处理管道。 记录更新和删除:Delta Lake 将支持合并、更新和删除的 DML(数据管理语言)命令。这使得工程师可以轻松地在数据湖中插入和删除记录,并简化他们的变更数据捕获和 GDPR(一般数据保护条例)用例。由于 Delta Lake 在文件级粒度上进行跟踪和修改数据,因此它比读取和覆盖整个分区或表要高效得多。
事物支持:Lakehouse 在企业级应用中,许多数据管道通常会同时读取和写入数据。通常多方同时使用 SQL 读取或写入数据,Lakehouse 保证支持ACID事务的一致性。 模式实施和治理:Lakehouse 应该有一种支持模式实施和演变的方法,支持 DW 模式规范,例如 star /snowflake-schemas。该系统应该能够推理数据完整性,并且应该具有健壮的治理和审核机制。 BI支持:Lakehouse 可以直接在源数据上使用BI工具。这样可以减少陈旧度和等待时间,提高新近度,并且降低必须在数据湖和仓库中操作两个数据副本的成本。 存储与计算分离:事实上,这意味着存储和计算使用单独的群集,因此这些系统能够扩展到更多并发用户和更大数据量。一些现代数据仓库也具有这种属性。 兼容性:Lakehouse 使用的存储格式是开放式和标准化的,例如 Parquet,并且它提供了多种 API,包括机器学习和 Python/R 库,因此各种工具和引擎都可以直接有效地访问数据。 支持从非结构化数据到结构化数据的多种数据类型:Lakehouse 可用于存储,优化,分析和访问许多新数据应用程序所需的数据类型,包括图像,视频,音频,半结构化数据和文本。 支持各种工作场景:包括数据科学,机器学习和 SQL 分析。这些可能依赖于多种工具来支持的工作场景,它们都依赖于相同的数据存储库。 端到端流式任务:实时报告是许多企业的日常需要。对流处理的支持消除了对专门服务于实时数据应用程序的单独系统的需求。
八、confluent调研
8.1公司概况
三个创始人:Jay Kreps(美国加州人)和清华毕业的饶军(Jun Rao)及来自印度的女生纳赫(Neha Narkhede)。
主营产品:Confluent Platform,Confluent Cloud 支撑产品:无法单独购买,主要用来给楼上引流,例如应用市场中的各种插件 咨询服务类:例如专家服务,培训等
8.2产品架构
社区版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基础服务。 商业版为企业提供了控制面板、负载均衡,跨中心数据备份、安全防护等高级特性。
集中分析:将来自多个Kafka集群的数据聚合到一个地方,以进行组织范围的分析 云迁移:可以使用kafka完成本地应用与云之间的数据迁移
九、参考文档
数据库实时转移之Confluent介绍(一),https://zhuanlan.zhihu.com/p/59615361 Confluent入门简介,https://blog.csdn.net/qq_34341930/article/details/93196022 百亿估值的Databricks,到底是做什么的?,https://blog.csdn.net/g6U8W7p06dCO99fQ3/article/details/120806232 瞰见 | 美股新贵Confluent背后的卡夫卡,不是那个魔幻小说家,https://zhuanlan.zhihu.com/p/451860551 【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse ),https://www.sohu.com/a/475582716_612370 超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析,https://zhuanlan.zhihu.com/p/378504852 解读数据架构2021:大数据1.0体系基本建成,但头上仍有几朵乌云,https://www.toutiao.com/a7047019560515469854/?channel=&source=search_tab https://www.bilibili.com/video/BV1gh411f7eQ,曹天昊-深入了解Databricks大数据平台 开源数据湖方案选型:Hudi、Delta、Iceberg深度对比,https://blog.csdn.net/wuxintdrh/article/details/120201316 databricks文档中心,https://docs.databricks.com/data-engineering/delta-live-tables/delta-live-tables-incremental-data.html 数据湖 | 一文读懂Data Lake的概念、特征、架构与案例,https://blog.csdn.net/u011598442/article/details/106610486/ 华为数据湖探索(DLI)文档中心,https://support.huaweicloud.com/function-dli/index.html 华为数据湖探索产品介绍,https://www.huaweicloud.com/product/dli.html 阿里云数据湖构建(Data Lake Formation,简称 DLF)产品文档,https://help.aliyun.com/document_detail/183492.html 数据湖构建 Data Lake Formation产品介绍,https://www.aliyun.com/product/bigdata/dlf?spm=5176.13333040.J_8058803260.36.7c438a27r3uRiU 解构云原生数据湖构建、管理与分析,https://yqh.aliyun.com/live/detail/26482?spm=5176.21213303.J_6704733920.29.6a1d3edauB7gLI&scm=20140722.S_other%40%40%E7%BD%91%E7%AB%99%40%40httpsyqhaliyuncomlive._.ID_other%40%40%E7%BD%91%E7%AB%99%40%40httpsyqhaliyuncomlive-RL_%E4%BA%91%E5%8E%9F%E7%94%9F%E6%95%B0%E6%8D%AE%E6%B9%96-LOC_main-OR_ser-V_2-P0_5 华为数据湖治理中心-DGC,https://support.huaweicloud.com/dgm-dgc/dgc_09_0019.html dataworks使用教程,https://developer.aliyun.com/learning/course/107/detail/1865?spm=a2c6h.21258778.0.0.69f278a3sjgjow dataworks文档中心,https://help.aliyun.com/document_detail/137663.htm#concept-dr3-k2v-42b
数仓中指标-标签,维度-度量,自然键-代理键,数据集市等各名词解析及关系
🧐分享、点赞、在看,给个3连击呗!👇