关于数据仓库、数据湖、数据平台和数据中台的概念和区别
数据仓库
数据湖
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
实现数据治理;
通过应用机器学习与人工智能技术实现商业智能;
预测分析和模型推荐,例如:领域特定的推荐引擎 ;
信息追踪与一致性保障;
基于历史数据分析生成新的数据维度,挖掘数据深度价值;
提供集中式存储的企业数据中心,并提供基于数据传输优化的数据服务;
协助企业实现灵活的增长决策。
数据平台
数据中台
数据中台通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务。
数据中台对一个企业的数字化转型和可持续发展起着至关重要的作用。数据中台为解耦而生,企业建设数据中台的最大意义就是应用与数据之间的解藕,这样企业就可以不受限制地按需构建满足业务需求的数据应用。
构建了开放、灵活、可扩展的企业级统一数据管理和分析平台, 将企业内、外部数据随需关联,打破了数据的系统界限。
利用大数据智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级部门之间的数据分析应用需求。
深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,建立大数据分析工具库、算法服务库,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。
数据仓库 VS 数据湖
数据仓库 VS 数据平台
数据仓库 VS 数据中台
总结
数据中台、数据仓库和数据湖没有直接的关系;
数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重;
数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API;
数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;
数据中台距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务;
数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同?
【大数据哔哔集20210107】聊聊MapReduce中的排序/二次排序/辅助排序
【大数据哔哔集20210106】Hadoop3.0有哪些新特性
文章不错?点个【在看】吧! 👇