查看原文
其他

前起亚马逊,后出Databricks,国产数据库“湖仓一体”迎头赶上

张瑞 CBInsights中文 2022-09-24


大数据时代,存储和计算是根基,在数据类型和分析需求越来越复杂的情况下,如何保证数据的运行效率?有些厂商给出的答案是——数据湖架构。


作为一个集中式存储库,数据湖允许客户以任意规模存储所有结构化和非结构化数据。客户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析——从可视化到大数据处理、实时分析和机器学习,以指导企业做出更好的决策。


真正将数据湖概念推而广之的是亚马逊。


亚马逊于 2006 年构筑了一套以 S3 为中心化存储、Glue 为元数据服务,E-MapReduce、Athena 为引擎的开放协作式的产品解决方案。


它的开放性和开源体系类似,并在 2019 年推出 Lake Formation 以解决产品间的安全授信问题。这套架构对于开源技术体系的用户来说,架构相近理解容易,仍然相当有吸引力。亚马逊之后,各个云厂商也纷纷跟进数据湖的概念,并在自己的云服务上提供类似的产品解决方案。


数据湖的主要特征可以概括为:


  • 支持超大规模存储及可扩展的大规模数据处理能力

  • 存储结构化、半结构化和非结构化数据的任意类型数据

  • 并非将数据移动到单个存储库中,在数据原本存储的地方访问数据并动态执行数据转换和汇总

  • 多样化的分析能力,不限于流式计算、交互式分析以及机器学习,有一定的任务调度和管理能力


图丨数据库主要发展脉络(来源:公开资料,CB Insights 中国整理)


数据湖的设计,通过开放底层文件存储,给数据入湖带来了最大的灵活性。进入数据湖的数据可以是结构化的,也可以是半结构化的,甚至可以是完全非结构化的原始日志。另外,开放存储给上层的引擎也带来了更多的灵活度,各种引擎可以根据自己针对的场景随意读写数据湖中存储的数据。


图丨数据湖架构示意图(来源:阿里云)

数据湖技术架构也经历了三个阶段。

第一阶段是自建开源 Hadoop 数据湖架构。第二阶段是上托管 Hadoop 数据湖架构,底层物理服务器和开源软件版本由云厂商提供和管理,企业需要自己运维和管理。第三阶段采取云上数据湖架构,即云上纯托管的存储系统,引擎丰富度不断扩展,分离后的存储系统可独立扩展,完成存算分离。第三阶段的云上纯托管的存储系统,正成为数据湖的存储基础设施。

亚马逊领衔数据湖研发,Databricks 将数据湖推向高潮

亚马逊推广了数据湖的概念,并在 2020 年,宣布上线 AWS Glue 和 Amazon Athena 两项服务,基于无服务器架构的托管服务,数据湖工具链进一步完善。

亚马逊其后,初创公司们也快速跟进,2019 年,大数据软件公司 Databricks 则开源了其数据湖的关键技术;2020 年 6 月,Databricks 宣布收购以色列初创公司 Redash 并基于其技术推出了关键开源技术 Delta Engine。2020 年,Delta Lake、Apache Spark 和 Databricks 统一分析平台的进步,不断提高了架构的功能和性能。

Databricks 的架构通过一种新的系统设计,直接在云数据湖的灵活、低成本存储上实现了与数据仓库类似的数据结构和数据管理功能。通过将两种体系结构的优点结合,企业可在同一平台上同时运行传统分析和数据科学 / ML 工作负载,大幅减少在数据湖和下游数据仓库之间不断移动数据的复杂数据操作,而且还消除了数据孤岛。

图丨数据湖和数据仓主要组织结构、存储成本、数据质量及分析功能等对比(来源:亚马逊官网)

Dremio 是一家美国数据即服务平台,致力于加快分析时间,并提供数据湖及其他功能。Dremio 作为新一代数据湖引擎,直接在云数据湖存储中进行实时的、交互式的查询释放数据价值,主要应用于三大场景。 

一是商业智能,无需依赖 IT 或数据工程,直接针对数据湖存储提高即席和报告查询速度。二在数据科学上,使用工具利用数据价值,加速数据发现、挖掘潜在关系。三在数据化的现代化上,针对现代化云数据湖存储方案面临的复杂任务,通过语义层使迁移期间的分析工作负载无缝运行。 

阿里云数据湖构建(Data Lake Formation,DLF)是一款全托管的快速帮助用户构建云上数据湖的服务,可存储任意规模结构化和非结构化数据,支持大数据和 AI 计算。腾讯也建立了数据湖解决方案。

与数据仓的结合,湖仓一体发挥更好效用

数据湖也不是适用于一切数据问题的。数据湖在文件管理和功能上也存在缺陷,为解决数据湖的局限性,一些新系统开始尝试 “湖仓一体”,将数据湖与数据仓库结合,既构建在数据湖低成本的数据存储架构上,又继承数据仓库的数据处理和管理能力。

图 | Databricks、巨杉数据库主要湖仓一体产品架构(来源:公开资料,CB Insights 中国)

Databricks 于 2016 年推出了 Lakehouse “湖仓一体” 的概念,Delta Lake 可以为数据湖带来可靠性保证,性能优化和生命周期管理,还可以解决数据格式错误、数据合规性删除或对个别数据进行修改。Delta Lake 架构,使高质量数据可以快速写入数据湖,通过云服务(安全且可扩展)部署以提高数据的利用效率。这一趋势目前也成为业内构建数据湖、数据仓、数据中台等的主流方案之一。

如中国国产数据库巨杉 SequoiaDB,也基于 “湖仓一体” 架构,重点面向企业全新的海量大数据联机交易、非结构化数据治理等场景,协助客户通过分布式技术稳步从甲骨文、DB2 中转移。基于这样的技术架构,中国国产数据库实现较为高速的发展,形成了基于 “分布式数据库全新的核心场景”。

SequoiaDB 在金融银行业已经有了规模化的生产应用案例,已上线生产的单集群最大物理达 300 台服务器、3.0PB 容量、1.2 万亿条记录,未来将基于 “湖仓一体” 架构进行更好的管理。

未来:百花齐放还是难以治理?

数据湖、数据仓、云数据库等概念在中国又处于 “拥挤进入” 的阶段,国内厂商也在一一布局。但同对 “云数据库” 的担心一样,相对于数据库的革新是否有必要、数据湖与数据仓 “上云” 是否对很多小厂商来说并不必要。数据库、仓、湖中的数据是否都能得到有效治理。

在数据治理水平还有限的情况下,以及智能化还待进一步验证的情况下,大数据是否能 “独自” 前进?

一方面传统的企业处理结构化的数据还存在问题,大数据处理意识还没有完善,数据湖、仓中也有难以治理的数据。

但另一方面更丰富的数据架构的出现,说明当下大数据爆发及智能时代的到来,适应新一代信息技术的基础架构正在不断更新,中国更需要在这些不断更迭的产品和理念下,发展自己的本土化实践经验。

-End-


往期文章推荐 


万字长文详解RNA疗法,9家公司领跑中国RNA产业发展


数智创新,智驱未来,数字化转型正成为产业发展源动力 丨CB Insights 中国发布产业数字化发展报告


2021年Q2全球投资势如破竹,亚洲实现连续五季度增长 | CB Insights报告

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存