查看原文
其他

腾讯云首次披露云原生智能数据湖全景图,数据湖之争再起波澜

CSDN 2021-05-28

(图片下载自视觉中国)

数据湖并不是一个很有历史感的概念,从2010年才首次被Pentaho创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,至今发展仅有十多年,但已经成为一个谈到大数据时就避不开的话题,被认为是一种大数据和AI时代融合计算和存储的全新体系,以及企业新一代的数据技术架构。

数据湖火起来的新一轮契机,来源于近年来的AI热潮和云计算、5G的发展,尤其是新冠疫情的爆发,更是让企业更深刻地认识到数据已成为企业的核心资产,挖掘大量爆发数据背后的价值,亟需能够敏捷地处理数据分析,提升数据洞察力的方法。一般来说,企业挖掘数据背后价值最直接的方法是通过建立数据集群,但现实中因为成本、技术、人才等限制条件,很多企业在自建数据集群上面临诸多痛点。

在这样的背景下,数据湖应运而生。亚马逊云科技作为“排头兵”,率先构筑了一套以S3为中心化存储、Glue为元数据服务,E-MapReduce、Athena为引擎、针对AI优化的AWS Sagemaker的开放协作式的产品解决方案,普及了数据湖的概念。之后,众多云厂商纷纷“下水”,抢夺市场潜力巨大的数据湖市场,推出各自的数据湖产品。

作为国内To B巨头之一,腾讯云也早早地看到了数据处理任务对于数据湖的巨大需求,数年前就已布局这个领域,发布了包括云原生数据湖计算服务在内的一系列数据湖产品和服务。如今,腾讯云的数据湖体系已服务众多内外部客户,据官方透露,腾讯云的数据湖体系算力弹性资源池达500万核,存储数据超过100PB,日采集数据量超500TB,每日分析任务数达1500万,每日实时计算次数超过万亿,能支持上亿维度的数据训练。

这几年,腾讯在数据湖上积攒的实力究竟有几何?2021年5月13日,腾讯云在北京举行的云原生智能数据湖发布会上,首次正式展示了云原生数据湖体系,并发布两个重磅新品,大秀了一把“肌肉”。


首次展示云原生智能数据湖全景图


本次发布会上,腾讯云首次对外展示完整的云端数据湖产品图谱,并推出两款“开箱即用”数据湖产品,数据湖计算服务DLC和数据湖构建DLF。

六大层级产品构筑全方位数据湖服务

据介绍,腾讯云此次展示的完整云原生智能数据湖产品矩阵包括数据湖存储、数据湖算力调度、数据湖大数据分析、数据湖AI能力、以及数据湖应用和云上基础服务六个层面,提供一体化的全方位服务。

其中,数据湖存储以对象存储COS服务为核心,理论上可以存储任意规模的异构数据,具有高可靠性和高持久性,同时也支持将其他云端数据设施作为数据湖的存储服务。

数据湖算力调度方面,基于腾讯云弹性容器服务EKS,开放的容器化的分析架构让数据分析功能可组合性更强,扩展性更强,资源利用率更高。

数据分析层,腾讯云数据湖既提供半托管的泛Hadoop服务,满足用户自定义需求,也提供全托管的数据服务,便于用户获取海量数据的洞察力。此外,用户还可利用腾讯云提供的数据协作工具对计算服务进行编排和调用,大幅度提升企业数据的便捷性和敏捷度。

值得一提的是,针对越来越多的音视图文数据,腾讯云数据湖包含丰富的AI服务,为图像处理、音频处理、自然语言处理、视频处理等提供有力的数据支撑。

数据应用服务,腾讯云推出基于数据湖的数据应用服务,比如企业画像、联邦计算、商业智能分析等。

最后,云原生的基础服务为腾讯云数据湖体系提供了有力的保障。

从发布的数据湖全图谱来看,腾讯云这六大层面基本涵盖了企业对于数据处理各流程的不同需求,还在研发中的其他数据湖产品,也有望完善其云原生智能数据湖矩阵。

两款“开箱即用”数据湖新品DLC和DLF

除了数据湖体系全景图,为了让企业可以快速构建和分析数据湖,腾讯云此次还正式推出两款开箱即用的数据湖产品:数据湖计算服务(Data Lake Compute,简称DLC)和数据湖构建(Data Lake Formation ,简称DLF)。

腾讯云相关负责人介绍,简单来说,这两个产品关注的核心功能,其实一是如何更简单地让数据入湖,第二个是入湖后如何统一管理数据信息,并在此基础之上,通过DLC数据湖计算让用户在数据分析时可以即时编写SQL,随时发起集群查询降低运维门槛,这是目前腾讯云数据湖的核心。

数据湖计算服务作为敏捷高效的的数据湖分析引擎,采用的是无服务器架构设计,用户无需关注底层架构或维护计算资源,使用标准 SQL 即可完成对象存储服务及其它云端数据设施的联合分析。此外,用户无需进行传统的数据分层建模,计算性能提升35.5%,构建效率提升60%,业务增长量提升可达75%。

数据湖构建则能帮助用户快速高效的构建企业数据湖技术架构,包括统一元数据管理、多源数据入湖、任务编排、权限管理等数据湖构建工具。同时,借助数据湖构建,用户可以极大提高数据入湖准备的效率,资源成本节省超30%,湖构建时间减少60%,运维工程师人数降低100%。

此外,为了解决湖存储面临的挑战,如运输局操作原子性、元数据操作延迟高和宽带需求大等问题,腾讯云数据湖还于近期发布了三级加速器服务,包括存储端元数据加速器,提供近计算段数据缓存加速能力的GooseFS,以及提供AZ级全闪存硬件加速服务的COS加速器,并提供组件化服务,按需进行产品组合。


从存储计算到分析,数据分析系统的演进历程


当James Dixon首次提出数据湖的概念时,数据湖被比作原生态的水,未经处理,原汁原味,数据湖中的水从源头流入湖中,任何用户都可以来湖里获取、蒸馏提纯这些水,也就是数据,以作自用。彼时,数据湖在大家的印象中还是一个集中式存储系统的概念,用来存储任意规模的结构化和非结构化数据。

之后,HDFS 和对象存储等技术的发展基本上解决了海量数据的低成本存储的问题,这时,数据湖的重点任务就从存储转向数据的计算分析,核心在于提升数据分析的敏捷性,增强对数据的洞察力。

如今,数据湖的外延更是拓展到涵盖数据湖存储、数据湖计算、数据湖分析等数据处理全流程,作为数据湖核心功能的数据分析系统,实际上也在逐步演进之中。

从第一代典型的结构化数据存储系统开始,随着越来越多用户行为数据、图像、音频、视频为代表的多媒体数据等出现,传统数据仓库无法支撑起互联网时代的商业智能。

此时,全分布式的Hadoop诞生,带来了全新的技术变革,它可以采用廉价机器搭建集群,满足海量数据的存储需求,弱化数据格式的特性也能实现数据模型和数据存储分离,可以处理BI、报表,以及一部分数据科学和机器学习任务,满足处理结构化、半结构化&非结构化数据的需求。

随着Hadoop技术的成熟,2010年“数据湖”的概念诞生,企业可以基于Hadoop构建数据湖,数据湖分析系统流行起来。与单纯的Hadoop系统相比,数据湖分析系统的元数据和索引层可以更好、更快、更可靠地处理数据湖中提取的数据,成为大数据时代数据分析的更优选择。


数据湖的本质:开源开放


从本质上来说,数据湖的本质其实是建立在开源技术体系上的开放设计,目前市面上主要流行的三大开源数据湖方案有Delta、Apache Iceberg和Apache Hudi,腾讯云选择将数据湖体系建立在Apache Iceberg设计之上。

这是因为腾讯云看好Iceberg新一代的数据湖表格形式,它不仅可以优化数据湖入湖流程,提供ACID事务能力,简化ETL,提供Upsert能力,缩小数据入库延迟,还不绑定特定引擎,支持更多分析引擎,如Spark、Flink、Presto、Hive,并具有统一的数据存储和灵活的文件组织。

腾讯云相关负责人表示,开源开放将是腾讯云数据湖将来要坚持做的事情,未来,从算力角度,腾讯云还将算力从混合云拓展到腾讯云之外的其他IDC或公有云,以及边缘终端设备上去,最终实现在一张分布式云的网上构建腾讯云数据湖,以构建上层的SaaS和PaaS服务。第二个方向,腾讯云还将推出更多类型的算力资源,在数据湖场景下推出更低成本的算力资源和套餐。

总而言之,腾讯云数据湖的整体思路,就是要做到成本更低、性能更高、算力更加弹性、用户体验更好。


云原生,未来的数据湖发展趋势


云原生时代的到来,让数据湖有了更多发挥的空间,云将作为数据湖的承载,成为数据湖的最佳实践场。预计到2021年低,云将承载80%的应用开发和部署。与此同时,数据驱动业务的浪潮席卷了各行各业,据知名咨询机构统计,到2025年全球数据总量将超过160ZB,全球数据总量的近 20% 将成为影响日常生活的关键数据,近 10% 将变为超关键数据。

为此,企业迫切需要可以利用多个数据源、使用不同的大数据分析技术,快速构建灵活友好的数据架构,解决多元化分析场景的数据需求。尽管有些企业还对在云端部署数据架构有诸多疑问,比如成本是否真的划算,但实践已经证明利用公有云的基础设施,数据湖技术部署的成本更低、更灵活、更便捷。

数据湖背后的巨大潜力,驱动着各大云厂商纷纷下水,推出自己的云原生数据湖产品,亚马逊因布局早至今在Gartner魔力象限对数据湖的排名中处于顶端。

腾讯作为数据湖战场中的一员,将云视为数据湖实践的最佳战场,此次发布云原生数据湖体系,在大秀了一把云原生智能数据湖“肌肉”的背后,其实还是数智时代的数据分析新趋势,包括以云计算为中心、以数据驱动业务及可组合式数据架构。

回顾过去十多年,数据湖在技术和产品应用层面都变得更加成熟可用,涉及到数据收集、标注、训练等全流程,这也意味着数据湖有着巨大的发展空间和前景。未来,包括腾讯在内的云厂商将会为数据湖带来哪些新的玩法和新思路,也值得我们耐心观察。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存