查看原文
其他

阿里云 DataWorks 湖仓融合数据治理与大模型应用探索

田奇铣 DataFunSummit
2024-09-10

导读 本次分享题目为《阿里云 DataWorks 湖仓融合数据治理与大模型应用探索》。

主要介绍以下几个方面:

1. DataWorks 简介

2. 数据入湖

3. 湖仓融合统一数据开发

4. DataWorks 湖仓融合数据治理

5. 大模型催生数据开发新范式

6. DataWorks 产品免费试用

分享嘉宾|田奇铣 阿里云 DataWorks产品负责人 

编辑整理|陈沃晨

内容校对|李瑶

出品社区|DataFun


01
DataWorks 简介

DataWorks 是一个一站式大数据开发治理平台,于 2009 年由阿里巴巴内部孵化,2016 年前后正式上云提供产品服务。目前在阿里内部有 5 万多月活用户,在云上有超过 1 万家企业客户,每天云上调度的任务实例数已经超过 1700 万,数据治理产品已经累计帮助云上用户发现 600 万以上需要治理的数据问题。

1. DataWorks 获得的权威认可

根据 2023 年 IDC 报告,目前阿里云已连续两年获得中国数据治理平台市场份额第一。Forrester 的报告也显示,阿里在云数仓领域进入卓越表现者象限。我们跟中国信通院建立了广泛的合作关系,参与了很多大数据行业标准的制定。我们的数据平台通过了中国信通院数据平台整体解决方案能力评测,达到了先进级(最高级)。

2. 湖仓融合:现代企业数据架构演进

我们回顾一下现代企业数据架构的演进过程,八十年代,从数据库开始,逐步发展,先后经历了数据仓库、数据湖、湖仓融合(湖仓一体)几个阶段,整体演进过程与需求变化是密切相关的。起初,需求以简单、固定的查询为主,后面慢慢演进到数据科学、BI、机器学习,再到现在的大模型的分析、AI 增强分析。企业业务不断变化,对应需求的灵活性、复杂性也逐渐提高。湖仓融合的架构越来越受到企业的欢迎,因为它拥有数据湖的灵活性和可扩展性,又具备数仓的企业级能力。所以在过去一年,我们重点在湖仓融合的数据架构上建设了数据开发以及数据治理的能力。

3. DataWorks 一站式数据开发与治理平台

上图是 DataWorks 的整体架构示意图。左边 DataWorks 数据集成支持数据入湖和数据入仓。中间部分 DataWorks 提供了两个比较完整的工具链:数据开发工具链和数据治理工具链。数据开发工具链包含数据建模、数据开发、任务调度、任务运维。数据治理的工具链包含元数据管理(数据地图)、数据质量、数据治理中心和数据安全等服务。右边是数据消费侧的产品服务,DataWorks 提供了数据分析以及数据服务的能力。底层大数据引擎支持阿里云自研的 MaxCompute 大数据计算服务以及开源大数据平台EMR+OSS 云原生数据湖、CDH/CDP,以及Hologres/AnalyticDB/Clickhouse/StarRocks 等 OLAP 服务。

4. 一站式数据平台提升数据效率与体验

一站式平台有非常明显的优势,目前国内的同类平台也都倾向于“一站式”。国外的同类平台,比如 AWS、Azure,在过去很多年前倾向于独立的一个个子产品,比如元数据管理是一个独立产品,ETL 工具是个独立产品,数据质量又是另外一个独立产品。但近年来也发生了巨大变化,AWS 及 Azure 都在不断地整合并推出自己的一站式数据平台产品。

那么,一站式平台到底有哪些优势呢?首先,可以构建整体一站式的数据加工流水线,提升数据流转的效率。第二,可以实现开发与治理更好的协同,避免过去走“先开发后治理”的老路。第三,可以提高产品的使用体验。第四,可以为企业的管理者提供更加完整的湖仓融合一体化的管理视图。尤其是,在我们进入 AIGC 时代后,一站式数据平台会有更强的优势,例如 Azure 通过 Copilot 可以把整个数据加工分析过程很好地衔接起来,并提供统一的自然语言交互界面。因此可以说,一站式平台是实现数据平台整体智能化的基础。

5. DataWork 全面支持湖仓融合数据管理

DataWorks 今年全面提升了湖仓融合的数据管理产品能力,包括数据实时秒级入湖、湖仓融合数据开发调度、湖仓融合数据治理三大项能力。存储层同时支持三套引擎,分别是离线数仓 MaxCompute、实时数仓 Hologres 和数据湖 OSS/OSS-HDFS,并且他们之间可以实现存储的互通。在此之上 DataWorks 提供了实时数据入湖、入仓的能力,通过元数据管理、数据地图、DLF 可以提供湖仓融合的统一元数据管理。在统一数据开发 ETL 这层,能够实现统一的数据开发 IDE 以及湖仓融合的多种引擎任务的混合编排调度。在此之上提供了湖仓融合的统一数据治理能力,包含数据建模、数据质量、数据安全以及数据治理中心等产品服务。

02

数据入湖

企业自建数据入湖服务,会遇到很多挑战,从开发到部署、调试,全流程都要自己来管理,还需要进行同步任务调优、湖格式支持,以及保证整个同步链路的稳定性和性能等。DataWorks 数据集成是一个全托管、Serverless 的数据同步服务,用户只需要配置同步任务,剩下的事都交给系统来自动完成。今年我们在数据入湖上新增了以下几个能力:

1. DataWorks 数据集成入湖 OSS 功能特性

DataWorks 数据入湖有以下几个特点:第一个是上手简单,完全是白屏化、向导化的操作,可以进行非常直观的配置任务。第二个是与元数据系统的打通,数据可以在入湖同步时自动注入阿里云 DLF。第三个是支持秒级延迟的实时同步以及同步过程中的简单数据处理。

2. DataWorks 实时入湖 OSS 产品能力

DataWorks 实时入湖支持 MySQL 实时同步到 OSS、Kafka 实时同步入湖到 OSS,支持 Hudi 湖格式,未来将会进一步扩展到 Paimon、Delta lake、Iceberg 等主流湖格式。它具备以下几个特性:第一,可以实现全量和增量同步。第二,支持一个 MySQL 实例下多库和多表的同步,同时能够自动感知源端的库表变化,自动更新目的端的库表结构,用户不需要因为库表变化重新去修改同步任务。第三,可以自动建立元数据,对于 Kafka 的实时同步还支持在同步过程中进行简单的数据处理和数据过滤,对 JSON 的数据结构也做了支持。

03

湖仓融合统一数据开发

1. DataWorks 全面支持开源数据湖 ETL 开发

DataWorks 目前支持四种开源数据湖平台。首先是阿里云的 EMR on ECS,不仅支持旧版的 Hadoop 集群,也支持今年新推出的 EMR on ECS Datalake 集群。另外,还支持 EMR on ACK 集群,以及企业 IDC 自建的 CDH 和 CDP 集群。很快,我们将会支持更多部署形态的数据湖平台。

2. DataWorks 湖仓融合 ETL 开发

2023 年 MaxCommute 重点做了一个非常大的能力升级,将它的存储做了开放,用其它计算引擎,比如 EMR Spark 等,也可以直接读 MaxCompute 中的数据。这样原 MaxCompute 数仓用户可以方便地扩展到数据湖,既可以保留已有架构中的数仓部分,又可以与灵活的数据湖架构进行联合。或者,数据湖的用户也可以使用MaxCompute Serverless 形态的高性能计算服务。在这个湖仓一体数据架构之上,可以组合选择不同的计算引擎,DataWorks 提供统一的任务管理,包含统一数据开发 IDE、多引擎任务混合编排、调度和运维服务等。

04

DataWorks 湖仓融合数据治理

一直以来,企业数据治理存在很多问题和挑战:

首先,数据治理效益难以评估。数据治理沦为“运动式”项目,缺乏一个可量化指标来衡量数据治理的成效,因此造成数据治理过程不可持续。

第二,数据治理实施难度大。虽然数据治理的方法论和组织建设已经为大家所熟知,但缺少一个行之有效的工具平台帮助企业落地这些数据治理方法。

第三,数据治理成本高。由于习惯了先开发后治理,开发过程中往往忽略数据规范以及对任务的优化、存储的优化等工作,问题越积越多,导致数据治理的成本也随着业务发展越来越高。

1. DataWorks 数据治理中心产品特性

DataWorks 数据治理中心是一款主动式、自动化数据治理工具,有以下几大特性:

首先,提供了一个多维度数据治理健康分评估模型,从研发、计算、存储、质量、安全五个维度来评估一个企业数仓或者数据湖的健康程度。同时也提供了多种管理视角,比如全局视角、工作空间视角、个人视角,来帮助不同角色的人管理或查看数仓、数据湖的健康程度。数据平台管理者可以看到全局情况,部门管理者能看到自己工作空间的情况,而数据开发工程师则可以清楚地看到自己任务的明细情况。同时我们针对不同视角提供了不同的排行榜,以方便数据治理小组或者治理委员会推进数据治理运营工作,确保数据治理能持续落地。

第二,多维度治理问题的发现,内置数十种治理检查规则“治理项”,提供问题自动发现的机制,可以持续发现数仓、数据湖需要治理的数据表、计算任务、数据同步任务等各类问题,让数据治理的实施更加容易落地。

第三个是主动式治理问题拦截,深度打通数据开发链路,在开发过程中(如代码提交、任务发布、SQL 运行等)通过“检查项”就能够识别和拦截不符合规范或要求的问题,避免问题被带入生产环境,从而实现将数据治理过程融入到数据开发环节之中,避免“先开发后治理“。值得一提的是,你可以基于 DataWorks 开放平台的扩展程序能力,自定义检查项,从而实现自定义的流程管控,如发布管控、命名规范管控、代码规范管控等。

2. EMR+OSS 数据湖主动式、自动化数据治理

数据治理中心产品于 2023 年新增了数据治理计划功能。该功能允许企业管理者给自己的数据治理项目设定一个目标,可以是存储成本治理的目标、计算成本治理的目标或者稳定性治理的目标。产品也内置了这几类数据治理模板,有了目标之后,数据治理工作就可以做到有的放矢,系统会根据设定的目标来自动推荐符合这个治理方向的治理项和检查项,主动发现需要治理的问题。在问题的处置方面也提供了若干自动化的功能,可以根据不同的问题推荐不同的治理策略,对无效任务则支持自动化下线。需要强调的是,DataWorks 数据治理中心的这套能力不仅支持基于 MaxCompute 数仓,目前已经完全适配 EMR +OSS 数据湖,从而实现湖仓融合的统一数据治理。

3. DataWorks 数据治理中心成本优化流程

成本优化,是很多企业都非常关注的问题。借助 DataWorks 数据治理中心,可以让数据平台的成本优化变得有章可循。主要包含以下流程:

首先可以对资源消耗进行分析,资源的消耗包含同步任务、调度任务所消耗的资源和引擎层消耗的资源,对资源使用有一个宏观的认识。

第二,基于“治理项”机制,可以进一步对计算任务和数据表进行问题主动发现。

第三,提供成本优化的手段,比如下线无效任务、修改表的生命周期等。下文将会具体展开介绍无效任务自动下线的功能。

第四,再配合事前“检查项”机制,对问题进行事前拦截。

最终,就通过数据治理健康分模型来帮助企业量化整个成本治理的效果。

4. 成本治理:无效任务自动下线

无效任务下线是成本治理中非常关键的问题,也是很多企业都会遇到的一个问题。过去可能完全依赖于数仓开发工程师人工下线,经常还会造成线上的故障,从而导致数仓工程师变得不敢轻易下线任务,久而久之就导致很多无效任务在生产环境一直运行。另一方面,完全依赖于人工分析和操作,效率非常低,比如分析要下线的任务节点会影响到下游哪些表、哪些任务,又要跟下游的同学进行一一沟通。

针对这一问题,DataWorks 数据治理中心提供了一项称之为“优雅下线”的能力,它是一个完全自动化、流程化、批量化的任务下线功能。我们把任务下线这个相对高危的动作分解成了五个相对没有那么大影响的步骤:第一步设置一个延迟调度时间,把任务延迟调度;第二步暂停任务调度;第三步下线任务;第四步备份这个任务的产出表;第五步才彻底删除任务产出表。每个步骤都提供了一个静默等待时间,用来观察这个动作产生的影响。如果产生了影响,每一个步骤都有快速回滚恢复的功能。通过这套机制就可以做到自动任务影响分析和批量任务下线。

这套机制在阿里集团内部实践取得了非常好的效果,已经帮助内部数仓同学成功下线了数万个任务节点和表。过去内部下线 1000 个任务,可能要涉及到三四十个人,从沟通、分析影响情况、制定计划,到执行计划,至少要 3-6 个月的时间。现在有了这套自动化、流程化的工具,只要 15 天就可以完成。

05

大模型催生数据开发新范式

随着大模型的不断发展和应用,Data+AI 已经成为了业界的共识。一方面是 Data for AI,DataWorks 一站式数据开发治理平台不断为企业积累各类数据资产,比如数据模型、元数据、数据血缘。在 AIGC 时代,这些资产就是企业的业务知识或者领域知识。这些领域知识结合大模型的提示词工程、上下文学习能力和记忆能力,使模型效果得到了显著的提升。另一方面是 AI For Data,通过大模型可以构建 SQL 编程助手,提升数据开发工程师的工作效率,或者让不熟悉 SQL 的业务人员也可以方便地查数取数。通过 Data + AI 双轮驱动,不断提升企业获取数据价值的效率。

1. DataWorks Copilot 智能 SQL 编程助手

DataWorks 于 2023 年推出 Copilot,产品目前已在公共云上邀测,感兴趣的用户可以在官网提交申请。DataWorks Copilot 目前已经支持了自然语言 SQL 生成、SQL 补全、SQL 注释、SQL 解释、SQL 纠错、UDF 查询等能力,并与 DataStudio 的 IDE 深度集成,提供了“SQL Chat”,即自然语言交互,你可以随时随地唤起 DataWorks Copilot SQL 编程助手,让它帮助解决各类 SQL 编程问题,提升你的工作效率。

2. DataWorks Copilot 提供两种模型服务

DataWorks Copilot 提供了两种大模型服务,一是基于通用的 SQL 代码大模型提供了开箱即用的服务,二是可以提供大模型私有化部署服务。如果您对大模型的效果有更高要求,希望让 Copilot 更加贴近你的业务,我们将提供个性化大模型微调服务,并且提供私有化的模型推理部署服务。如果你有此项需求,可以与阿里云商务同学联系洽谈。

3. DataWorks AI 增强分析

DataWorks 结合 AI 技术,联合 DataV 提供了增强分析的能力,以帮助数据分析人员或者业务人员快速分析数据、洞察数据,而且不需要人工编写 SQL 代码。DataWorks 增强分析主要包含以下几项能力:

第一,自动数据探查。只要给一张表,就可以进行全自动的数据探查,不需要使用者写 SQL 或具备任何技术背景。

第二,AI 自动数据洞察与图表生成。可以根据数据探查的结果进一步进行数据洞察,自动推荐和生成数据分析图表卡片,通过 AI 技术可以自动发现图表里面的一些潜在趋势或者异常情况,有可能让分析师获得他认知之外的数据洞察。

第三,AI 智能数据查询。结合 Copilot 技术,通过自然语言生成 SQL 并获得数据结果和生成图表,然后自动总结数据图表见解。

第四,一键构建和分享数据报告。可以将上述第二步自动生成的图表或者你自己编辑的图表,像制作 PPT 一样非常快捷地构建数据报告并进行分享,帮助你讲好数据故事,分享数据观点。

DataWorks AI 增强分析功能目前已经在公共云提供商业化服务,进入 DataWorks 数据分析产品即可体验。

06

DataWorks 产品免费试用

DataWorks 产品提供了免费试用,欢迎大家关注我们的官网并参与免费试用活动。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


田奇铣

阿里云

DataWorks产品负责人 

阿里云 DataWorks 产品负责人,打造全链路数据开发治理平台支撑阿里巴巴集团与阿里云上众多客户的数字化转型。

活动推荐

往期推荐


阿里通用多模态大模型 OFA 研究实践

字节用户画像标签分析及业务场景应用

袋鼠云在实时数据湖上的探索实践

58用户画像数据仓库建设实践

真实复杂场景下的图神经网络

风控场景全流程模型构建及应用

快手统一分析服务建设实践

字节跳动 Spark Shuffle 大规模云原生化演进实践

阿里平台供应链价格与销量关系建模

金融数据治理场景化实践

OPPO 智能湖仓的实践之路

风控体系建设实践



点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存