/ END /
更多推荐
2023阿里云金秋云创季-大数据AI专场火热来袭!多款产品免费试用,部分入门规格首月1元起!点击「阅读原文」,前往会场,多款热销产品助力开发者低成本上云!
本文根据2023云栖大会演讲实录整理而成,演讲信息如下:
演讲人:田奇铣 | 阿里云DataWorks产品负责人
演讲主题:大模型驱动DataWorks数据开发治理平台智能化升级
随着大模型掀起AI技术革新浪潮,大数据也进入了与AI深度结合的创新时期。2023年云栖大会上,阿里云DataWorks产品负责人田奇铣发布了DataWorks Copilot、DataWorks AI增强分析、DataWorks湖仓融合数据管理等众多新产品能力,让DataWorks这款已经发展了14年的大数据开发治理平台产品,从一站式向智能化不断升级演进。
01
Data+AI双轮驱动
02
云栖发布:
DataWorks Copilot 智能SQL编程助手提升30%数据开发分析效率
SQL生成
输入想要查询分析的自然语言描述,例如“统计最近7天的商品销售排行”,DataWorks Copilot将自动生成对应的SQL语句。
SQL续写
在SQL IDE中编写SQL代码时,DataWorks Copilot能够提供智能代码提示建议,提升SQL编程效率。
SQL纠错
当SQL运行报错时,DataWorks Copilot可提供一键纠错服务,帮助ETL工程师和分析师快速修复SQL错误。
SQL注释
以前写代码注释是个负担,我们自己不想写注释,却又希望别人的代码有注释。DataWorks Copilot可以批量为建表语句生成字段Comment信息,也可以为SQL语句添加逐行注释,提升SQL的可读性。
SQL解释
对于部分业务人员或者分析师,经常拿到是数仓工程师给到一段比较复杂的取数脚本,使用到的一些高级SQL语法和函数不懂什么意思但又想改一改取数逻辑,以前就要到处查资料或者请教别人。DataWorks Copilot可以直接对SQL代码进行解释,帮助我们的业务人员更快理解SQL逻辑、用途,提高取数分析和SQL学习的效率。
DataWorks Copilot 智能SQL编程助手,在我们内部已经使用了一段时间了,根据我们的一些观测,可以为ETL开发和数据分析提效30%以上。
从GUI到LUI,DataWorks Copilot辅助ETL数仓开发
40多年前出现了图形用户界面(GUI),大模型强大的自然语言理解能力,带来了全新的自然语言用户界面(LUI),这也是一种全新的人机交互方式,一个软件产品,能否提供LUI,这也是大模型应用从AI智能助手迈向AI原生应用的标志能力之一。DataWorks也在思考和探索,如何将复杂的产品操作逻辑隐藏在背后,借助大模型,对用户提供简单直接、更符合人性的自然语言用户界面。
我们做了一些产品实践。举几个应用场景,在实际工作中,找表是件头疼的问题,业务人员为了计算一个指标要找数仓的同学问该用哪张表,数仓同学天天应付这类咨询,也很烦躁。DataWorks Copilot则可以提供通过自然语言快捷找表,让找表这件事情不用东问西问,从而提升企业的数据消费效率。在ETL开发过程中,有些操作是比较复杂或者繁琐的,比如调度配置、参数配置、数据质量规则配置,过去往往需要到不同的产品页面来回跳转和手工配置,现在DataWorks Copilot提供了对话式的自然语言用户界面,在一个统一对话窗口中,通过自然语言交互就可以完成很多跨产品工具的操作,比如说一句“给某某表配置一个什么质量规则”就可以完成数据质量检测的规则配置。未来,我们将持续丰富自然语言交互界面的覆盖范围。
DataWorks Copilot产品演示
03
云栖发布:
DataWorks AI增强数据分析
DataWorks联合DataV数据可视化产品,深度结合AI技术,推出了AI增强分析产品。目前提供了四项核心能力:
自动数据探查
自动探查数据集,无需专业技术背景即可快速了解数据特征、统计分布。
AI自动图表生成
基于自动数据探查的信息,自动生成数据图表卡片,结合AI技术,自动识别不同数据字段组合之间的相关性并生成图表,不需要你手动写很多SQL进行分析,可以帮助你快速获得灵感,保存见解。
AI智能数据查询
结合大模型技术,通过自然语言生成 SQL 查询数据,并自动为查询结果自动推荐和生成数据图表卡片。
一键构建和分享数据报告
可以像制作PPT一样,将上面生成的数据图表卡片一键生成数据长图报告,支持导出为图片或者一键分享。
DataWorks AI增强分析,让数据自己“说话”,将数据洞察过程尽可能的自动化、无代码化,通过AI还能自动发现数据中的潜在趋势,讲好数据故事,表达数据观点。这款产品目前在公测当中,大家开通DataWorks后进入数据分析产品即可申请公测体验。
DataWorks 增强分析产品演示
04
云栖发布:
DataWorks湖仓融合数据管理
DataWorks当前全面支持湖仓融合的数据管理,在存储层,离线数据仓库MaxCompute和实时数据仓库Hologres以及数据湖存储OSS/OSS-HDFS,它们之间已经在存储层做了无缝的打通,不需要复制移动数据就可以进行数据的联邦查询。在这之上,DataWorks提供了统一的湖仓融合数据管理用户界面。
实时数据秒级入湖
在数据集成上,DataWorks本身支持50多种异构数据源的离线、实时同步入仓。今年新增实时数据入湖的能力,实现数据秒级实时入湖,并且支持在数据同步过程中自动进行库表字段的更新,同时在这个过程中也能够进行元数据的自动发现和注册,借助DLF可以在DataWorks数据地图里进行湖仓统一的元数据管理。
湖仓融合ETL开发调度
面向湖仓融合架构中多种计算引擎,如MaxCompute、Hologres、Spark、Hive、Presto等,提供了统一的ETL任务开发、任务编排调度和运维服务,实现统一的数据开发流水线,解决企业因数据架构不统一造成的数据生产链路割裂、不稳定等难以管理的问题。
湖仓融合数据治理
DataWorks新增支持了湖仓融合数据治理。不仅能支持湖仓统一的元数据管理、数据建模和数据质量管理,而且DataWorks的主动式、自动化数据治理工具“DataWorks数据治理中心”也全面支持了EMR+OSS数据湖。
DataWorks数据治理中心,将成熟的数仓治理能力全面扩展到了EMR+OSS数据湖。为了简化湖仓架构下的数据治理难度,让数据治理不再是运动式的,而是能够真正可持续、可跟进、可落地,DataWorks数据治理中心,新增了“数据治理计划”功能,来协助用户完成主动式的数据治理规划和诊断。
数据治理计划内置了面向数据管理者的计算存储的成本治理、任务的稳定性治理等数据治理场景的模板,支持企业设置一个数据治理目标,提供多个维度的数据治理健康度的评估模型,帮助大家去评估数据治理的成效。
数据治理计划面向数据治理的执行者,提供60余项覆盖5个维度的治理规则库,结合设置的数据治理目标方向,数据治理产品可以自动推荐圈选和目标相关的数据治理问题,并且提供相应的治理手段和方法,帮助数据治理的执行者可以及时的发现问题解决问题。同时数据治理中心提供事前的问题拦截,在数据开发阶段可以事前发现很多的问题,比如代码规范问题,表明任务名命名规范问题,可以进行提前的拦截,这些事前拦截的插件和事后问题发现的插件都是允许支持企业自己定义。
数据治理应用:成本优化-无效任务自动化下线
随着企业业务的不断变化,企业人员变动,不可避免地会出现越来越多的无效数据任务,每天都在消耗着大量的计算成本和存储成本。传统的手动治理,需要依赖数据工程师人工分析判断,进行复杂的影响分析,还存在与相关被影响人员的沟通协同成本,极容易因不小心失误影响了线上任务造成故障,从而导致数据工程师因害怕出问题而对无效任务不敢治理,不愿治理。
DataWorks数据治理中心,提供了一项称之为“优雅下线”的产品功能,可对无效任务进行批量的流程化、自动化的下线治理。首先会自动进行任务下线的影响分析,然后将任务下线分解为延迟调度、暂停调度、下线任务、备份产出表、删除产出表五个步骤,每个步骤还提供一个静默期并自动通知相关责任人或者受影响人。整个过程类似于一种“灰度下线”机制,一旦出问题可以快速恢复,并将影响范围降到最低。
在阿里内部数据团队,原先治理下线一组涉及到30个责任人的1000个任务,从拉群拉会沟通,分析下线影响,制定下线计划,各自分别执行下线操作到结果跟进,要花费3-5个月时间。有了DataWorks数据治理中心的优雅下线功能,2天完成治理动作,1周完成影响观察,15天即可正式结项。DataWorks数据治理中心的优雅下线已经帮助阿里内部数仓团队成功下线了数万个无效任务,节省在大量的存储计算成本。
DataWorks数据治理中心已经在DataWorks企业版提供服务,近期也会推出企业版的试用活动,大家可以关注产品的官网信息。
从2009年诞生在阿里巴巴集团内部开始,DataWorks一直是一站式平台的倡导者与坚定执行者,包含从数据集成、数据开发的工具链、数据治理的工具链,以及到数据消费侧的分析及服务的产品,我们通过一站式平台不断为企业构建、沉淀企业的数据资产。在AI时代,DataWorks将14年积累的产品能力不断与大模型进行融合创新,为企业一站式智能化的数据平台产品,提升企业数据流转效率,加速企业数据价值获取。
/ END /
更多推荐
2023阿里云金秋云创季-大数据AI专场火热来袭!多款产品免费试用,部分入门规格首月1元起!点击「阅读原文」,前往会场,多款热销产品助力开发者低成本上云!