如何实现 DataOps 开发、运营、治理一体化
导读 本文将分享 DataOps 的设计理念和未来发展方向。
主要内容包括以下几个方面:1. 数据驱动的三个核心能力
2. DataOps 产生背景
3. DataOps 整体架构
4. DataOps 研发难点
5. DataOps 研发重点
6. 数据的下一个方向
分享嘉宾|许璐 平安产险 大数据平台负责人
编辑整理|王吉东
内容校对|李瑶
出品社区|DataFun
数据平台建设:数据平台建设先行,具备相对较好基础; 数据资产管理:数据管理意识普及,数据资产管理能力加速提升; 数据智能应用:数据平台建设和数据资产管理能力提升,激发了数据需求,数据开发能力与需求之间的矛盾日益突出。
DataOps 的产生背景
需求时效差:针对某个特定的数据需求,开发耗时可能需要两周甚至一个月的时间; 开发不规范:不同开发人员有各自的开发习惯,企业的规范化标准在实际生产环境中也难以真正落实; 测试不完全:开发后的测试工作,一般仅仅测试代码能否跑通,而对于数据内容是否正确,很难进行实际核查; 代码变更常出错:代码的更新和升级,常常会引入新的 bug,导致流程无法跑通。 部署流程复杂 “只管生不管养”,即开发人员很少会投入系统维护
需求管理:对需求进行标准化管理 建模和开发标准化 集成测试 质量校验:所有的版本变更,通过质量校验才发布 一键发版 运营治理:建立运营治理中心,实现去生产的治理。
DataOps 整体架构
开发一体化:将数据探索、数据开发、血缘分析、数据演练/测试等开发常用组件实现统一集成; 管理一体化:开发一体化经质量检测进入管理一体化,包括版本管理、部署发版以及质量管理; 治理一体化:主要包括资产管理和任务治理,将数据资产和数据任务接入到治理一体化中心内实现运营。
DataOps 研发难点
1. 形成敏捷数据产品开发流程
敏捷迭代,快速响应需求变化:随着用户数据自助分析需求的与日俱增,快速响应能力至关重要,因此需要将原先的数据研发流程进行重组,以快速响应需求变化; 自助服务,主动利用数据资产:数据资产对于业务人员和分析人员的重要性越来越高;敏捷开发,能够让用户更加方便地利用数据资产。
2. 构建高效的跨域协同机制
跨部门协作,打造协同型团队:随着研发流程日益复杂,报表、数据接口等应用端,与数仓、数据湖等开发端的跨部门协作会更加频繁;
建立良好沟通机制,塑造协同文化;
借助技术赋能,善用协同工具。
3. 打造开发治理一体化流水线
前置数据质量管控:传统的开发系统,往往需要专门的开发人员和测试人员协作进行,会造成人员的冗余;
治理过程融入开发流程:数据决定开发的成败,开发的每个环节都离不开数据的治理;
打造自动化测试流程,及时处理问题。
4. 建立精细化的运营体系
全链路度量与反馈:对于某个需求,是否真正投入使用;
减少人力成本:对于任务时效性越来越慢的问题,如何处理;
降低运营成本:对于已上线的应用,如果长期未投入使用,如何管理。
DataOps 研发重点
需求管理:包括需求分析、需求分发、需求验证等,提供标准化的需求管理模板,进而采集到全部数据资产的业务员数据、技术员数据等。
数据开发:包括数据探索、模型设计和代码开发等。
集成测试:包括 Dev 测试、演练测试、生产测试等,将 UAT 过程前置,提前发现问题。
质检校验:包括事前预警、事中引导、事后监测等,实现数据研发全流程的有效管控。
部署发版:包括版本管理、代码库管理、部署管理等,对于独立的开发需求,在不影响业务的前提下,实现一键发布,降低需求的等待时长。
运营治理:包括规则管理、定期扫描、线上监督等,系统一旦触发某些异常,将该异常按照流程下发到指定的开发人员或业务人员手中,将责任细化到个人身上,从而实现研发全流程的管控。
数据的下一个方向
1. 数据虚拟化
主要理念是数据即服务、所见即所得
大幅降低数据流程中的开发过程点
快速直连数据源
逻辑视图的数据集模式,降低数据存储,减少安全风险
最大化降低获取数据的成本
2. 数据平台治理
提高代码质量,减少资源浪费
对于重复加工任务进行管理,实现降成本、提升单位算力效能
通过混合部署、错峰调度、存算分离等方式提升平台资源有效利用率
3. 数据价值的评估
组织协同
研发流程
工具平台
制度规范
评价度量
分享嘉宾
INTRODUCTION
许璐
平安产险
大数据平台负责人
9 年的数据工作经验,对多维,即席查询,平台治理等有研究。
往期推荐
一文看懂什么是强化学习?(基本概念+应用场景+主流算法+案例)
字节跳动基于 DataLeap 的 DataOps 实践
大模型分布式训练的第四种境界
OPPO大数据AI湖仓一体实践
哪里人才紧缺,哪里就有大模型
阿里云 DataWorks 湖仓融合数据治理与大模型应用探索
阿里通用多模态大模型 OFA 研究实践
国内卷废了?生成式AI+出海了解下!
袋鼠云在实时数据湖上的探索实践