查看原文
其他

如何实现 DataOps 开发、运营、治理一体化

许璐 DataFunSummit
2024-09-10

导读 本文将分享 DataOps 的设计理念和未来发展方向。

主要内容包括以下几个方面:

1. 数据驱动的三个核心能力

2. DataOps 产生背景

3. DataOps 整体架构

4. DataOps 研发难点

5. DataOps 研发重点

6. 数据的下一个方向

分享嘉宾|许璐 平安产险 大数据平台负责人 

编辑整理|王吉东

内容校对|李瑶

出品社区|DataFun


01
数据驱动的三个核心能力

数据驱动的核心主要有以下三个阶段:
  • 数据平台建设:数据平台建设先行,具备相对较好基础;
  • 数据资产管理:数据管理意识普及,数据资产管理能力加速提升;
  • 数据智能应用:数据平台建设和数据资产管理能力提升,激发了数据需求,数据开发能力与需求之间的矛盾日益突出。
其中,数据的智能应用,本质就是数据的变现能力。数据的使用,包括实时用数和离线分析两部分。实现数据的闭环运营,包括内外贯通和柔性管控两部分。

02

DataOps 的产生背景

早期的数据工具开发,在流程中的各个阶段都存在着一些问题:
  • 需求时效差:针对某个特定的数据需求,开发耗时可能需要两周甚至一个月的时间;
  • 开发不规范:不同开发人员有各自的开发习惯,企业的规范化标准在实际生产环境中也难以真正落实;
  • 测试不完全:开发后的测试工作,一般仅仅测试代码能否跑通,而对于数据内容是否正确,很难进行实际核查;
  • 代码变更常出错:代码的更新和升级,常常会引入新的 bug,导致流程无法跑通。
  • 部署流程复杂
  • “只管生不管养”,即开发人员很少会投入系统维护
针对上述问题,DataOps 在每一阶段都有着对应的解决方案:
  • 需求管理:对需求进行标准化管理
  • 建模和开发标准化
  • 集成测试
  • 质量校验:所有的版本变更,通过质量校验才发布
  • 一键发版
  • 运营治理:建立运营治理中心,实现去生产的治理。
03

DataOps 整体架构

传统数据开发范式遇到的挑战推动数据开发应用模式创新变革,亟需新的实践方法论来推动工具、流程和人员等资源的优化重组,提升数据产品供给能力。

DataOps 整体架构分为三层:
  • 开发一体化:将数据探索、数据开发、血缘分析、数据演练/测试等开发常用组件实现统一集成;
  • 管理一体化:开发一体化经质量检测进入管理一体化,包括版本管理、部署发版以及质量管理
  • 治理一体化:主要包括资产管理和任务治理,将数据资产和数据任务接入到治理一体化中心内实现运营
04

DataOps 研发难点

DataOps 研发难点,主要体现在以下四个方面:

1. 形成敏捷数据产品开发流程

随着用户数据自助分析需求的与日俱增,实现:
  • 敏捷迭代,快速响应需求变化:随着用户数据自助分析需求的与日俱增,快速响应能力至关重要,因此需要将原先的数据研发流程进行重组,以快速响应需求变化;
  • 自助服务,主动利用数据资产:数据资产对于业务人员和分析人员的重要性越来越高;敏捷开发,能够让用户更加方便地利用数据资产。

2. 构建高效的跨域协同机制

  • 跨部门协作,打造协同型团队:随着研发流程日益复杂,报表、数据接口等应用端,与数仓、数据湖等开发端的跨部门协作会更加频繁;

  • 建立良好沟通机制,塑造协同文化;

  • 借助技术赋能,善用协同工具。

3. 打造开发治理一体化流水线

  • 前置数据质量管控:传统的开发系统,往往需要专门的开发人员和测试人员协作进行,会造成人员的冗余;

  • 治理过程融入开发流程:数据决定开发的成败,开发的每个环节都离不开数据的治理;

  • 打造自动化测试流程,及时处理问题。

4. 建立精细化的运营体系

  • 全链路度量与反馈:对于某个需求,是否真正投入使用;

  • 减少人力成本:对于任务时效性越来越慢的问题,如何处理;

  • 降低运营成本:对于已上线的应用,如果长期未投入使用,如何管理。

05

DataOps 研发重点

接下来介绍六个环节中各自的重点。

  • 需求管理:包括需求分析、需求分发、需求验证等,提供标准化的需求管理模板,进而采集到全部数据资产的业务员数据、技术员数据等。

  • 数据开发:包括数据探索、模型设计和代码开发等。

  • 集成测试:包括 Dev 测试、演练测试、生产测试等,将 UAT 过程前置,提前发现问题。

  • 质检校验:包括事前预警、事中引导、事后监测等,实现数据研发全流程的有效管控。

  • 部署发版:包括版本管理、代码库管理、部署管理等,对于独立的开发需求,在不影响业务的前提下,实现一键发布,降低需求的等待时长。

  • 运营治理:包括规则管理、定期扫描、线上监督等,系统一旦触发某些异常,将该异常按照流程下发到指定的开发人员或业务人员手中,将责任细化到个人身上,从而实现研发全流程的管控。

06

数据的下一个方向

基于 DataOps 发展现状,有如下三个方向:

1. 数据虚拟化

  • 主要理念是数据即服务、所见即所得

  • 大幅降低数据流程中的开发过程点

  • 快速直连数据源

  • 逻辑视图的数据集模式,降低数据存储,减少安全风险

  • 最大化降低获取数据的成本

2. 数据平台治理

  • 提高代码质量,减少资源浪费

  • 对于重复加工任务进行管理,实现降成本、提升单位算力效能

  • 通过混合部署、错峰调度、存算分离等方式提升平台资源有效利用率

3. 数据价值的评估

  • 组织协同

  • 研发流程

  • 工具平台

  • 制度规范

  • 评价度量

对于数据价值的评估,如何量化其价值点,目前还不是非常明确。假如有一套统一的价值体系,对需求进行优先级排序,并对数据的任务编排进行重组,实现任务波峰的消除,可以大幅度提升资源利用率,降低运营的成本。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


许璐

平安产险

大数据平台负责人

9 年的数据工作经验,对多维,即席查询,平台治理等有研究。


往期推荐


一文看懂什么是强化学习?(基本概念+应用场景+主流算法+案例)

字节跳动基于 DataLeap 的 DataOps 实践

大模型分布式训练的第四种境界

OPPO大数据AI湖仓一体实践

哪里人才紧缺,哪里就有大模型

阿里云 DataWorks 湖仓融合数据治理与大模型应用探索

阿里通用多模态大模型 OFA 研究实践

国内卷废了?生成式AI+出海了解下!

袋鼠云在实时数据湖上的探索实践

58用户画像数据仓库建设实践

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存