查看原文
其他

DataOps 在联通数科的实践 构建数据治理研发运营一体化能力

谭晟中 DataFunSummit
2024-09-11

导读 本文将分享联通数科如何利用 DataOps 构建数据治理研发运营一体化能力。

主要内容分为四个部分:

1. DataOps 实践的困难与挑战

2. 关于 DataOps 体系建设的一些思考

3. 8 个中心构建一体化协同机制

4. 总结与展望

分享嘉宾|谭晟中 联通数字科技有限公司 总监 

编辑整理|汪维

内容校对|李瑶

出品社区|DataFun


01
DataOps 实践的困难与挑战

DataOps 的核心思想是简化数据的使用、降低数据使用的门槛、提高数据分析的质量、缩短数据分析的周期。在 DataOps 的应用中,经常会遇到的、最困惑的几个问题如下:

  • 数据工具的集成。DataOps 相关的数据工具众多,企业在建设数据中台初期,由于没有合理的产品规划,通常会面临众多自研、开源产品的集成问题,这也是间接导致数据流转链路不清,用户对平台操作复杂程度高的原因。
  • 数据分布复杂。多种数据源类型、结构化与非结构化数据并存为 DataOps 构建带来的难题。
  • 数据治理。数据治理、数据安全介入的时机偏向数据加工后期,导致无法持续高价值产出满足企业要求的数据结果。
  • 用数的难度大。数据治理研发的过程,往往存在需求不明确的情况,而且对于人才的要求也逐步提高。基础数据研发人员既要业务思维,也要有一定技术能力,甚至还要具备对数据科学相关知识了解的能力。2023 年开始火热的大模型 AIGC 的能力,也会影响数据治理研发的过程,使得整个数据处理的加工周期越来越长。
02

DataOps 体系建设思考

基于上述困难与挑战,我们对数据治理研发和 DataOps 体系建设做了一些思考。

思考 1:数据研发与软件研发的差异

二者最大的差异是所针对的主体不同,软件研发在于应用性的功能,而数据研发的主体是数据。

在数据研发过程中,更关注数据架构、数据安全合规性、数据标准以及数据质量,其中数据安全和数据质量是最核心的部分,特别是在需求和设计阶段需要更加关注这两方面。在软件研发的测试阶段,软件测试人员在测试前便明确结果,测试周期也相对较短。而数据测试则不然,其测试结果可能需要需求提出人员通过数据分析等相关工具辅助进行结果确认,测试时间也会更长。对于某些大数据体量、复杂加工逻辑、长链路的数据加工任务,可能会需要几个月甚至更长的时间才能确定结果,因此数据测试更需要关注的是运营的后期阶段。前期已经测试通过的内容,随着新数据的持续加入以及数据质量的变化,可能会形成新的数据问题,需要通过持续运营和持续改进来解决这些问题。在数据运维阶段,需要更加注重数据运营相关的工作,特别是要持续关注数据质量与数据安全相关的要求。

思考 2:如何推动能力持续提升

一体化的数据治理研发运营体系不是一蹴而就的。以前的思路是先建一个平台,然后通过平台去改进整个 DataOps 数据治理研发过程。但实际上,运营在整个数据治理研发过程中变得越来越重要。所以,联通摒弃了传统的这种“建设”思维,提出了一种“三分建设、七分治理”的治理运营观念。以运营为主、两平台建设为辅,以业务和问题为导向展开数据治理和研发运营整合性工作,切实做好服务整体的数据业务服务。以数据治理运营为支点,实现生产效能和数据资产的盘活。

思考 3:创新技术的融合应用

在数据研发的过程中,新技术不断产生,新概念也在不断发展,持续地融合 AI、区块链等新技术,能够更好地发挥数据治理和数据研发能效,节省运营成本。联通整体的数据运营可以划分成四个阶段。

第一个阶段主要依靠人工,整个研发过程就是手敲代码的方式,数据管理意识也比较薄弱。各个平台逐步开始建立,形成了烟囱型的管理模式,研发和运营各自为战,导致整体运营成本相对较高,问题排查链路长,跨部门协作成本相对较高。

经过大概两年的持续实践打磨,联通逐步形成了复合型的数据治理团队,包括数据治理和数据研发运营相关的人员,全面推进数据治理和研发一体化的工作。另一方面,根据联通集团的要求和经验,也形成了相关的标准规范体系,初步形成了支撑数据治理与运营的能力底座,降低了数据管理的成本。同时,也加强各级管理业务技术人员数据管理意识的培养,打破部门墙,形成了多方协作的机制。但仍然存在数据问题处理不畅、协同迟缓、标准多方匹配的情况。

2021 年之后,对第二阶段的问题进行了深入剖析,构建了一套适合联通本企业的数据治理研发方法论,将数据治理、研发、运营进行整体融合,形成了一体化的数据研发治理运营平台,初步形成了企业的数据管理文化。

从 2023 年开始自动化技术、AI 以及大模型的爆发,引导我们在这方面进行了更深入的思考,需要将 AI、区块链、大模型等技术能力,融入到数据治理研发运营的整体环境中,形成更强大的大数据治理体系和能力底座。

在整个发展过程中,联通总结出了一套方法论、一套规范和两个平台。
  • 套方法论:创新数据治理七步法。这是联通以及联通数科现在秉持的方法论,在整个数据运营体系里面占有核心地位。基于这套方法论,通过明确场景、识别数据、认定来源、治理数据、汇聚数据、使用数据、提升质量,形成一个完整闭环,从而构成数据研发、持续交付、持续运维、持续运营的完整过程。
  • 一套规范:构建管理制度和标准规范。执行国家相关法律法规政策,遵循行业标准及联通集团的相关规则,建立由“1+12+N”制度框架和“1+10+N”企标框架组成的一套制度规范体系,在集团层面统一构建管理制度和标准规范,上下贯通、刚性执行,全面提升数据治理成效。
  • 个平台:一体化数据资产管理平台和一体化数据安全管控服务平台。其中,前者是基于上述方法制度及方法论进行打造的,是能够充分支撑数据治理、数据开发、数据分析、数据运营的工具平台。后者则是管控服务平台,安全是底线,也是红线,数据治理的首要要求就是数据安全,数据安全平台覆盖了数据采集、传输、存储、处理、交换以及销毁的全生命周期,形成了对数据安全的整体把控。
03

8 个中心构建一体化协同机制

最后,来介绍一下如何通过对 8 个中心的协同化构建形成一体化的协同机制。

8 个中心是以安全、标准、开发、调度、质量、资产、应用、运营为中心进行核心要点重点部署,结合数据治理及研发运营的全过程,构建全过程的安全管控、全面化的标准管理、一体化的数据研发、流程化的持续交付、持续化的质量提升、智能化的资产运营、敏捷化的数据赋能、全流程的效能评估,以保障 DataOps 生态体系能够有效落地,提升数据治理的研发效率,整体提升运营质量和数据转化的速度。

1. 以安全为中心:全过程安全管理

构建一体化的数据安全管控机制,以无入侵的方式实现的安全管理能力贯穿整个数据开发的全过程,确保整个数据研发过程和数据使用过程的安全和稳定性。

2. 以标准为中心:全面化标准管理

在数据标准方面,以标准为核心构建全面的管控机制。以数据标准为牵引,结合云数据、数据质量、数据认责构建数据生命周期的闭环。形成标准态、设计态和运营态三态分析的能力,支撑各环节数据标准的管控,量化分析标准的落标情况。数据标准是一个全过程的落标,从采集开始,到研发、分析、使用以及应用,都遵循相应的数据标准,保证数据质量。

3. 以开发为中心:一体化数据研发

以开发为中心构建协同化的机制。数据开发平台本身向研发人员提供了一套代码编辑、执行以及测试的工具,系统会根据研发过程,自主构建相应的任务调度节点,最终整个研发的流程以工作流的形式发布到生产调度系统。在这类研发平台上,研发人员可以完全掌控代码开发、工作流拆解和测试的全过程,并以工作流的维度进行发布。这类研发平台的使用需要有一定 SQL 能力和代码经验,面向的是技术开发人员。

DataOps 主要目的是为了降低数据使用和数据分析的门槛,显然这类平台对于业务人员来说是不够的。因此,我们将数据任务分成两类,一类是复杂的数据加工任务,需要用户进行代码编写来定义加工任务;另一类是数据分析应用的加工过程,为这个过程提供相关的工具和能力,帮助数据分析人员应对相应的业务场景,基于他们对业务良好的理解,可以实现低代码的加工方式;从而形成“高低代码配合”的数据研发一体化过程。数据开发平台面向不同的人员角色提供相应的工具,为实现整个数据治理研发运营的一体化能力提供有力支撑。

4. 以调度为中心:流程化持续交付

提供可持续的数据交付协同机制。调度平台是从采集、加工、分析到服务的整体调度中心。它负责所有的数据加工作业、支撑多样化的应用场景、进行可视化的配置,具备工作流间、节点间的运行调度能力,同时也支撑了质量管理平台、安全管理平台、标准管理、研发管理的任务检测能力和调度能力。

联通的调度平台是基于 Apache 的 DolphinScheduler 进行深度自主研发的。在研发调度的时候,跟市面上的调度平台如 Airflow、DolphinScheduler 的商业化版本以及我们之前使用的其它一些调度系统进行了比较。

对于联通来说,使用要求非常苛刻,底层架构、技术栈以及使用人员等各个层面对于调度系统都有不同的要求。一方面,加工数据的复杂度高,数据量非常大,目前每日加工的处理量就达到了 370TB;另外,加工处理的流程超过两万个,十万加的数据加工任务,对调度平台有非常高的性能和稳定性要求;而且,所有的处理过程,基本上都是要求一天之内必须能够处理完成,有些实质性的数据,最少要到分钟级;最后,还希望调度平台能够方便运维人员的使用。综合考虑,最终选择DolphinScheduler 作为核心调度系统。

我们并不是直接使用,而是进行了二次加工,并且把深度修改的功能和比较好的性能方案提供给了开源社区,还有一些功能在不断地孵化和演化,也会在近期贡献到社区。目前 DolphinScheduler 的发展也很迅猛,很多新的节点类型,特别是像容器的调度已经在新的版本中出现,联通数科也会协助开源社区一起完成相关的工作。

5. 以质量为中心:持续化质量提升

以质量为中心的持续化质量提升。质量管理方面,基于元数据、数据模型、任务调度、监督管理、工单管理和知识库建立了一套自动化的数据质量检验能力。通过定义规则、任务监控、预警方案的制定,实现了自动化的问题检测报告、自动形成相应的问题工单,并进行全过程跟踪,最终形成相应的知识库和质量报告,实现了全过程的数据运维运营能力。

6. 以资产为中心:智能化资产运营

以资产为中心实现智能化的数据资产运营。数据资产最重要的是元数据,通过对技术、业务、操作元数据的全面收集和集中管理,同时,加强数据血缘分析(包括血缘链路分析、血缘影响分析和孤岛分析),形成了对数据资产进行全面的管控。

2023 年新提出了关于数据资产入表以及数据资产评估的相关概念和要求,2024 年 1 月 1 日成为数据资产入表的元年。联通数科已经开始基于元数据以及数据血缘等加工过程来对数据资产进行评估。具体的,就是通过元数据的基本信息,计算数据的存储成本、采购成本以及相关的质量系数,从而计算数据资产的固有成本;另外,再通过数据血缘与任务血缘相结合来计算加工过程中的资源消耗,形成加工成本和采集成本;最后,根据资产入表的规则,只有提供数据服务且产生数据价值的这部分资产才能形成资产,还会通过数据服务鉴别哪些属于入表资产,哪些不属于入表资产,最终形成数据资产总成本的计算。这是我们在数据资产评估领域的创新探索。

7. 以应用为中心:敏捷化数据赋能

以应用为中心包括两层概念,前面提到,数据开发平台为数据分析人员提供了一些工具,这些工具能节省数据分析人员的使用成本。通过节约的成本,面向业务人员也提供了相应的数据分析应用工具,以轻量化或者相对质量较高的数据分析集,为业务人员提供相应的数据分析工具,包括 BI 报表等相关能力,形成可视化的分析过程。

8. 以运营为中心:全流程效能评估

以运营为中心进行全流程的效能评估。拉通需求治理研发的全链路、纵贯研发运营的全过程、实现标准化约束、构建相应的评价体系,以评价促应用、促运营,把运营和数据治理研发结合在一起,实现整个运营和生产效能的可视化与规范化。

04

总结与展望

最后对本次分享的内容进行一下总结。

1. 可持续运营

将数据治理、研发、运营进行一体化的结合,通过对平台、团队、实施方法三方面的保障,形成可持续运营的概念和闭环。通过配置复合型的数据治理团队,以及专业全面的数据管理能力,打通数据生命周期各个环节,满足数据治理各种应用场景。

2. 数据飞轮效应

在数据治理研发运营过程中,前后期会存在较大的投入差异。就像陀螺一样,让陀螺转起来需要消耗较大的力气。前期,搭平台、进行标准制度构建,以及对相关人员进行培训都是非常重要的,所以前期的投入会很高。但陀螺一旦转起来只需要较小的动力,后期维护转动的成本就要小得多,数据治理运营后期投入的力量相对来说不需要那么大,但需要持续的投入和持续的运营。联通数科以数据安全为核心,设计了五个域,即安全域、治理域、开发域、运维域和运营域,形成了数据治理研发运营的闭环,保障数据价值的持续转化。

最终可以总结为三个词:协同、赋能和变革。首先,加强整个生态体系的建设,完成工具、流程、人员的紧密协同,保障每个角色都起到应有的效用。然后,通过治理、研发和运营相互间的赋能,持续提升相应的能力,达到从量变到质变的过程,改变企业在数据运营的生产模式,实现数据质量提升换档。最终,从“更好的管理数据”转化为“更快地产生业务价值”。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


谭晟中

联通数字科技有限公司

总监

1998 年本科毕业于北京理工大学,2005 年获得复旦大学工程硕士学位,2019 年 10 月加入联通数字科技有限公司数据智能事业部(原联通大数据有限公司),任职专业总监,主要负责联通数一体化数据资产管理平台产品研发、对外交付和数据治理实施。

具备 20 年以上政府、大型国企、外资企业的信息系统、数据中心、大数据项目规划、数据治理项目实施工作经验,10 年以上微软、联想等世界500强企业工作经历,服务过包括国家税务总局、索尼(中国)、联想集团、国家统计局、上海世博会、上汽集团、国泰君安、海通证券、中体彩等大型客户。

聚焦于大数据及数据治理相关行业,具备多年政企、智慧城市、金融、企业等行业数据治理项目平台交付与实施经验,在多个省部级政府项目和大型企业项目中负责数据湖仓规划、数据治理、数据开发与服务等工作,交付省部地市各级政务类大数据平台及数据治理项目 50 余个,对企业级数据仓库规划与治理有着深刻理解。擅长 DCMM 评估、DAMA 管理体系、数据治理规划、大数据平台数据治理、研发与交付等方面的咨询及实施。


往期推荐


大模型微调方案设计和能力整合

金融级实时数仓建设实践

理想汽车基于Flink on K8s的数据集成实践

大数据安全治理与防范——网址反欺诈实战

货拉拉大数据新一代基础架构实践与思考

如何实现 DataOps 开发、运营、治理一体化

蚂蚁 TuGraph-DB 数据库查询引擎技术

字节跳动基于 DataLeap 的 DataOps 实践

大模型分布式训练的第四种境界

OPPO大数据AI湖仓一体实践

点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存