导读:大数据、数据治理、数据湖、数据中台……连绵不绝的数据技术和热词让企业信息化部门疲于跟踪、构建和维护新的数据管理系统。都说“数据是石油”,是企业核心资产之一,那么有了这些数据管理系统,数据资产就成功实现“价值变现”了吗?显然不是!
继续以石油做类比,如图1所示,石油从勘探到成品销售的价值变现过程由上游、中游、下游的多个产业环节、数以万计的公司通过技术、运营、管理、交易等复杂的活动来完成,而不是单一的技术系统来实现。石油产业价值链是经历了数百年市场化演进形成的结构,是具备超强效率与变现能力的最佳实践参考。而如今传统的数据价值链实现和体系,还有着明显的差距,如图2所示:
如图3所示,传统的数据管控体系基本都是建立在技术栈基础上,领先的数据管理技术栈包括:
数据源:数据大部分都散落在由不同的(业务)部门、不同的团队建设和运维的应用系统中。数据湖:通过数据湖、数据仓库等技术手段,将不同系统中的数据进行集中管理。
数据架构治理:通过制定数据架构、数据标准、元数据管理等,降低数据交换的难度。
数据中台:为数据的进一步加工处理提供平台和通用技术功能支持,提供数据的进一步分类和聚合,屏蔽数据源访问差异。
从技术上来看,当前的数据技术栈可以较好的支持数据的获取和加工,但是任何价值的实现都不是技术独立能够实现的,正如同石油资产,没有良好的管理运营体系支撑,最多只能是开采后保存在仓库的原料,消耗了技术设施投资,而难以变成企业的业务收入,更难于构建一个有良好利润和现金流的业务模式。当前基于数据技术栈的企业数据资产管理体系存在着以下几个方面的挑战:(1)难以解决组织竖井壁垒的难题:在企业内部,虽然数据的所有权名义上属于整个企业,没有团队或个人敢否认这个原则,但是执行上数据的开放和共享会遇到应用系统管理团队和业务部门的隐形障碍,数据需求部门往往最终很难及时拿到自己想要的数据,最后不了了之。最终,数据中台也好、数据湖也好,都只是搭建了一个技术系统,但缺乏高价值数据的导入和输出。另外,即使能够解决数据的共享和输出问题,“铁路警察——各管一段”(这可能是数据管理实践中的另外一种真实写照),没有人对数据整个处理流程负有责任,数据处理过程不能有效衔接,质量和时效性难以保证,出了问题回溯分析也非常困难。(2)难以解决端到端数据质量的难题:“(数据)垃圾进,垃圾出”,一个质量低劣的数据集,不如没有数据。数据质量的治理历来都是难题,过去数据还仅限于单个业务或职能小范围使用,如今多数据的联合分析需求已经扩展到企业的各个层面,低劣的数据质量危害将放大到整个企业。技术团队没有被赋予端到端质量管理的职能,很多时候也没有能力和意愿进行管理。(3)不面向服务和价值变现:技术导向往往导致数据团队关注的是技术平台的功能和可用性,但是企业投资的目的是数据资产价值变现,这两个目标存在着根本的差异。技术平台是数据价值变现的基础,但是有了平台,并不意味着企业就同时获得数据价值。当前企业的数据资产管理,最缺乏的是数据服务和价值变现的运营管理体系,而不是任何技术平台的构建和运维。(4)缺乏支持数据高效流动和处理编排的工具:数据的加工处理,如同石油的采集、传输、炼制与成品加工,有着冗长而多变的特点,此外,还要求很高的时效性。石油产业为了提升整个产业链的效率,一个最重要的方法就是搭建跨公司、跨地域(甚至是全球性的)石油管道网络。类似的,现代化制造业也是依托流水线架构实现高效的规模生产。而目前的数据技术栈,对于构建统一的数据流动管道和处理流水线,普遍还缺乏重视和实现;很多实践还停留在基于脚本、基于定时、基于手工的管理模式,没有实现数据的管道化高效流动和流水线化编排处理的架构和管理模式,效率低,风险大,难以支持数据的及时变现,支持业务运营和创新要求。(5)缺乏对数据流动中的安全管理:企业中私自提取数据进行非法买卖的案例屡见不鲜,给企业可能造成很大的损失,甚至导致企业破产。我国《网络安全法》等相关法规规定了企业高管对数据泄露负有民事和刑事责任。数据不流动则没有价值;没有安全保护的数据流动则放大了安全风险,如何能够实现数据的安全流动?最佳的实践是:建立企业统一的数据流动管理平台,杜绝其他形式的数据流动(特别是临时搭建的ftp服务用于临时数据文件传输,或者开发者和用户掌握数据存储的访问密码等),所有的数据流动通道都基于企业统一的平台管理,进行安全防护,流动操作都有留档备查(时间、数据访问账户、数据流动起始位置、数据内容、数据去向等),从而杜绝数据泄露的根源。
03 构建面向价值变现的数据资产服务管治体系
基于以上的讨论,企业如果希望数据资产价值能够快速高效的变现,改变传统的技术管治导向,转变为构建“面向价值变现的数据资产管治体系”,不再过多关注技术的先进性,而是从组织体系和管理体系上进行优化改善,才能达到事半功倍的成效,不仅最大限度的最大化技术投资回报,更能真正的推动数据资产成为企业业务的加速器,变成真正的“现代石油”。
如图4所示,面向价值变现的数据资产管治体系包括以下几个部分:(1)组织结构层面:设立独立的数据管治与服务团队,或者将职责赋予现有合适团队。团队应承担以下职责:
对企业所有系统的数据拥有管治权利。
数据价值管理:面向企业战略和业务经营,发掘具备重大价值的企业数据需求,整合后台数据资源和技术资源提供数据服务,为数据实现最大化价值的目标进行日常活动。
数据服务运营:通过运营的方式对外输出有价值的数据服务,具体见下文。
数据质量管理:通过数据架构治理和数据质量查验等对数据的整个生命周期的质量通过设定标准、安插质量检测点、质量考核等在数据投入产出比的约束下管理数据质量。
数据共享管理:具备组织权利和执行智慧,打破数据的组织壁垒、系统壁垒,推动数据在企业范围内的无障碍流动和利用。
(2)服务运营层面:为企业的利益相关者按照服务输出的方式进行日常运营,包括:
(3)技术平台层面:在参考先进技术栈进行构建和完善的同时,增加以下功能和特性:数据服务目录:提供数据服务目录的管理、用户访问和服务交付的对接。
数据消费场景:提供对重要数据消费场景的实现支持和试点支持。
数据流动管道和处理编排流水线:提供企业范围内统一的数据流动管理、数据编排管理、丰富数据接口支持、Devops模式支持、数据活动备案审计、数据流动安全管理等。
数据服务即代码:平台服务和模块都提供API接口,能够被其他系统通过代码调用获取数据结果和数据处理编排等,嵌入到消费场景中,而不是依赖手工管理和系统操作实现。
04 数据流动管道与处理编排流水线:数据管理核心基础设施石油业的公共基础设施之一是管道网络,为油品在跨地域、跨企业、跨产业内不同价值环节提供了高效、低成本、安全可控的转移手段。同样的,对于数据资产而言,数据管道网络和编排流水线(以下简称数据流水线)也是数据管治体系的核心基础设施之一。丰富的数据集成接口:能够立即对已知的公共协议、系统私有接口等进行连接,及时、高效的获取数据。包括但不限于:各种关系数据库、nonSQL数据库、数据仓库与挖掘系统、数据集成与ETL工具(如Informatica、DataStage、SSIS)、ERP系统(如SAP、Oracle、Peoplesoft)、大数据平台(Hadoop各种变种、Spark等流式系统变种)、操作系统与文件系统等。
强大的数据处理编排能力:数据处理分析的流程越来越长,对时效性要求越来越高,传统基于定时触发、基于单个操作系统、基于零散脚本连接处理过程的方式无法应对。统一的数据处理编排平台能够对跨系统、跨平台的数据处理过程进行任务编排,提供基于脚本关联关系建模、基于多种触发模式(事件、返回结果、依赖关系、定制逻辑等)等功能支持,能够动态向不同系统上分发处理任务,能够预测处理。
支持数据处理的开发过程Devops化:为数据开发团队以及Devops团队提供开发、测试、发布、运维的一体化集成平台,不需要额外的工具完成从数据过程定义、测试、发布到生产环境、变更管理和故障处理的全过程,避免了传统模式下开发人员与运维人员在数据处理相关应用和任务上摩擦和低效。数据处理即代码:提供代码接口,开发人员、运维人员不需要手工配置系统,通过代码直接动态生成和管理数据处理任务。数据安全保护与审计:通过管理手段和技术手段禁止非流水线平台对数据的迁移和访问后,流水线提供数据传输过程的安全保证(加密传输),并对流动操作都有留档备查(时间、数据访问账户、数据流动起始位置、数据内容、数据去向等),为后续安全管理和合规管理提供支持。多云环境支持:多云架构环境中,数据的连接、移动将是企业多云策略成功落地的重要风险;如果数据无法在多个云环境中自由、高效的流动和共享,那么每朵云都将成为难以连接的信息孤岛,比企业数据中心内部的传统信息孤岛更加难以应对,因为数据没有保存在企业可控的资产中。流水线为企业多云环境提供统一的数据管理,支持公有云(如AWS、Azure、Google Cloud、Ali Cloud等的基础设施、数据服务与接口)、私有云(如Openstack、Kubernets、VMware等),以及PaaS、SaaS等。可视化支持:传统基于脚本的数据处理难以直观的了解当前的数据处理进度与状态,通过日志跟踪就是一场灾难。流水线平台应该提供数据处理任务的依赖关系模型、处理进度与状态、预计时间、故障依赖根源分析与影响分析等图形化展示,任何有权限的人员通过各种平台和设备实时了解相关信息,而不是必须由系统管理员查看和报告。
极大加速数据价值变现过程:任何团队都可以通过简单的脚本快速构建数据处理任务,快速迭代,并将数据结果快速推送给消费场景和分析人员;显著降低数据处理成本:不再需要大量技术高超、对数据处理精通的专家参与定制数据处理过程,不需要研究和编写数据接入和处理脚本,也不需要复杂、冗长的开发运维知识转移与交接,开发与运维成本都将显著降低;提升数据消费者满意度:开发数据加快、可视化了解数据处理逻辑、自助图形化跟踪处理进度、快速的故障定位与处理,都为数据消费者提供了前所未有的体验和效率;提升数据安全保护与合规:数据流动都被加密,数据流向都被记录留档,数据安全审计不再是令人痛苦的挑战。数据资产价值变现,如同企业的业务运营,是一个永续不断的过程。始终围绕价值变现目标,通过管理和治理体系,而不是仅仅着眼于技术平台的构建与维护,将是企业数据资产管理成功的不二法门。
我是「云祁」,一枚热爱技术、会写诗的大数据开发猿,欢迎大家关注呀!