拥有敏捷数据交付平台(DataMaster)是怎样一种体验?
这是傅一平的第280篇原创
作者:傅一平
个人微信:fuyipingmnb
DataMaster是浙江移动最新打造的一站式敏捷数据交付平台,其通过整合大数据采集、取数、开发、挖掘、开放、调度等多种能力,使企业能够端到端的快速完成数据加工和交付,从而高效释放数据价值。
DataMaster划分为六个中心,分别为采集交换中心、取数操作中心、数据开发中心、敏捷挖掘中心、数据开放中心及运营管理中心,这里做一简要介绍,希望于你有启示。
一、采集交换中心
实现了异构的数据库/文件系统之间高速数据采集交换,比如浙江移动大数据的采集交换任务几十万,必须依托于分布式,开放式灵活架构,主要包括五点:
1、采用去中心化的技术架构,支撑任务分片、分布式调度和执行,支持一站式运维;
2、通过网络、内存、磁盘资源线性规划,实现任务运行负载平衡;
3、提供多租户管理能力,实现能力的对外开放,很多数据交换都是应用驱动,必须提供灵活的支撑;
4、提供RPC、REST等服务能力,实现各类采集模块解耦,方便与第三方集成,一定要让工具适应场景,而不是反过来;
5、提供完全可视化的操作界面,无缝集成数据目录、采集模板等功能,降低数据采集和分发门槛。
二、取数操作中心
可以认为是ORACLE开发工具PL/DEV的大数据平台版本,其通过封装SQL语法,提供各类异构数据平台的统一查询入口。
我们用了多年时间进行打磨,项目经理变成了产品经理,体验才做到了与PL/DEV基本持平,代价不可谓不大,但PL/DEV是死的,封闭的,无法定制的,而取数操作中心还在演化,包括但不限于:
支持多窗口并行操作、数据字典随时在线索引、表名字段名智能联想、快捷键自定义、取数操作轨迹跟踪审计以及查询权限隔离管控等特性。
支持Hive、Spark、Gbase、Oracle、MySQL、Aster、Teradata、EsgynDB等十几种主流计算平台。
三、数据开发中心
可以分离线和实时两大部分。
1、离线开发交付
采用组件化方式,针对Hadoop、RDBMS、MPP等数据库或平台特点,对既定的、常用的数据、规则、功能、方法等进行定制封装,实现跨平台统一开发,开发人员通过可视化界面以拖拉拽方式,即可完成相关数据处理的开发,数据处理更加简化,处理效率更高,套路大家都差不多,不同的就是体验吧。
2、实时开发交付
以Flink为基础构建实时计算能力,构建了统一的实时数据模型开发、调度,运维一体化工具,提供了基于图形化组件的实时数据编排服务,并实现统一的元数据管理。
同时针对实时数据存储特点,实现非结构化的模型管理,解决线下流式数据开发效率低下,缺乏数据工具支撑工具等问题,也就是说,离线模型和实时模型现在能纳入同一套数据管理体系进行管理。
我们的理念就是甭管离线和在线实现方式是的如何不同,对于前端开发人员一定要保持足够透明和简洁,否则就会影响它的普及使用。
四、敏捷挖掘中心
笔者以前曾经做过介绍,从实用的角度讲,R/Python还是主流的挖掘引擎,现在最大的问题还不是深度学习的问题,而是数据准备、模型训练、模型发布、数据管理各项任务流程割裂的问题。
敏捷挖掘中心重点解决二个问题,一是R/Python集成数据目录等能力,也就是说,挖掘引擎可以直接复用企业数据字典的表,无需人工导入导出等工作,二是训练后的模型可以作为节点一键发布到数据开发中心的流程中。
诸如阿里的挖掘平台都是这种一站式的理念,当然它们做的更彻底,整个训练都是图形化的,但有利也有弊,不同的企业需要根据自己的情况灵活调整。
除了敏捷挖掘,也在采用其它各种挖掘引擎,包括SPARK,分布式SPSS,基于GPU的TF等,这些引擎各有优点和适用范围,如果后续使用的多了,也会考虑敏捷化。
五、数据开放中心
数据安全是企业进行数据价值变现的重中之重,我们的理念就是数据和应用开发可以百花齐放,但数据出口必须只有一个,因此,几年前就建设了数据安全网关。
数据安全网关以数据服务API为基础,通过建设服务生产、服务管控、服务提供、数据产品运营计费、数据服务安全管控、合作伙伴运营管理等多个模块,实现对大数据开放增值过程的全面管理。
通过建设大数据安全网关,不仅有效支撑了对内数据服务工作,也为大数据对外增值变现提供了基础安全保障。
六、运营管理中心
运营管理中心包括租户运营管理、数据资产管理、数据运维管控、数据模型超市等系列功能,这里做简单的介绍:
1、租户运营管理
DataMaster与企业的云管平台贯通,实现租户和数据资源的管理和分配,包含Hadoop、Hive、Mpp、Rdb等各类资源的纳管、资源申请流程贯通以及资源配置和使用信息的可视化展示,以下是从资源申请到最后标签发布的全流程示意图。
2、数据资产管理
提供了一套标准化、流程化、自动化、一体化的数据资产管理工具,包括数据架构规划、业务数据变更管理、元数据管理、数据质量管理、企业级数据字典等功能,我们重点关注数据资产管理的四个方面:
一是业务系统数据资产的纳管,要从源头解决数据资产准确性问题。
二是元数据管理嵌入到开发流程中,解决二张皮问题。
三是关于数据质量的影响评估,要具备从源表、作业、中间表到应用的全流程分析能力。
四是数据字典的运营,要确保可用性,降低管理成本。
以下是企业数据字典的界面示例。
3、数据运维管控
数据运维要实现数据全生命周期生产保障,主要包括一站式各类异构数据库作业任务运行监控告警、作业智能诊断、数据质量预警等系列功能。
大数据运维的重大挑战一是对于各种异构平台、作业级别资源耗用的自动化评估和优化,二是数据质量的监控,底层的数据质量问题往往牵一发而动全身,对于海量数据必须用系统化的手段来解决,以下是作业监控的列表示例。
4、数据模型超市
数据交付后一个很大的问题就是开放共享,比如一个租户开发了一个很好的模型,但企业其他的组织和个人不清楚,或者清楚了也不容易移植,很多企业都面临模型最佳实践无法快速复制的挑战。
我们认为还是需要从平台层面解决问题,模型超市是一种尝试,其依托于统一开发和数据资产管理引擎,通过模型评估、模型分享、热度排名、一键移植等功能来实现快速复制共享,它不仅是个数据社区,更是个生产平台。
DataMaster任何一个模块的打造都无法一蹴而就,对于上述各种功能的描述看似轻描淡写,实际都是建设的关键,当然更大的挑战还在于运营,大家都懂得,我们还有很长的路要走。
最后做个广告,浙江移动的DataMaster也将参加中国信通院的2019年大数据“星河奖”的评选,欢迎大家关注!
完
作者:傅一平 (微信号:fuyipingmnb)
可能错过的近期精选文章(点击链接即可阅读)
从芝麻信用分透露的详细数据设计,我们能从中得到什么启示?
传统的数据从业者,并不会从大数据中获得多少红利
十年的标签库建设经历,我得到了什么启示?
艰难的旅程,你的数据中台到底能为一线提供多少火力?
PPT,考验你的格局、能力和思维的方式,你得学会驾驭它!
如何避免成为一台取数机器?
哪些广为人知的数据挖掘案例其实是一地鸡毛?
数据的价值到底如何评估?
为什么我提交的数据分析报告总是被领导K?
我如何用统计学指导自己的生活?
从吴军的“算法的油水就那么多”说起!
一起成长,让我们与数据同行
忙完工作,偷得浮生半日闲,讲述自己的数据人生
大叔/电信博士/500强央企/大数据/人工智能/统计取数/数据挖掘/数据产品/数据管理/数据仓库/数据变现