【数智化案例展】浙江电信——数据中台与BI技术助力通信行业驱动高质量数据价值的流通闭环
网易数帆案例
本项目由网易数帆投递并参与“数据猿行业盘点季大型主题策划活动——《2022中国企业数智化转型升级创新服务企业》榜单/奖项”评选。
数据智能产业创新服务媒体
——聚焦数智 · 改变商业
对于通信行业而言,业务即数据。随着5G的逐步普及,再加上互联网的崛起,行业业务数据量骤增,对运营商网络能力的需求也越来越高,但用户数已趋于稳定,从而导致收入增长逐渐变缓。因此,以“数据密集”为突出特点的通信行业对数据管理的需求愈发迫切,提升数据管理效率、运维效率成为了行业内部推动业务发展的重要共识——通过数字化手段,进一步挖掘数据价值,提升数据生产力。
作为数字化基础相对较好的行业,通信行业数据存储和应用工具丰富。浙江电信拥有网络、经分、集市等多套数据集群,集群分散管理、技术栈不统一带来了很大的开发效率问题。在日常业务中,更是有大量的IT任务以脚本方式开发、调度,造成任务调度管理混乱、重复开发浪费、数据交付缓慢等问题。
实施时间:
开始时间:2021年10月
截止时间:2021年12月
客户的数智化(数字化)转型升级需求基于现有的数据集群与存储结构,浙江电信在当前业务发展中遇到了如下问题:
·数据查询工具分散,使用不便。不同业务数据分散在各数据存储系统中,且难以打通,数据查询需要分别通过相应系统中的即时查询工具进行,使用较为不便。
·数据开发效率不高,且筛选展示功能较弱。原有BI无法满足浙江电信对于报表筛选和展示的部分需求,也逐渐无法快速响应浙江电信对于数据应用越来越多的复杂要求。
·数据运维需要多系统分别操作,效率低下。浙江电信大量数据任务以脚本方式进行开发,技术语言和框架也各不相同,导致调度管理难度大,跨集群跨框架协同复杂;其次,数据系统的分散使得运维人员需要分别登录各个系统数据进行操作,效率低下的同时也无法对问题进行及时响应。
浙江电信经过内部分析讨论,认为公司需要将分散的数据计算存储设施进行集成,从而能够在一个平台上将数据任务的开发,数据运维管理,数据查询等进行统一管控。同时,为了具备实时、可交互的多维分析能力,并且让公司决策层拥有全局的数据视角,浙江电信决定建设一套全新的敏捷数据开发及可视化系统。
在厂商选型方面,浙江电信主要有以下考量:
·公司底层数据存储系统复杂,平台化集成难度大,需要厂商具备较强的技术实力;
·需要厂商能够同时提供数据开发管理平台和BI全套解决方案;
·需要厂商提供成熟的产品而非通过定制化开发解决。
经过综合评估,浙江电信选择了技术和产品实力强,提供全链路解决方案的网易数帆作为合作伙伴。
面临挑战01
技术栈不统一
因原有的相关组件构成复杂,来自不同厂家,开发、治理、调度均各自独立运营,难以形成有效的关联与统一管理。因此在项目实施初期也遇到了较大挑战。
首先,一体化平台作为数据中台的开发治理部分,将引入数据集成中心、任务运维中心、离线开发中心、实时开发中心、指标系统、数据资产中心、数据地图、模型设计中心、数据质量中心、数据服务等10个应用组件。为此,网易数帆在该基础上完成二次开发以适配浙江电信需求,二次开发的内容包括适配MPP数据库,适配脱敏中间件开发、适配指标管理系统、对接多套Hadoop、对接4A系统等。
其次,在BI可视化部分,网易数帆助力浙江电信引入可视化分析、可视化大屏、移动端、自助取数、复杂报表、数据填报、智能决策、数据门户等8个开发组件,支撑各类数据使用需要,并做二次开发对接报表平台门户、统一指标库,适配安全管控的开发。
02
海量数据迁移
在项目实施过程中,数据任务迁移也是难题之一。首先,浙江电信之前的脚本任务是通过不同的编程语言实现的,实现数据迁移对迁移工具的通用化程度要求很高。其次,在数据中台中,数据任务要根据具体建模和使用方式进行逻辑分层,包括逻辑任务的重新梳理和拆分等工作。最后,需要迁移的数据任务约有2-3万个,数据量庞大,需要在既保证数据任务的正确性,又不干扰到正常业务运行的情况下,进行数据任务的平滑迁移。
网易数帆采用自主研发的数据迁移工具,完全满足适应性要求。在巨大数据量面前,双方选择了分批迁移的方式,在工具平台中创建了一套与电信实际生产数据完全映射的测试变量,并将一批几千个任务上传,网易数帆团队会监控天任务及综合月任务运行状况,浙江电信配合每周对测试数据与实际数据进行比对和稽查,在持续观察1.5-2个月后,正式将该批次任务迁移到数据中台中。
应用技术与实施过程网易数帆经过充分调研,为浙江电信设计了包含统一的数据中台和BI敏捷数据分析与可视化平台两大产品的整体解决方案。
数据中台:
考虑到业务以往的数仓建设历史,浙江电信希望新建的数据中台能够在不做迁移的情况下实现对原有数仓集群的接管,网易数帆基于实际考量提供了逻辑数据湖方案,该方案主要分为大数据开发套件和大数据集群两部分。
在大数据集群层面,浙江电信既可以保留原有的HDP、CDH集群,也可新建网易自研Hadoop发行版(即网易数帆大数据基础平台NDH)或者接入原有的MPP系统,通过统一的元数据将散落到各个子系统的数据管控起来,从而打破数据孤岛。在大数据开发套件层面,数据建模、数据开发、数据治理、数据服务则形成了一套完整的中台体系。
逻辑数据湖构建了一个“物理分散、逻辑统一”的数据湖体系,用该体系把多个数据孤岛打通,避免了不必要的物理数据入仓(湖),从而将产品上层功能比如主题域构建、数据地图等功能及早提供给用户使用,并在持续交付中不断纳管历史数据成果。
图-平台总体建设方案
基于以上的技术背景,逻辑数据湖总体系统架构必须满足以下两点:
1. 统一元数据:统一元数据(元数据中心),提供了统一应用管理的基石。无论是物理湖,还是逻辑湖,都需要一个元数据中心的组件来统一管控湖中所有对象元信息。主要有如下几个核心功能:
数据源支持类型:除了Hadoop(Hive)体系,MPP、RDMS、HTAP、KV、MQ等都需要支持,并且一视同仁,都可以作为具体逻辑数据湖具体对象的物理存储。
数据源信息的管理:负责存储各类数据源的接入登记信息,进行统一的合法性、连通性校验,确保数据源的可用性。除了支持传输的传统对象型数据源,还需要支持API网关等非结构化的数据源。
元模型的设计:抽象设计通用的数据对象描述meta-schema(比如catalog-db-table类似的三元组)。流表的构建,主要针对一些schema free的数据源,比如MQ、KV系统等,在原有的数据对象(比如Topic)上创建流表,一方面可以让数据开发一目了然地知道消息体的详细格式,一方面也为数据开发SQL化奠定了基础。元数据中心定义了一套字段类型字典以及各数据源字段类型的转换逻辑,对上层应用提供统一的类型转换支持,统一的字段字典,规避了不同的数据源字段类型集不同造成的报错。
元信息的连接管理:包括数据源技术(物理)元信息的定期抽取。定期同步各个物理数据源的元信息,用于做快照管理、地图、IDE开发推荐等。业务元数据的关联。在meta-schema的基础上,增加标签、主题、资产风险登记以及其他自定义的业务元信息的关联,并提供点、批量的修改查询能力。动态元数据的变更管理。根据任务运行实例的SQL信息等,及时调整血缘信息,同时对于流表&Topic等同源的对象,在血缘影响分析层面自动进行合并关联。
2. 统一应用:统一的应用就是模型设计、数据传输、数据开发、自助分区取数、资产地图等都能在各个数据源上实现产品功能。
模型设计:基于元数据中心提供的业务元数据的接口能力,在具体数据源上数据主题域的构建和划分,数据对象的打标等。同时支持在该数据源上进行规范的建表管理,实现手动、批量的表处理。
数据传输:实现不同逻辑数据源之间的数据传导,同时也是后续数据入物理湖的基石。数据传输根据逻辑数据源的元信息,给出最佳的传输方案。
数据开发:一种是直接在源系统上进行开发,比如各类的SQL任务,用户选择对应的数据源,调度执行节点根据数据源相关的信息、驱动配置等直接连上数据系统执行任务,支持用户保留原有的开发习惯,也方便任务的迁移。对于跨源的SQL任务,主要依托Spark、Flink等计算框架的catalog-manger框架来实现。
自助取数:自助取数和数据开发类似,在单源数据模型信息的基础上,根据登记的数据源信息以及应用场景的关联账号,提供直连数据源的取数能力。
资产地图:通过将各个来源的数据对象元信息进行串联和整合,给用户提供快速数据查找的能力。以地图表搜索为例子,通过解析逻辑数据源抽取并解析源系统的表元信息,关联主题、指标、标签等信息以后写入ES等检索系统,从而提供多个维度的库表检索能力,除了表详情以外,还将关联的产出任务、血缘信息、变更ddl等一并展示。
数据血缘:统一元数据提供了统一应用管理的基石,数据血缘则能够将数据应用管理的多个场景串联起来,相互协同发挥更大的作用。在任务提交阶段,我们就会对SQL进行静态解析,拿到输入输出表展示给用户,方便用户调试调整任务,在任务上线配置中根据历史血缘信息智能地推荐出依赖的上游任务。另外在任务执行时,执行调度引擎服务会把运行时SQL,结合静态的SQL形成的血缘表达式统一传送给元数据中心,元数据中心生产最后的实际血缘信息,并进行血缘生命周期的管理。
图1 浙江电信数据中台架构图
敏捷数据分析与可视化平台:
·以敏捷 BI 方式替换现有传统报表开发方式,实现了拖拉拽快速制作报告、自助取数、统一门户管理等分析功能。
·与中台一体化,顺畅实现数据产出订阅和数据指标显示,提升报表分析实时性和易用性。用户可以对关注的数据进行订阅,数据中台相关数据任务运行完成之后会通知用户可以在BI平台进行报表制作,两平台的联动还可实现报表数据自动刷新,大大提升了报表数据的实时性。报表用户通常对数据指标和维度的区分有严格要求,而数据指标的定义由数据中台完成。网易数帆有数数据中台和有数BI平台的高效联通使得BI平台能够以轻量化的配置实现自动识别和显示数据指标的功能。
·兼具向下游各类用户进行报表集中展示功能。浙江电信大数据部门需要为后端部门、前端部门、分公司提供数据报表支持,但因为涉及的主体过多,对敏感数据及数据权限的控制工作较为繁杂。网易数帆有数BI平台提供自动化解决方案,通过接口进行集成,并统一进行报表权限控制,针对不同供应商,权限可以细化到报表里的行和列数据,因此浙江电信将BI平台作为全公司集中进行报表数据开发和展示的平台。
图2 浙江电信敏捷数据分析与可视化平台架构图
综合来看,浙江电信借助数据中台与敏捷BI可视化技术统一了数据开发、运维、权限、自助查询和可视化分析能力,提升了公司数据运维的效率。
·数据开发:提升开发效率。数据中台使得各种数据任务和功能开发从人为控制过渡到了平台管控,无需管理多套技术栈,节省大量的时间,提升数据研发效率1倍以上,大幅度减少数据故障发生率。
·数据运维:实现从分散数据运维到集中处理。从前运维人员需要登录不同的系统对数据任务进行监测,数据中台将所有数据任务汇聚到运营中心,运维人员能够统一看到所有系统的运营状况,出现问题时能够批量操作,在几秒钟之内对出错的任务进行重跑。同时平台内置多样的报警功能,在数据运行异常时能够通过电话、短信、邮件等多种方式通知相关负责人,保证了问题处理的即时性。
·数据权限:统一权限管理避免越权。数据中台把所有数据源权限统一导入中台进行管理,当某一用户登录中台时,中台可以明确该用户对所有数据库的权限,避免了越权问题。敏捷BI平台对具有报表查看需求的下游各类主体数据权限进行统一管理,提升了上下游数据交互的效率。
·自助查询和可视化分析:提升取数效率,建设数据文化。浙江电信数据中台的自助查询工具将之前分散的即时查询端口进行收拢和统一管控,自助式的分析与取数提升业务人员获取数据效率、分析效率,推动公司形成了“天天用数据、人人用数据”的氛围。
关于企业·网易数帆
网易数帆是网易集团旗下 To B 数字化转型技术与服务提供商,依托网易二十余年互联网技术积累,为客户提供创新、可靠的国产软件基础平台产品及相应技术服务、行业专属解决方案及数字化建设咨询服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能算法应用三大领域,帮助客户快速搭建无绑定、高兼容、自主可控的创新基础平台架构,目前已服务金融、零售、制造、能源、通信等各领域头部客户百余家。
·中国电信股份有限公司浙江分公司
中国电信股份有限公司浙江分公司是中国电信首批在海外上市的四家省级公司之一,是浙江省内规模最大、历史最悠久的电信运营企业。目前公司下辖11个市分公司、62个县(市、区)分公司、1个直属单位(省长途电信传输局)、2个专业分公司。
《2022中国企业数智化转型升级服务全景图/产业图谱1.0版》
❷ 创新服务企业榜
❸ 创新服务产品榜
❸ 最具投资价值榜
❺ 创新技术突破榜
联系数据猿