查看原文
其他

中国联通海量网络数据治理实践

CCSA TC601 大数据技术标准推进委员会
2024-09-16

近年来,我国大数据产业一直处于持续向上向好的态势。中国信通院作为行业智库和产业创新发展平台,始终通过行业研究与各位同仁同频共振,梳理和总结发展的趋势、面临的挑战,形成体系化的观察。在2023数据资产管理大会——数据资产化分论坛上,中国联通智网创新中心丁宏伟发表了《中国联通海量网络数据治理实践》的主旨演讲,从数据资产管理架构、夯实数据治理基础能力、健全数据标准体系、提升数据质量等方面对中国联通数据治理的经验进行了分享。


演讲内容如下


各位专家领导,下午好!今天我给大家分享的主题是《中国联通海量网络数据治理实践》。



首先简要介绍一下中国联通网络数据资产的管理架构。我们的架构分为三个层次:

一是我们将全国31省联通30多种网络数据全部会聚在一个底座;

二是开源的数据加工底座。我们的数据资产的管理体系是跟随DCMM的整个架构体系,去年我们已经通过DCMM 4级贯标,今年支撑中国联通通过5级贯标。

三是数据赋能和工具赋能也做了集约化,包括研发工具直接贯通到数据底座当中。所以整个架构就是集约化的架构。



我要做集约化物理上统一的底座的原因是因为我们在实践过程当中遇到的问题。2020年我们拥有最多达到10个大数据集群,这些集群带来了两个问题:

一是数据孤岛,二是“烟囱系统”。


我们为了规避这两件事情做了统一的大数据底座,做到完全开源、自主可控等等,现在这个量没有上万,只做到8000多台,其中有1000台的海光,1500台的华为,它整体上是一个底座,而且是信创混合架构,所有的HDFS是空的。


在实践过程中我们也意识到一个问题,即如果要做数据治理,必须要从源头上把事情解决。



因此,我们健全了数据标准体系、规范建模过程。


我们做网络数据的标准的第一步是要定义好术语,尤其是2G、3G、4G、5G基站名字都不一样。为此我们自己做了术语和专用词根和通用词根定义大约500多个。


做模型的分层,我们模仿业界的做法,“自底向上”去纬度建模,“自底向上”我们理解“底”是数据源,“上”是数据应用。从数据源到数据应用的过程当中,我们是逐步分层收敛,现在ODS层大概有700张表,ADS层有400多张表。平均一个ODS的表到ADS数据量差不多是5%,我们通过层层的会聚收敛,中间数据产品都可以共享。


我们秉承的概念是数据只加工一次,ODS层数据只做一次加工,加工之后给所有人复用。所有分层的数据资产又做分域,这个域和每一个层有关,可能所有不同的业务有不同的定义方法。


最下面是网络制式,越往上越接近应用。总共定义差不多90个分域的概念,这个就是我们目前所有采集差不多几十种数据。大家可以看到这几十种数据是31个省,每一个省都要采一遍。最大的问题是数据质量没有办法保证。我们采取的方式也比较简单,源端治理和闭环管理。我们发现在网络数据领域内,其实最大的问题出现就是在采集阶段,从省里面采集送到集团集中处理的这一段,是最容易出问题的。因为中间经历的环节太多了,中国又这么大,经历的传输又这么长,所以我们花了很长的时间去把事情处理好,我们主要是建立两个事情:



第一个事情是量化管理,这么多的数据标准不同,打开之后每一个格式都不同,有的数据一天1000T,有的数据20G,我们要对它做拉齐的量化评价标准。如果不做量化,就没有办法评价这个数据质量的好坏。

第二个事情:建立“端到端”的工单管理体系,通过工单驱动到具体的人现实处理事务。我们这个事情运作一年效果非常好,有6个原来认为基本上是多少年都解决不了的顽疾问题,现在基本上都解决了,包括无线核心网用户、回填率,基本上都提升到90%以上。



最后是充分释放数据价值。


举一个例子,前天晚上宁夏地震,我们当时立即做保障,保障什么呢?一是基站,哪些基站断了,让甘肃和青海本地去抢修;二是看失联的手机用户最后位置在哪里,是不是他被压住了;三是欠费用户不要让人家停机了。这就在显示央企职责和社会责任的时候,我们做这方面的应用比较多,主要是网络数据实时用户行为和位置,尤其像120急救,大家听过相似的新闻,打了电话说不出来自己的位置,以及地震被压住怎么样发现他的位置。


时间有限,其实我们做了像数据安全和原数据治理,以及自己做数据价值评估的方案,自己帮所有的数据做价值的打分列表,以及数据的健康度,时间关系我就分享到这里,谢谢大家。


下一代数据治理三大趋势
通信数据要素×交通:《电信运营商数据赋能交通行业白皮书(2023)》正式发布,附下载链接
关于我们

     中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!

      入会咨询:白老师   13520285502

                       baizhimeng@caict.ac.cn



继续滑动看下一个
大数据技术标准推进委员会
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存