▏摘要
中国移动基于“以治促用,以用促治”的治理策略,构建数据资产运营体系,内循环面向数据管理人员,促进低价值数据迭代优化、高价值数据重点推荐、无效数据逐步下降,降低数据储存成本;外循环面向数据使用者,将高价值数据资产不断开放和互动,收集数据使用者的需求以持续完善数据资产,输出企业级数据开放目录,促进数据应用。通过内外双循环不断互动,推动数据资产迭代优化,全面释放数据要素价值。
▏关键发现
• 中国移动将数据治理工作融入到数据运营的具体环节,内外循环并举,打造企业级数据治理运营服务体系,提供端到端的数据治理服务。通过数据资产目录协同治理,以全流程拉通为手段,实现数据管理方、问题管理方、数据提供方三方问题统一收集,统一分发,统一处理,节约线下多方沟通成本,提升工作效率;
• 中国移动创新数据治理体系内循环以元数据为驱动,数据治理的所有功能以元数据的方式与生产系统交互,实现采集生产、管控生产和支撑生产相关信息,为全网数据治理提供可信、标准、智能的数据治理能力支撑;
• 外循环中最核心的举措是中台能力建设,通过灵活多样的数据服务方式,将大数据能力赋能各行各业,让用户充分享受数据资产红利,成为数据资产价值赋能的主体,其次是形成企业级多层级的数据目录体系,快速实现数据转化、数据萃取和价值呈现,加速业务数据转化为数据业务。
分享专家:胡清源,中国移动信息技术中心大数据平台部项目总监作者:沙丘社区分析师团队
01
案例企业
中国移动信息技术中心(以下简称“中移信息”)负责中国移动集团内部集中化IT系统的管理、运营和支撑,2020年加挂大数据中心,承担内外部数据汇聚和治理职能,充分发挥大数据对内支撑精准营销、精细服务、精确管理等业务发展和经营管理,对外赋能数字化生态拓展和垂直行业应用。02
项目背景
中国移动大数据发展历程分为三个阶段:
一阶段起步于2002年的两级经分,采用集-省两级架构,集团和各省分公司分别建立自己的经营分析系统,以传统数据库为基础建立数据平台,注重质量,用于内部经营分析。
二阶段为2014年启动集中化大数据平台的建设,强调企业BOM三域数据的汇聚和统一融合,在集中化大数据平台进行统一的面向全网的支撑。
三阶段自2020年至今,成立大数据中心后,启动分布式协同架构建设,构建大数据生态,对企业内外开展数据运营、数据赋能,以数据中台为核心,坚持“一个平台、一份数据、一个中台、百花齐放”。
为了保障大数据体系的平稳运行,中国移动建立企业级数据治理框架,分为4个部分:
• 数据战略:从技术创新、数字赋能、价值创新三个维度推动数据战略开展;
• 保障机制:通过治理规范体系和专家培养体系两个维度保障数据治理正常开展;
• 工具图谱:数据治理工作的高效开展需要工具支持,中国移动形成覆盖数据全生命周期各个环节的图谱体系;
• 数据管理活动:通过数据能力体系、数据管控体系、数据运营体系、数据流通体系四大类数据管理活动落实数据管理工作。
在组织基础方面,虚实结合。在实的层面是以部门为基础的管理组织,集团层面成立IT管理委员会,下设IT管理委员会办公室作为办事机构,与信息技术中心合署办公,下辖大数据BG包括大数据平台部、大数据应用部、大数据生态部均为实体组织。在虚的层面,由于数据治理工作需要多方协同,因此建立以数据为核心的虚拟组织,包括中国移动31省公司中央横向线条以及市场部、网络部、财务部、专业公司等各种纵向业务线条,各省分公司、业务部门及数据管理组织在统一的数据治理框架下开展工作。
在顶层设计方面,中国移动聚焦规范和架构两个方面。在规范方面,中国移动形成《全网大数据治理规范》体系,为全网治理提供提供统一的标准,切实指导数据管理中的难点、痛点问题的解决,切实提升规范体系对大数据生产管理实践的指导意义,在规范体系之下,各单位可以制定适合本地系统、组织、人员的N套规范;在数据架构方面,中国移动创新性的提出并构建分布式协同技术架构,构建逻辑统一的全网大数据底座,着力解决业务集中承载带来的大规模并发和数据管理挑战。
数据治理工作开展之前需要治理平台支持,中国移动创新提出以元数据为驱动的数据治理体系,数据治理的所有功能通过元数据的方式与生产系统对接,实现管控生产、支撑生产和采集生产的相关信息,为全网数据治理提供可信的、标准的、智能的数据治理能力支撑。
在数字化转型背景下,在数据资产建设和数据管控为核心的数据基座上,数据资产规模指数级增长,带来数据资产保值增值难、数据资产价值和质量不易持续等新问题,数据运营工作越来越成为数据价值发挥的“催化剂”、“增强剂”,拉通、平衡、促进数据资产供需两端,因此,中国移动希望建立一套内外兼顾、供需融通的数据资产运营体系,实现数据价值最大化应用的新目标。
03
解决方案
中国移动构建“内治外促”双循环资产运营体系:内循环面向数据管理人员,通过治理能力图谱、数据治理评价体系,不断促进低价值数据迭代优化、高价值数据重点推荐、无效数据逐步下降,降低数据储存成本;外循环面向数据使用者,将高价值数据资产不断开放和互动,收集数据使用者的需求以持续完善数据资产,最终输出企业级数据开放目录,通过内外双循环的持续互动,推动数据资产迭代优化,实现数据价值的提升。“以治促用”是基于数据治理能力图谱与多维度的资产评价体系,通过打造能力图谱、应用评估、价值推荐、统一接入等能力,识别数据资产价值,推动高价值资产开放、低价值资产优化、过期资产清理,利用数据治理体系持续迭代开放的数据资产,促进数据资产可用、好用。“以治促用”的手段有两方面:第一,治理能力图谱是数据管理人员使用数据治理能力改善数据资产;第二,数据评估体系是解决数据不可见、不可估的情况,洞察数据资产。第一,以元模型为驱动,构建元数据管理能力。元数据对数据治理来说是必不可少的信息资源,从流向来看,首先是元模型设计,中国移动元数据分类包括技术元数据、业务元数据、操作元数据和管理元数据,同时形成12类元数据模型,包括模型、接口、指标、维度、报表、标签等,在元模型设计基础之上进行适配,构建采集的适配层,实现元数据对接和采集的标准化工作,将所需的各类元数据统一存储到元数据仓库中,构建统一元仓,对元数据进行解析,形成数据治理人员可用的元数据,最终将元数据形成元数据应用,例如数据血缘、数据地图等,提升数据管理人员和数据治理人员的工作效率。第二,持续丰富资产,夯实数据底座。中国移动数据来源广泛、数据类型较多,想要实现全网数据统一汇聚就需要构建高效协同的数据采集能力,确保多源异构数据能够进入到统一的大数据底座之下。为此,中国移动构建数据接入治理可视化能力,一部分是采集管理,构建线上化的数据采集运营、采集实施、采集监控,实现采集管理的线上可视化;另一部分是接口治理,通过接口规范管理实现采集接口标准化,数据提供方、数据使用方、数据管理方围绕统一规范开展数据对接工作,质量问题监控使得数据使用方的数据质量问题可以溯源到数据提供方,并对问题解决过程进行监督监控。第三,基于元模型加强数据模型建设。通过元数据的结构与元数据之间的关系,基于元模型构建需求流动链结构模型,支撑可视化、线上化的数据建模和资产治理,例如拖拉拽方式建模、模型变更管理、模型信息更改、模拟信息查看,并通过元模型和元仓实时拉通建模和治理信息,实现管建一体。此外,随着开发平台的多样化,很多开发工具会受制于异构的底层数据库或平台部署,元数据可以屏蔽底层的数据差异,数据管理人员只需要查看可视化页面,即可实现相关的建模工作。第四,闭环质量管理常态化。具体措施包括三个方面,其一是数据质量责任制,谁使用谁提出、谁开发谁保障、谁提供谁负责;其二是闭环处理流程,包括问题发现、问题分析、问题处理、问题验证、使用验证、问题归档、问题总结,形成闭环,保障数据问题处理效率、避免重复数据质量问题的发生;其三是质量分析,包括及时性和准确性相关的分析。第五,生命周期管理,助力数据分级存储和清除策略。全生命周期管理对于超大规模数据的治理来说至关重要,按照数据热度进行分析,热数据访问频率高,使用高成本存储介质进行数据存储;当数据逐步温下来之后,进行存储介质的转移;对于冷数据,进一步考虑存储介质的下降,降低数据存储成本;对于低价值或长期无效的数据,进入到数据销毁阶段,逻辑上先进入数据回收站,确定一段时间无效后,在进入正式的物理销毁,避免数据误删操作。第六,释放“安全合规”的高质量数据资产。传统数据安全会考虑数据加密、数据授权等传统的安全管理措施,在本项目中,中国移动基于元数据进行数据安全能力的提升,进行安全敏感信息的识别和确认,基于元数据构建安全词库,包括分类分级字段库、关键词库、加密词库等,结合NLP、AI、挖掘算法等,进行敏感等级的自动识别以及敏感信息的自动判别。第七,设定考核指标。围绕数据采集、全网通报、质量考核,开展专题活动等,保障数据治理能力能够落地实施。内循环的第二个关键点是数据资产评估体系,保障数据治理人员能够看到数据各个维度的情况,如发现数据资产问题、发现高价值数据资产。数据资产评估体系包含四个维度:第一是成本维度,与数据存储周期密切相关,包括数据存储成本、获取成本、处理成本等;第二是应用维度,与数据价值结合,包括稀缺性、多维性、应用深度等,形成数据资产价值分析;第三是质量维度,数据质量保障是数据高价值的基础;第四是风险维度,包括合规性和安全性,提前防范数据泄露、违规使用等问题。外循环面向数据使用人员和数据运营人员,通过一体化生产运营,推广数据资产能力,多渠道赋能内外部数据使用,将数据价值变为数据治理的驱动力。外循环中最核心的举措是中台能力建设,中国移动围绕数据中台提出“中央厨房”概念,将大数据能力赋能各行各业,使每个用户都能享受数据资产红利,成为数据资产价值赋能的主体。数据中台能力分为三类:第一类是统一数据、平台底座,第二类是标准工具组件、模型算法,第三类是核心数据能力。“中央厨房”开放体系具有五大特征:第一,构建分布式协同计算平台,打造开放“厨房”;第二,聚焦数据处理,锤炼基础“厨具”能力;第三,打造核心数据能力,上架“半成品食物”;第四,夯实数据资产底座,积淀“厨房食材”;第五,统一数据治理体系,建立“食材质保”能力。外循环下第二个关键点是形成企业级多层级的数据目录体系,首先是数据资源目录,目标是确保数据全量可见,主要服务于数据管理人员,按照主题、来源、层次、业务标签等进行分类展示;其次是数据资产目录,将可用、可控的数据放到资产目录中,主要服务于数据开发人员、应用支撑人员、运维保障人员;最后是数据开放目录,将可以内外部共享使用且具备一定可信度的数据放到开放目录中,主要服务于数据应用人员、保障人员或外部租户,可快速订购可信资产。第三个关键点是灵活多样的数据服务,分为“PaaS厨房”、“DaaS超市”和“SaaS餐厅”三类。“PaaS厨房”强调全面开放,拎包入住;“DaaS超市”是一种数据调用方式,以API调用为主;“SaaS餐厅”是提供直接可使用的成熟大数据产品。同时,从两个方面进一步提升数据服务的安全可信:第一是数据全生命周期的安全管理,对各个环节做到事前防护、事中控制和事后审计;第二是多方安全计算,作为一种新型技术,主要面向外部数据合作方,提供数据可用不可见的服务,推动数据流通,创造融合价值。04
价值与效果
通过“内治外促”数据资产运营体系,中国移动实现数据进得来、管得住、看得见、用得好,实现数据从生产到应用的闭环,将全链路拉通。通过智能化技术手段,中国移动也实现业务IT一体化、管建一体化、管用一体化等一体化成效。通过搭建多级目录体系,提升数据开放效率、降低数据成本、提高数据处理性能以及敏捷访问,最终实现数据质量可靠。最终,中国移动达成内外赋智赋能的根本目标,对内实现数据更易做、数据更易得、数据更易懂、数据更易察,对外规模发展,在智能文旅、智慧校园、自动驾驶、智慧银行等方向扩展数据价值释放能力。