查看原文
其他

数据湖,为企业数字化战略注入新动能

罗晨 数据工匠俱乐部 2022-08-17

2020年,中共中央国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》以及《关于新时代加快完善社会主义市场经济体制的意见》中首次将“数据”纳入生产要素范围,与土地、劳动力、资本、技术并称为五大生产要素,提出加快培育数据要素市场,充分挖掘数据要素价值,是建设现代化经济体系的重要基础。

2021年,随着“数据”正式上升为国家基础性战略资源和关键性生产要素,与数据相关的法律法规已在加快出台,如《数据安全法》、《深圳经济特区数据条例》等,与数据相关的要素市场化正在加速推进,如北京国际大数据交易所,旨在全面实施大数据战略,加快培育数据要素市场,充分体现出数据资源已经成为维系国民经济运行及市场主体生产经营过程中所必需具备的基本因素,充分反映了数据生产要素的重要性、关键性和时代性。

与传统要素相比,数据具有可复制、可分享、可无限供给的天然禀赋,数据资源能无限次被复制使用,重复利用的边际成本非常低,打破了自然资源有限供给对增长的制约,从自然资源利用到社会经济运行,从民生到政务,从微观到宏观,一切信息都在以数据的形式实时传输与处理,在信息技术与经济社会的交汇融合过程中,人类各种社会活动引发数据量呈现爆发式增长。

根据国际数据公司(IDC)的监测数据显示,2019年全球大数据储量已达到41ZB,到2025年全球大数据储量将达到175ZB,全球平均每年数据量增速超过40%,中国的增速比全球快3%,数据产生量约占全球数据产生量的23%,保持快速增长态势。随之而来的是在数据量级上对存储空间的挑战,在数据流通上对共享融合的演进,在数据价值上对探索挖掘的支撑,以及在数据管理上对标准规范的强化。

数据生产要素属性的提升,对企业内数据建设提出了全新要求

数字经济时代正在改变所有产业,与过去相比,企业面临更多的数据、更为迅速的行业更迭,更为复杂的市场变化。企业需要借助数据的力量提升内部经营管理水平和业务作业效率,同时以数据为核心要素驱动商业模式和产品服务的创新,敏捷地响应市场和客户需求。这对企业的数据体系结构和数据应用建设提出了全新的要求,即全面、快速、准确。

全面,覆盖企业全域数据的物理或逻辑汇聚。数据资源的管理和应用呈现出两种趋势,其一是对数据的存储、整合、管理呈现集中化发展趋势,其二是数据和分析工作呈现出分散化趋势和个性化特点。因此拥有全面且完整的数据是用户丰富应用场景和挖掘数据资产价值的重要基础。

快速,涵盖查找、提取、处理、分析和模型构建的数据应用全流程。通过大数据技术和能力,在全域数据范围内,帮助用户快速定位并查找数据位置,高效简便地开展数据提取,并以快速试错、迭代开发的思想方法创建业务模型,实现模型成果向业务创新的转换。

准确,包括标准定义和数值准确两个层面。统一的数据标准是数据处理的前提,在数据全面的基础上,制定适当的治理策略,保证语义的一致性;准确的数值是数据消费和洞察分析的根基,是为用户提供可靠分析结果的必要因素,数值准确层面应包括数据度量,可重复性,数据质量,问责制和数据卫生等相关问题。

客观准确地理解和把握“数据湖”本质特征

面对数据架构和数据应用建设的全新挑战,随着大数据生态与技术的融合发展,数据湖的概念在发展中不断演变,其特征被看作是解决企业上述问题的关键钥匙,因此市场上越来越多的研究机构和服务提供商争相进入数据湖领域,使其很快成为“热门概念”,风口强劲,在定义上也是众说纷纭。

目前,全球对数据湖的定义没有统一清晰的标准,各家机构对数据湖的描述视角不尽相同。数据湖的概念最早于2010年由James Dixon在博客中首次提及,他把数据集市比喻为瓶装水,经过清洗、包装和构造化处理后便于饮用,与之相反,数据湖则管理从各类数据源引接汇聚来的原生态数据。

Gartner对数据湖的正式定义为,除了原始数据源之外,还有各种数据资产的存储实例的集合。这些资产存储在近乎精确甚至精确的源文件格式副本中。数据湖的目的是提供未经修改的数据视图给最熟练的分析人员,以帮助他们可以独立于传统分析数据存储(例如数据集市或数据仓库)而探索其数据优化和分析技术。数据湖的概念设计如下图1所示。

图1:数据湖概念设计

无论数据湖的定义如何不同,其本质和基本特征可以通过分层分类思想,分别从数据视角、技术视角、业务视角三个层面着手厘清:

1、数据视角,数据湖本质上是一种数据存储策略。

在存储形式上,数据湖支持异构和多样的存储方式,同时能以原始格式存储任何数据。无论是数据格式,还是数据类型都不应该被修改。可包括结构化数据、半结构化数据、非结构化数据和二进制数据。在数据构成上,既支持存储“原汁原味”的数据,例如从各生产系统产生的内部原始数据,从行业和市场获取到的外部数据,又可以包括经过转换、加工、处理后的各阶段各来源的数据,如Gartner在定义中描述,各种数据资产存储实例的集合。在数据管理上,根据湖内数据特点以及团队成员角色,制定对应的治理和安全管理策略,如数据集成、数据质量、数据生命周期、元数据管理等,而不能使其退化成“数据沼泽”。

数据湖的角色取决于数据存储与数据处理的位置,如下图2所示:存储与处理分离和存储与处理结合。


图2:数据湖的两种实现方式

2、技术视角,数据湖是新基建,是对企业现有基础架构的重要补充。

虽然数据湖通常与特定技术相关联,但他们是体系结构概念,而不是具体的某项技术和工具。数据湖也不能替代现有信息基础架构,例如数据中台和数据集市,相反,他们是对现有基础架构的重要补充。基于集中收集数据并实现预定义用途的传统体系结构不再能够满足利益相关者的灵活与多样的需求,如数据中台与数据仓库,而数据湖则是一种现代化的支持数据管理、数据分析、应用创新的基础架构,是支持创新型系统的基础架构组件,是“新基建”,以实现新的信息访问和数据处理机制,进而支持日益复杂、多样化、分布式的工作负载,以及创新型应用的建设。

3、业务视角,数据湖是企业数据和分析战略中的关键组成部分。

数据湖使用户能够在数据清洗、转换、结构化和模型化之前访问数据,使用户能够比传统方式更快地验证思路,获取结果,帮助用户在更短时间内从不同来源应用多维度的原始或过程数据。数据湖涵盖了那些暂时未能进入数据中台的数据,为企业中数据隐藏价值的挖掘带来了更多可能性,激活“数据要素”价值,使用户得以用更快的数据提取实现全面丰富的分析洞察,满足企业内外日益增长的灵活性与多样性数据分析和创新应用需求。企业数据和分析过程必须作为数据湖建设方案中的一部分展开,并通过合理设计与实施,数据湖项目将认定为是更广泛的数据和分析功能集合的关键部分。

由于数据湖的定义在业界有较多争议,甚至会有相互矛盾的意见,让人引起困惑。在此列出数据湖概念中常见的三种错误认知,以便更清晰说明其本质特点:

错误认知1:有数据湖,就能创造高价值。

数据湖本质上不是分析平台,是支持数据和分析战略的重要基础性架构。通过数据湖有望为企业带来更全面的数据存储能力,更灵活的数据访问通路,更快速的模型试验环境,但数据湖的业务价值完全取决于使用该湖的用户可用的分析技能,而不是数据湖的技术特征。因此,培养用户在数据湖中“游泳”和“捕鱼”所需的技能是在湖上创造业务价值的前提。

错误认知2:实施数据湖可以跳过或简化企业的数据治理功能。

从数据湖的本质特征可以看出存储在湖中的原始数据缺少各种建模和集成过程所必须的上下文关系,将数据集中放在一个位置,并不能消除对数据含义的任何歧义,数据湖本身并未对语义和一致性进行统一优化,因此数据湖需要更多地管理功能,元数据管理,数据质量,数据血缘和数据集成是成功建立数据湖的关键先决条件,而不能事后思考。

错误认知3:所有数据都在湖中,所以就去钓鱼吧。

该错误包括两方面,其一是数据湖并不是无限的,不是所有数据都需要进入数据湖,数据在湖中也不是只进不出。每个业务都在变化,历史数据可能会提供与当前市场状况或不断变化的业务无关的数据来影响歪曲分析,因此需要创建严格的数据生命周期管理策略。其二是“钓鱼”需要场景化,毫无疑问,拥有数据可以带来竞争优势,但是数据需要与应用场景、当前挑战和市场机会相关,否则拥有数据并不能带来有益的业务成果,却创造了责任。

应高度重视和加快数据湖应用步伐,服务企业数字化转型

数字经济时代各产业快速变迁,从颠覆到融合,各行业的业务类型和发展模式也在发生快速更迭,企业内外对数据应用全面性、快速性、准确性的业务诉求催生出数据湖的快速发展和持续演进。数据湖通过其本质特征和功能定位,试图为企业解决两类问题,一类是旧问题,另一类是新问题。

数据孤岛和存储成本是企业在数字化转型过程中一直且普遍存在的两个问题。由于传统以应用为导向的信息化建设,使得数据在企业内部相互孤立,独立管理,分散存储,标准混乱,最终导致信息无法互通,数据无法共享,形成零散式数据孤岛,即使是通过数据中台,也只能对可结构化且可模型化的数据进行集中整合。

数据湖能够让企业的数据“存的住”,数据“活起来”。数据湖提供的基础架构平台和数据存储策略,能让企业不同来源、多种类型的数据合并到湖中,包括企业内部、外部,结构化、非结构化,可模型化、无法构建模型的数据,并提供对语义一致性的支持,而不是拥有数十个独立管理的数据集合,数据的合并可以增加信息的使用和共享,形成数据的闭环管理,降低数据迁移成本,同时也通过减少服务器和许可证来削减数据存储成本,让企业内海量数据存得住,存得起。数据湖的整体架构如图3所示。

图3:数据湖架构视图

中国保险业正处于大发展阶段,保险市场逐步加快对外开放,来自市场的竞争压力和业务的快速发展,给各企业信息化建设带来了时间和人员两个层面的新问题首先是业务的快速迭代创新与现有数据建模响应速度之间的挑战。上层业务结构和业务模式的快速发展,会带来数据结构变化,进而对企业级数据模型进行重构,传统数据仓库或新型数据中台受限于模型范式的要求,其数据入库、模型开发和维护将花费大量时间,无法快速响应前端的业务变化,导致新业务数据不能及时沉淀并整合到企业级数据资产中,限制了新业务与现有业务的融合分析。其次是企业内全角色的数据分析需求与现有数据共享程度之间的挑战。随着数据要素属性的定位,数据分析人员贯穿企业的前中后台所有部门,数据分析和数据挖掘的需求也呈现多样化、个性化特点。目前企业数据仓库经过ODS操作层、DWD明细层、DWS汇总层逐级建模、加工、处理,将DM集市层上的报表开放给最终用户,此结构的劣势在于未来无法完全满足企业内所有用户对各层次数据的自助访问与分析诉求,DW或RDBMS的结构也会限制数据的价值挖掘。

数据湖能够为用户带来更快速的数据访问,更灵活地适应上层应用变化,提高对市场变化的响应速度。首先,数据湖并不要求严格的数据格式,也不需要在数据入库前建立严谨的范式模型,对于创新且快速迭代的业务场景,其可以让用户更便捷地搜索、查找和访问数据,对第一手数据展开快速处理和分析。其次,依据数据湖及湖上相关工具,可不断试错,构建业务模型,加速模型产出到业务创新应用的流程,进而支持创新型系统建设,实现从实验到生产的飞跃,将数据价值快速反哺业务创新。

数据湖为不同业务需求、不同类型的用户提供个性化服务,从“保姆”走向“服务+自助”模式,让用户在各自熟悉的场景下应用数据。基于数据湖的存储特性,各层次各阶段各粒度的数据资源,可以满足数据科学家、业务分析师、数据分析师、普通用户、数据管家等关键用户群体的多方面使用需求,让数据在整个团队中流转起来,使用户能够以不同方式协同处理和分析数据,从而辅助企业做出更好、更快的决策。 

作者简介

罗晨,中再集团信息技术中心寿险中台组组长,企业级数据治理和数据体系建设专家,负责并参与多个重大信息化系统和数据平台建设。长期参与并关注企业数字化转型战略规划,企业级架构设计,业务系统以及数据与业务领域结合的相关建设和研究。


(欢迎大家加入数据工匠知识星球获取更多资讯。)

联系我们

扫描二维码关注我们

微信:SZH9543邮箱:ccjiu@163.comQQ:2286075659

热门文章


基于业务计划和收益的数据资产价值评估研究


【新书推荐】数据治理多少事,都付本书中-《数据治理:工业企业数字化转型之道》(文后有福利)


什么是时序数据?如何治理?有哪些应用场景?终于有人讲明白了


深度解读DMBOK2.0袖珍版《穿越数据迷宫–数据管理执行指南》


成功的大数据治理项目须坚持“六个导向”和“三个相结合原则”及“四个坚持和五个避免” ( 推荐收藏)


“一平台、两体系、三性特征、四个统一、五个超越、六类服务 ”一篇读懂数据治理、共享和应用(值得收藏)


物料描述模板技术解析及10个典型行业实践示例


“九步实施法则”保驾护航助力数据治理项目成功(上)


“九步实施法则”保驾护航助力数据治理项目成功(下)


一体化数据治理和共享平台-数据交换与服务工具介绍


数据治理平台工具前世今生


组建好两个阶段项目团队是数据治理项目成功的关键环节


制定物料分类规则参考的标准和常见方法及流程


实施数据治理项目是数据中心建设的关键,数字化转型的基础


资产密集型企业的物料/资产/设备数据治理难点和建设思路(推荐收藏)

我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。

我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。

我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。

了解更多精彩内容


长按,识别二维码,关注我们吧!

数据工匠俱乐部

微信号:zgsjgjjlb

专注数据治理,推动大数据发展。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存