【新书推荐】《数据中台架构——企业数据化最佳实践》(文后有福利)
一企业数据化
(1)数据资源:数据资源是指企业在信息化建设中产生的数字化数据、存储在硬盘中或者在网络中流动的0和1数据。它们可能是有价值的,也可能是暂时尚未被找到应用价值的。
(2)数据资产:数据资产是指进入了数据仓库,被约束到了一个统一的模型之中,在各种需求的驱动下,可以产生数据价值,进行变现的资产数据。
(3)数据应用:数据应用是指在数据资产中进行各种计算所产生的结果被通过各种途径输送到业务场景中,为业务人员所使用。
(4)数据治理:数据治理存在于数据资源、数据资产、数据应用等各个层面,为整个数据流动的链条提供质量良好的数据。
(5)数据运营:数据运营是一个把产生的结果数据发挥最大业务价值的过程,这个过程主要消除的是业务和数据间的鸿沟,让业务能够用好数据,让数据体系能够产生业务更加希望获得的数据。
(1)提升效率:数据应用能够在很多业务场景中帮助企业提升效率,甚至通过一些以前没有掌握的数据大幅提升效率。
(2)降低成本:数据化本身就有对业务的监控功能,通过打破信息的壁垒来降低成本是数据应用价值的一种体现。
(3)增加收入:在传统商业中,企业通常会利用信息差来盈利。在企业逐步数据化的过程中,数据可以在多个方面支撑企业增加营收收入。
(4)控制风险:即使监控的算法模型只有高级业务人员能力的80%,最终发挥的作用也会远远大于人工操作。
(5)管理创新:在企业全面数据化的基础上,企业的很多新的管理构想得以被支撑,甚至很多新的管理方法和手段也基于数据平台的建设被发明出来。
(6)业务创新:业务创新是指利用数据进行业务上的创新,我们可以向电商行业多多借鉴。
(7)数据业务化:企业能够依托自身掌握的数据为社会提供数据服务是数据业务化的一种体现。
(1)数据中台应该为企业全面数据化建设进行整体蓝图的规划;
(2)数据中台应该汇聚全域数据;
(3)数据中台应该能够检验数据治理的成果;
(4)数据中台应该全面支持数据应用落地;
(5)数据中台可以包含企业数据化组织规划内容;
(1)数据中台是数据化建设的基础:数据中台的第一个价值是解决了全域数据汇聚的问题。
(2)数据中台是企业数据化建设的引擎:我们把企业数据化规划的责任放到了数据中台的范畴之内。与企业的IT建设相比,数据化建设更需要进行整体规划。
(3)数据中台将各个部分的数据工作有机串联:从数据资源层、数据资产层、数据应用层到业务价值,数据就像一条完整的供应链(如下图),从最初的原料一直到最后的成品。这条数据链从起初的设计阶段就贯穿各个环节,如果在某个点上存在问题,就需要逐个解决。数据中台就是先把这条供应链的流程画出来,然后一步一步地推动着它成为现实的支撑平台。
数据中台建设五步法是我们在多个数据中台项目落地实践中总结出的一套方法论。在数据中台项目落地中,我们可以根据具体项目情况对其中的一个或者几个部分的内容做重点的加强或者减弱,甚至可以只在其中一个方面做重点突破和攻关。我们对数据中台建设五步法总结的目的是相对地规范企业数据中台建设的步骤和架构,五步法只是企业整体数据化建设的启动。我们希望通过这五个标准的步骤,全面启动企业数据化建设,并且让这个过程不断地持续运行,最终达到当前技术和方法所能支撑的企业全面数据化的胜利彼岸。
第一步:数据资源的盘点与规划
数据化的基础是信息化或者信息化所产生的数据。这些数据本就有数据化的含义,同时这些数据又会进入数据化框架体系,继续通过计算产出更多的数据和更大的价值。所以,对企业数据资源的盘点是数据化建设的前提和基础。一份完整、准确的数据资源是后续数据化建设的有力保障。
数据资源的盘点与规划需要达到以下目的:
(1)对现有数据资源盘点和统计。
(2)对企业可以拥有或者应该拥有的数据资源进行规划。
(3)构建盘点体系并使用必要工具,保证盘点的成果能够始终与真实情况相符。
第二步:数据应用规划与设计
企业要基于现有的技术条件和方案,进行相对完整的数据应用规划。这个步骤可以回答如下问题。
1. 企业中有哪些数据需求
我们要从业务线、业务层级到最细粒度的岗位,梳理数据需求。
2. 企业应该构建哪些数据应用
我们要围绕数据需求进行数据应用的整体规划和设计。
3. 应该按照什么顺序实现这些数据应用
我们要对数据应用建立评估模型,评估的维度包括数据应用是否可以实现、数据应用的业务价值、数据应用的实现成本这三个主要方面。通过评定结果,我们可以确定数据应用的实现路径。
第三步:数据资产建设
数据资产的建设要依托数据中台的核心产品完成。数据资产是企业数据化建设的关键基础。所有的数据化建设最后都以数据资产为基础,并且围绕这个基础展开。数据资产将是企业在全面数据化建设前期中投入最多、见效最慢的基础层模块。关于数据中台的种种探讨和争议以及妥协的很大一部分原因是这个基础建设庞大、复杂和投入高。
数据资产建设的内容包括以下几个方面。
1. 技术建设
(1)产品选型。产品选型包括如何选择数据中台产品、数据中台产品应该具备的功能以及技术参数指标。
(2)技术架构设计。技术架构设计包括数据中台产品如何部署、如何替换传统的数据仓库或者与之并行、数据中台如何抽取当前的应用数据。
2. 标准和数据仓库模型构建
(1)建模及开发规范。建模及开发规范包括数据仓库模型设计规范的制定,数据开发规范的制定,如何避免当前较为常见的数据开发混乱、难以运维的情况。
(2)数据建模。数据建模包括进行数据仓库模型构建,并提交评审。
3. 数据抽取、数据开发、任务监控与运维
(1)数据抽取。数据抽取包括从数据资源层抽取数据进入ODS层。
(2)数据开发。数据开发包括进行数据任务开发,进行数据清洗、数据计算。
(3)任务监控与运维。任务监控与运维包括监控所有数据任务,对异常和错误任务进行必要的人工干预和处理。
4. 数据质量校验
数据质量校验包括对当前发现的数据质量问题进行校验和处理,推动数据治理工作开展和持续优化。
5. 数据应用支撑
数据应用支撑包括为当前的数据应用开发提供支撑开发平台。
第四步:数据应用的详细设计与实现
不管是使用瀑布模型还是敏捷模型,数据应用的设计大体上都可以遵循传统信息化应用设计的过程和理念。数据应用中的数据开发一般在数据库或者数据仓库中完成。数据应用的内容展示可以采用BI分析工具展现,例如可视化大屏或者定制化开发应用。数据应用还可以通过API接口服务提供数据成果,让其他外部应用按需调用。数据应用的开发与传统信息化应用的开发有以下不同之处。
1.数据应用关注数据源的内容和质量
我们在数据应用实施前应该充分了解企业当前的数据源情况,包括数据种类、每种数据的具体属性、数据内容的质量等问题。大部分落地失败的数据应用,都是由数据源的各种问题引起的,比如数据缺失或者数据质量问题。
2.复杂的数据开发需要不断调优和迭代
随着机器学习、深度学习等算法的引入,数据模型的构建手段越来越丰富。但是在通常情况下,最终业务价值的产生是一个复杂的过程,不仅需要数据的支撑,还需要管理的配合。
3.数据应用的结果数据的验证工作量占比高
论证数据结果的正确与否或者评估数据应用的效果,是一项费时、费力的工作。即使相对简单的指标计算,最后也经常会占用全部过程中1/3以上的时间进行正确性验证。甚至很多算法类项目,需要提前构建成果评估模型,并首先获得甲方企业的认可,然后才能开始进行数据开发。
4.数据应用的运维难度大
因为数据中的各种异常情况往往是不可知或者意想不到的,所以数据运维需要有强大的人工保障,以保持任务的运转。
5.数据应用的成果需要运营
数据应用的开发完成只是数据发挥价值的第一步,如何让业务部门理解模型、用好数据才是后续的关键。尤其是在刚刚引入新的数据,且尚未显现业务价值的时候,企业更需要对数据进行深入运营。
第五步:数据化组织规划
企业数据化应该是在未来一个时期内具有企业战略高度的事情,数据化需要一个具有同等战略高度的组织负责推进。无论是从传统的IT部门转型还是由战略部门或者类似部门介入都是很好的选择。组织是保障数据中台顺利落地的一个核心,也是推动企业数据化进程的人员抓手。
1.数据应用规划
企业的数据应用规划工作,能够让企业在开始进行全面数据化建设之初,对可能开展的数据应用进行相对系统的规划。数据应用规划工作的开展也可以让企业更加准确地评估数据化建设的投入产出比。
2. 数据应用建设
深入认知数据应用的建设过程、使用恰当的工具、进行规范的过程管理与开发可以有效地提升开发效率和节约开发成本。
1. 产品选择
数据资产建设需要一个或者一系列软件作为支撑。我们把这些软件统称为数据平台。数据最终会存储在数据平台中,与数据相关的操作(比如,数据抽取、数据清洗、数据开发、任务运维等)都会在这个平台上进行。如何选择数据平台产品关系到企业未来数年数据化工作的开展,是一项非常严谨的工作。
2. 技术方案设计
与数据资产相关的技术方案设计包含数据平台的部署方式、数据平台与其他应用的关系、数据平台与现有数据仓库的关系等内容。如果数据平台是云化部署的,就还需要制定上云技术方案。
3. 数据资源了解
我们可以通过数据资源盘点工作充分了解企业的数据资源情况。
4. 数据仓库模型设计
我们可以通过对企业业务的了解和对数据资源情况的了解构建数据仓库模型,同时基于对企业数据化未来的发展规划选择合适的数据仓库模型设计规范。
5. 数据开发规范制定
我们要执行明确的和可监控的数据开发规范。数据开发规范将有效地避免传统数据开发的无序现象,避免数据开发的冗余和不可控现象,避免数据资源和计算资源的浪费。
6. 数据仓库建设
我们要抽取数据、清洗数据,进行数据任务开发,完成数据仓库的建设。
7. 数据应用支撑
当企业的数据应用需求明确后,我们要在数据资产层中做数据应用的数据相关部分的开发工作,同时通过独立应用或者数据API的形式构建数据应用的展示层。
在房地产行业、鞋服行业、乳制品行业、新零售行业和人力资源领域都有相关案例。下面介绍一个房地产行业的案例。
场景名称:房地产楼盘产品复盘
1.背景介绍
房地产企业在拿地过程中都会进行严格的设计和策划,包括楼盘的类型、风格、受众、定价、营销策略和方式等。尤其是楼盘的受众,会直接影响楼盘的营销策略和渠道。但是在以往的房地产项目销售结束后,房地产企业却很少关注最终的销售结果与策划时的偏差。
2.依赖数据
业主的基础信息、外部人群群体画像、投资评测和营销信息。
3.数据方案
4.应用效果
我们对当前已经销售的楼盘进行了全面的复盘和分析,发现在销售过程中有很多政策和行情干扰因素,甚至当时的定位和最终销售结果偏差较大,也发现了营销渠道的偏差,以后对类似楼盘的营销需要进行适当的调整。其他行业的类似产品复盘工作也会对产品的研发设计工作起到巨大的借鉴作用。
1. 数据化组织规划的必要性
2.数据化组织的定位与职责
3. 数据化组织的工作内容与边界
4. 数据化组织的岗位设置
策略1:以数据中台的咨询和设计工作启动企业数据化建设(规划先行、优先设计)
策略2:通过直接建设数据资产层支撑企业数据化建设(中台为主、构筑平台)
策略3:以数据应用试点的业务价值推动企业数据化建设(应用切入、价值引导)
平台的整体架构如下图。
1. 计算存储引擎
计算存储引擎是平台的核心组件,所有的数据计算和存储都在这个组件中完成。当前平台采用的数据计算和存储引擎是基于大数据技术的计算存储引擎。
2. 数据开发平台
数据开发平台可以有效地提升开发效率,降低开发的复杂度和难度。
3. 数据科学平台
数据科学平台能够帮助数据开发人员快速使用多种科学算法,加速算法开发过程。
4. 数据资产平台
数据资产平台包括数据资产管理套件和数据质量管理套件。
5. 数据服务引擎
(1)数据共享服务平台:数据共享服务平台可以快速生成数据API,统一管理API服务,帮助企业提高数据服务发布效率,提升数据服务管理能力和对数据服务使用的权限管理能力。
(2)数据分析引擎产品:数据分析引擎产品可以实现海量级数据秒级查询,满足大数据实时分析需求。
(3)标签引擎产品:标签引擎产品是实体画像工具,对实体进行画像和打标签,支撑业务端对实体的圈选和使用。
(4)数据应用规划产品数据应用规划产品是支撑企业数据化规划的工具,可以实现在线规划、成果可视化,为企业数据化指明发展方向,让企业的各个部门、各条业务线对数据化有清晰的认知。
数据中台是实现企业全面数据化的一个解决方案,是一套支撑企业全面数据化的架构,会成为企业开展全面数据化的基础设施。对于拥有成熟的主营业务、业务场景更复杂、投资评估更谨慎的传统企业而言,互联网的数据中台理论体系需要进行再次升级才能够支撑其全面数据化建设工作。
本次联合电子工业出版社博文视点公司为大家赠送10本《数据中台架构——企业数据化最佳实践》,大家扫码二维码进行抽奖。如果买本书的同学中奖可联系小编换成同等价格的电子工业出版社图书
京东购买入口(5月8日到5月14日满100元减50元)
当当购买入口
(欢迎大家加入数据工匠知识星球获取更多资讯。)
联系我们
扫描二维码关注我们
微信:DaasCai
邮箱:ccjiu@163.com
QQ:3365722008
热门文章
辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。