数据工程白皮书(2023)(可下载)
极速导读
日前,全球软件及技术咨询公司Thoughtworks 发布《数据工程白皮书》。
报告下载方式见文末!
随着企业数字化转型的不断开展,企业对数据越来越重视、对数据的诉求越来越丰富。本白皮书旨在讨论如何从工程化的角度加速数据到价值的转化过程、为企业带来更多的价值,帮助企业在数字化转型过程中应对来自业务、外部市场、内部数据能力提升等一系列问题。
目前数字化转型对于市场来说并不是一个新鲜事物,从技术视角来看,人工智能与大数据相关技术仍处于创新阶段,各行业正在寻找和探索价值场景与新兴技术融合的平衡点,希望在新兴技术的加持下能够在激烈的竞争中占据有利位置。
近几年企业在数字化以及数据工作上的投入是非常可观的,可是在数据层面上的收益并不尽人意,主要表现为:
1 2
数据项目投资收益周期长,不确定性大,且没有获取对等的业务回报。
数据平台层产生价值的速度跟不上业务需求变化的脚步。
3 4
数据年年治理,年年治理不好。
人员培养困难,培养人才的时间和成本居高不下,无法规模化地支撑业务需求。
对于企业中需要直接面对或完成数据工作的负责人来说,上述问题需要有一套切实可行的方式方法来确保数据工作能够保质保量的顺利开展、保障企业在数据领域的投入能够有价值产出。这样一套行之有效的方式方法我们称为“数据工程”,而该体系的落地过程称为“数据工程化”。
本白皮书旨在讨论如何从工程化的角度加速数据到价值的转化过程,为企业带来更多的价值,帮助企业在数字化转型过程中应对来自业务、外部市场、内部数据能力提升等一系列问题。
数据工程能够加速数据接入、处理、计算、使用的全流程,但是对数据工程到底是什么缺少一个清晰的描述。
数据工程包含了需求、设计、构建、测试、维护演进等阶段,涵盖了项目管理、开发过程管理、工程工具与方法、构建管理、质量管理,是一套为了应对规模化生产和使用数据、为业务提供数据支撑,最终产生价值的体系。
同时定义了在落地实施过程中如何确保需求准确性、设计灵活性、开发便捷性、维护低成本性、架构可修改性等保障性能、质量的原则。
总的来说,正是因为数据有着不同的种类、不同种类数据处理有着不同的特征,让我们对上述定义再换一个角度来审视:
数据工程是一套体系。
数据工程是用来加速数据到价值过程的规模化最佳实践。
数据工程是软件工程的一部分。
数据工程不是传统软件工程在数据领域的简单重现。
数据工程并不是单一的大数据系统或平台的落地,因此数据工程的价值并不能仅从普通的信息系统的角度来看。
数据工程的好与坏,往往与企业的组织架构、团队协作、实施能力等息息相关。而针对企业所处数字化转型的不同阶段、所处行业业务特点以及企业本身组织架构,数据工程价值凸显的点也往往不尽相同。
在面对业务协同性不够、业务决策路径不清晰、组织架构可能导致的部门墙等诸多问题上,企业应当汇聚多业态、多链路中所涉及的不同业务数据、打通全产业链、构建业务生态,打造以数据为中心的价值创新产品,通过数据去产生新洞见、发现新业务、打造新产品、验证新想法,从而驱动业务的快速迭代。
图:数据工程落地三步走战略
白皮书推荐三步走战略:数据愿景对齐、数据工程落地实施、数据持续运营。三步自顶向下,先确定总体目标,再进行目标拆解,由目标制定具体措施,再到具体工程实践,最后以持续运营手段,完成数据从业务中来,再到业务中去的完整价值闭环。
数据愿景对齐作用主要是明确企业数据愿景,保证后续步骤不偏离企业本身的价值实现,主要包括业务场景价值的的探索识别、优先级评估、数据架构设计、技术架构设计等。
图:数据工程能力复用与保障
图:数据持续运营
白皮书指出,数据工程是数字经济下确保数据价值转化的重要保障,是加速数据转化为价值的重要手段,数据工程能力应对的不仅仅是当下的挑战,更是应对未来数字经济大趋势的秘密武器。
随着需要处理的数据量的增长,为了处理数据领域的各种新问题,各种新技术、新概念逐渐涌现,现代数据仓库、数据湖、湖仓一体、分布式数据架构、机器学习、数据云原生等逐一登上舞台,数据工程的发展道阻且长。
具体内容如下
会员可直接前往百度网盘固定链接下载
非会员请添加下方客服微信办理会员后可下载
1234
更多资料下载
点击下方图片
来源:Thoughtworks,对原作者表示感谢,分享仅作学习交流,不作商用,我们尊重版权,如有侵权请联系我们删除等相关处理。
监制/西贝
编辑/荔枝