爱奇艺数据中台建设方案
数据中台的产生:数据工作的痛点、数据中台的产生、中台的实质 爱奇艺数据中台的定义:理解数据中台、数据中台的发展历程、输出和定位 爱奇艺数据中台的建设:中台建设、Pingback体系、数仓体系、数仓平台、离线数仓架构、大数据平台、数据平台架构 数据中台的应用场景:统一化、个性化、定制化
一、数据中台的产生
使用门槛高:数据工作是一个专业性特别强的一个工作,对于人员的要求比较高。
口径不一致:在使用数据过程当中,口径不一致是特别常见的一种问题,这种问题可能会导致一种数据使用和分析的差异,而且会降低业务的数据分析效率。
数据可靠性低:在生产过程中,降低业务的数据分析效率,最终会对业务决策造成严重的影响,不仅数据链路过程很长,其中还会引入很多数据质量问题。
跨业务难度大:因为缺少一个统一的数据建设的规划、标准和规范,所以难以指导各个业务或者整个生产链路的各个环节,以拥有一个标准化的生产和处理过程,就导致了多个业务的数据难以融合,难以发挥更大的数据价值。
接入成本高:如果有新的业务接入或者新的场景需要使用数据,很多工作都需要人工处理。去申请各种资源、权限、找数据并且串联整个数据的采集、生产、计算、同步和展示等各个环节,这是一个耗时长、效率低,最终还是很容易出错的过程。
投递质量低:说到数据的话肯定离不开投递,投递是用来记录用户行为的一连串的数据信息。如果投递过程缺少标准化或者流程管控的话,都会导致投递质量比较差。 获取数据难:数据的生产到最终使用,中间可能要经历一个比较长的时间周期或者一个比较宽的团队跨度,用户可能无法很快地找到想要的数据,或者数据团队生产出来的数据并没有真正触达到业务,来达到它的数据价值。
数据资产模糊:这个点可能和获取数据难有一点点关联,数据资产模糊的话更多的是在说需要对公司的数据资产做一个整体的管理,如果没有这个整体的管理,就会导致对数据资产的级别和拥有什么数据资产都很模糊。最终就是导致数据的优势难以发挥出来,而且虽然耗费了很多计算资源、人力资源、存储资源,但没有带来相应的价值,最终导致资源效率极低。
数据中台更像一种企业架构,是一套结合互联网技术和行业特性,在企业发展的不确定性中,寻找确定性,并且持续沉淀和抽象企业核心能力,最终支持企业快速、高效、低成本进行业务创新和增强的企业架构。
二、爱奇艺数据中台的定义
分析体系,比如说用户分析、内容分析、业务报表等; 数据应用,比如说即席查询、可视化查询工具; 数据产品,类似于画像和推荐业务,可能都是一些数据最终形成的产品,直接面向用户服务。
所以数据中台抽象出来,就是指“平台+服务+数据+标准化”的概念,它是将数据的生产、收集、处理、存储和服务进行封装,并且面向不同层级的用户提供不同的服务形式。在数据标准化过程中,数据中台可以防止数据重复建设,避免口径问题,提高数据的使用效率。
三、爱奇艺数据中台建设
生产,也就是我们所说的投递体系; 数据,也就是统一数仓的体系,是数据的核心; 大数据平台能力:包括开发、治理、服务。
数据表创建的约束性:比如我们需要对表有的命名规范要求,如果没有一个工具去管理,可能会因为大家对规范的理解不一致,最终导致落地过程中依然存在各种各样的差异性; 数据信息的可描述性:指在创建表的过程中,为了快速地满足业务,很少去添加一些相关的描述信息,导致数据缺少描述性。所以需要通过平台,要求用户在数据创建的过程中把信息描述的足够精细,方便后续的数据使用过程; 数据建模体系的完整性:指我们需要一个三步的建模过程,即业务建模后,有对应的数据建模;数据建模之后,针对这个数据建模,有不同的物理建模的形式。整体是一个流程化的工作,避免用户为了快速地满足业务需求跳过某些过程,最终导致建模的扩展性较差; 数据关系的维度与指标管理的系统性:通过提供一套统一的维度和指标管理体系来作为一个中心,对外输出统一的指标和维度,让大家在使用的过程中,可以使用这些标准化后的并且集中管理的元数据; 数据关系的可追溯性:是指通过数仓建设、建模的过程,促使我们后续数据表和字段的相互关系是有记录可查询的,也就是我们所说的数据血缘关系。
治理:是数据生态的最后一个环节,也是打造健康生态闭环的重要部分。有的公司可能是把治理放到比较靠前的环节,但是在一些场景下,比如说业务快速发展的过程中,治理往往是跟不上业务需求的。所以爱奇艺采取的方式是,等业务发展到一定程度,再去补充数据治理的能力,对存量去治理,对增量去管控。治理工作的内容主要包括对数据和任务进行日常审计,然后通过数据血缘和使用情况,对数据的冗余度进行有效评估,并进行相应的优化,以减少资源和人力的浪费。
最底层是数据层,比如投递服务器的日志,包括业务的数据或者其他数据来源,通过采集层和传输层达到我们的计算层。 计算层,更多的是大数据集群服务,也包括一些任务调度能力。 平台层包括离线和流式任务的开发管理、机器学习平台、数仓平台,然后下面是对于整个的数据的ETL的一个平台化的处理,还有外部数据的一个同步能力的模块,称为数据集成。在拥有这些开发能力或管理能力的同时,还需要对投递管理、数据安全、数据质量、数据图谱做一些有效的建设,并且在整个数据体系中去做数据治理工作。 服务层是以即席查询、实时分析,数据服务、元数据服务多种形式对下游提供服务能力。
四、应用场景
第一个阶段是统一化的形式。有一套通用的模板,它的优点和缺点都很明显,优点是接入起来很简单,缺点就是不够个性化和定制化,只能支持这种通用的数据能力。所以它比较适合于业务初期,能够进行快速接入,并且自动化地完成这种数据的处理和服务; 第二个阶段是个性化的能力。把整个流程确定下来,业务在使用过程中可以针对某些环节做定制化的开发,拓展现存数据模块的能力来满足一些个性化需求,所以它更适用于业务的成长期的阶段; 第三个阶段是定制化的能力。定制化更多面向一些特别成熟的业务,也就是对于数据这一块的需求有多方面的、深层次的使用场景,并且通用的和个性化的架构已经不足以满足数据需求的情况下,可以采用定制化的能力。定制化能力也就是我们提供数据模块化的能力,然后业务再根据自己的需求去对应选取这些模块化能力,并进行组装和扩展,来满足自己定制化的需求。
推荐文章:
关注大数据学习与分享,获取更多技术干货