查看原文
其他

指标体系技术成熟度曲线概述

DataFunTalk
2024-09-10

扫码下载:技术成熟度曲线--指标体系篇

引言

    彼得·德鲁克曾深刻指出:如果你无法度量它,就无法管理它。在当今数字化浪潮中,指标体系无疑是那把帮助我们精准丈量业务、提升管理效能的利剑。今天,我们将深入探讨这一在数据赋能方面既重要又成熟的领域。

专家介绍:

曾津   《数据分析实战-工具、方法与可视化》作者、CDAIII首位数据科学家。目前就职于某一线大厂数据科学团队。曾先后担任探探商业化与国际化数据分析总监、去哪儿数据情报与应用中心负责人。主要从事业务分析、实验分析、指标体系构建、BI系统构建及用户画像等相关工作。


01.

指标体系技术、产品与应用技术曲线

 指标体系技术概述
指标体系技术,作为企业数字化进程中的核心驱动力,串联着数据生成、数据治理及数据应用等各个环节。其技术流程涵盖数据埋点、指标建模、指标生产、指标管理与治理以及指标应用等多个阶段。

数据采集是指标体系构建的基础。数据采集工作包括但不限于数据埋点。如果数据采集工作不做好,指标体系构建及应用将成为“无米之炊”!其技术难度不高,但是管理协作难度较大。这一环节往往需要数年的持续优化,方能达到成熟阶段。

指标建模是指标体系构建和应用的起点。它要求我们在深刻理解业务、理解企业现状的情况下选择合适的数仓建模方案。总体而言,企业指标建模技术方法论有两大个特点:一是业务导向。我们要根据业务特征划定数据主题域,并且研发贴合业务、定义清晰的指标,并在此基础上,开展数仓建设。构建指标体系时常用的OSM模型,也是在企业北极星指标和战略的基础上构建指标体系的。再比如常用的UJM模型,则是根据用户行为路径来构建指标体系的。这些方法都需要以业务为依托,以用户理解为宗旨。二是理念成熟性。比如指标建模相关技术和理念(如数仓及数据域)是较为成熟,至少有10年以上的发展史和实践史。上个世纪80年代的时候人们就开始了对数据治理和数仓的探索。大约在2010年左右,人们就开始采用Hadoop大数据平台进行数据分析,且数据湖的概念开始出现。三是配套复杂性。尽管数仓建设和数据环境建设理念比较成熟,但要全面发挥指标建模的作用,需要比较全面的配套(组织,流程,工具)约束,这是一个相对复杂的过程。

指标生产是指标体系构建的主体,涵盖指标计算、指标数据验证、指标存储等。在企业中这部分工作通常伴随指标建模的过程进行。

指标管理与治理是指标体系运行的保障,涵盖指标监控运维、指标安全与权限、元数据管理、血缘建设、指标地图、指标价值评估。其中,元数据管理、血缘建设对于指标数据治理尤其重要。元数据可以帮助数据用户更好地理解指标数据的含义、用途和限制,保障数据质量和数据安全。而血缘描述了数据从其原始来源到最终使用的整个过程,可以帮助我们了解数据的来源和去向,以及数据在整个过程中的变化和依赖关系。这二者对于业务的价值是不可或缺的,而且需要数据生产和使用各个部门共同协作才能建设好。另外指标价值评估,也是指标管理中重要的一环,它可以帮助我们明确指标的优先级、优化指标体系的结构、提高指标体系的有效性、指导指标体系的构建过程以及促进指标体系的持续改进。但是值得一提的是。指标管理与治理工作细枝末节很繁复。这些领域并不太需要特别高深和前沿的技术,每一项都需要花费巨大的时间、精力来条分缕析和厘清。但是,一个好消息是大模型的发展会为指标管理与治理注入新的活力,比如大模型可以为指标治理提供元数据的查询解答能力,并且AI可以帮助我们更好的发现异常的数据和潜在的问题。

指标应用是是指标体系工作的落脚点。从场景层面讲,指标体系可以根据企业业务属性及特征,应用于广告投放、用户运营、市场营销、产品研发等多个场景。在这些场景中,指标体系应用的价值一般体现在“监控价值”和“牵引价值”。“监控价值”是指指标体系帮助我们了解业务现状,“牵引价值”是指基于指标体系的分析应用可以帮助我们发现业务症结、推动业务成长。从功能层面讲,在构建完指标体系之后,数据团队需要为企业内部提供指标查询、指标可视化和指标分析三大服务。指标查询、指标可视化属于数据团队提供的基础服务,毋庸赘言。而指标分析对于内部用户的业务价值更大,决定了指标体系是否能够真正发挥价值!基于指标的归因分析和影响量化,能够帮助业务更好的了解业务现状;而指标体系应用于ABT则能够帮助业务找到新的增长点;近来因果推断技术也风行一时,也在很多场景下与指标体系工作相结合,比如腾讯视频就通过meta-learner等因果推断手段构建了北极星指标。

成熟指标体系对技术要求

一个成熟的指标体系,需要在技术上满足“安全”、“稳定”和“好用”三个层次的诉求。这三个层次的诉求对应的技术难度和业务价值都是由低到高的。

具体而言:

第一个层次是“安全”。即通过精细的权限管理和风险管理,确保企业数据的安全。

第二个层次是“稳定”。在这个层次中,我们需要通过数据治理保障指标的完整性、准确的和一致性。并且保障指标体系的存储、查询、可视化及其他应用场景的服务可靠性。

第三个层次是“好用”。“好用”首先体现在业务对指标体系的实时性诉求。很多互联网企业都在努力建设实时数仓、完善数据同步机制等,以获取实时数据并充分利用其价值。而实时数据可以提升企业决策效率、运营效率,增强数据准确性,并且促进创新和发展。其次,随着大模型的广泛应用,业务放还会对指标体系应用场景的自动化和智能化提出更高的要求。另外,数据的好用还要求数据是可以流通的,数据需要易用且不易被滥用,这也对指标管理和治理提出了更高的要求。

指标体系技术成熟度曲线



02.

大模型和指标体系技术结合的前景

2023年,ChatGPT在全球舞台上大放异彩,凭借其卓越的语言理解能力、强大的通用性和处理复杂任务的高效性,迅速赢得了人们的青睐与追捧。自推出以来,ChatGPT仅用短短两个月的时间,其月活跃用户数便突破了惊人的1亿大关,创造了消费级应用增长史上的奇迹。这一成就引发了业界对于如何将大模型技术与工作和业务深度融合的广泛思考。

然而,随着大模型技术的深入应用,其局限性也逐渐暴露。其中,缺乏行业深度以及AI幻觉(即机器产生的误导性信息)等问题成为了人们关注的焦点。这些问题不仅影响了大模型技术在特定领域的精准应用,也对其在复杂业务场景中的表现提出了挑战。

那么,在指标体系技术、产品和应用领域,大模型能够解决那些问题,不能够解决哪些问题呢?这个问题我尝试用肯尼芬框架来解读。肯尼芬框架(Cynefin Framework)最早由威尔士学者Dave Snowden在1999年提出,它用于描述问题、环境与系统(即场景), 说明了什么环境, 适合使用什么解决方案。

业务中的场景很容易分成两种状态,一种是清晰的(Clear),另一种事混乱的。(Chaotic)。清晰的场景有明确的步骤,结果是确定的,比如流水线。而混乱的场景随机性和未知性都太高了。肯尼芬框架在清晰和混沌之间增加了两个维度,繁杂(Complicated)和复杂(Complex)。

在当前的技术水平下,大模型只适合处理清晰指标体系场景中的清晰场景和繁杂场景的业务诉求。对于复杂场景和混沌场景中的业务诉求,则稍显无力。具体而言,指标建模技术和大模型的结合收益和可行性如下:

清晰场景(Clear):该场景中的因果关系显而易见,按照流程走,事情自然而然的就会步入正轨。这种场景是适合大模型进入的。比如在指标体系场景中,埋点和指标计算流程相对固定,所以很容易通过大模型提效,并且提升内外部数据生产者和使用者的感受。但是在清晰场景中,人也能发挥同等的效率和作用,大模型进入的收益会较低,大模型替代传统方案的必要性很有限。比如指标生产的指标计算、存储、验证等环节,传统方案就已经能比较好的处理了。

繁杂场景(Complicated):该场景中的关系逐渐模糊,需要一些专业知识探索路径。这种场景也可以由大模型帮助我们提效。而且由于复杂性高,大模型相对于人的效率和成本优势也会更高。在这样的场景下,与大模型结合收益最大。比如大模型可以对结构化、半结构化的数据进行深度理解,可以帮助抽取关键信息,这就使得在指标体系建模过程中,指标建模的业务分析和指标应用场景下的指标分析、归因等,可以倚重大模型,自动、智能地基于结构化的数据和非结构化的数据产出结论。

复杂场景(Complex):流程繁复,不确定性更高,需要人的摸索,有时候还需要复杂的沟通协调,这样的场景下是不适合大模型帮我们去做事情的。

混沌场景(Chaotic):在这种场景中,不确定性高,也不适合当前的大模型来处理。

在指标体系技术中,数据治理和指标管理环节多处于繁杂场景和复杂场景,其流程千头万绪,过于繁复,而且涉及到各团队的沟通协作,所以用大模型解决的可能性不大。

总而言之,大模型虽好,但是不能解决当前指标体系构建中的所有问题。大模型要想进一步在指标体系领域发挥作用,还需要进一步提升应对复杂和混沌场景的能力,更加关注领域知识的训练。

扫码下载:技术成熟度曲线--指标体系篇

往期推荐


白鲸开源CEO郭炜:数据集成的未来在哪里?

奇富科技朱杰:金融风控技术成熟度曲线全面解读

为十数载互联网风控技术著史,做风控廊庙之材   ——互联网智能风控的技术发展现状


点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunTalk
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存