查看原文
其他

数据中台:前台调用能快速响应、数据口径一致

任寅姿 季乐乐 技术琐话 2022-07-13

标签类目体系方法有什么用处?


标签类目体系方法有什么用处?对企业来说究竟有什么好处?企业数据部门人员经常会对标签类目体系存在的意义产生疑问。如果不建设标签类目体系,用传统的数仓建模是否也可以?数据部门负责人在汇报企业数据资产建设方案时,也面临着如何向CEO说清楚构建标签类目体系的原因和标签化的数据资产价值等难题。

3.1 数据资产可复用

标签类目体系是中台概念的核心落地点。中台概念最近非常火,它源自阿里巴巴过去几年在数据技术、中间件技术等领域的积累。

1.前台、中台、后台三者之间的关系

后台就像海面以下部分的海岛,有些可以连接,有些天然就无法连接。企业的业务库、信息库、资源库等就是企业的后台,数据库、计算引擎、信息技术、硬件设备等有些可以兼容,有些无法兼容。很多企业,特别是大型集团企业在采购底层支撑系统和服务时,会刻意选择不同厂家的产品,防止构成对某一家企业产品的强依赖而陷自身于不利位置。

前台由业务、应用等组成。随着近几年互联网技术的发展,数字化转型的深入,消费者诉求的转变以及市场竞争的日趋激烈,前台业务形态逐渐向场景化、灵活化、精细化转变。传统的流程型组织系统(ERP、OA、CRM等)已经无法适应变化多端的前台业务需求,企业迫切需要一种新型的组织系统来承载前台业务随着场景不同而快速形成的资源间的柔性组合。哪家企业的前台业务能真正做到随市场和客户而动,响应迅速,哪家企业就能真正占领市场,赢得消费者,具有更强的生命力。

前台和后台之间的某些属性是相矛盾的。
1)前台要灵动,后台要稳定。
2)前台要连接打通,后台资源有时天然不打通。
3)前台越拆越小,要的是速度,因此叫小前台;后台越建越大,要的是全面,因此叫大后台。
前台和后台之间需要一个中台来承接、消弭它们之间的差异,如图3-1所示。

2.数据中台的两大要义

数据中台最核心的要义有两点,如图3-2所示。
图3-1 中台与前后台的关系示意图

图3-2 数据中台的核心要义

1)在底层数据打通后,把经常用到的数据资源提炼、沉淀下来放在中台。

中台最核心的目的就是完成前台业务对后台资源的快速调用、快速试错。那些经常会被调用、可复用的资源能力可以从后台中提炼出来,存放到中台中,并通过良好的接口预留,实现与前台的无缝对接。就像我们浏览网页时,很多常用的信息、图片都会提前加载在前端服务器上,并不需要每次都去后端数据库读取,从而提升用户体验和业务效率。

既然数据中台的第一要义是把常用的数据资源沉淀下来供前台业务快速调用,那么标签作为可复用的数据资源的最佳载体,自然就是数据中台理念的落地核心了。标签越来越多,就需要标签类目体系来进行组织,其目的在于更好地梳理、使用标签。标签和标签类目体系始终围绕数据的价值、价值运营、高效运作等原则来管理和规划数据资产。

2)前台业务调用数据资源时中台能快速响应、无缝连接。

如果没有中台,前台调用一个数据资源需要直接到后台数据库中查找,查找流程复杂且性能低下,往往需要几天时间。此外,前台业务并不能直接将后台系统改造成适合自己使用数据的方式,否则可能会对其他前台业务产生较大影响。

当中台使用标签对可复用的数据资源进行沉淀并提供快速运用时,就能保障数据中台第二个要点的平稳落地:前台业务通过选取标签、配置所需的数据服务,将数据资产转化为对前台业务赋能的数据应用。

3.标签的适用范围

如果企业仅需在小系统范围内使用数据,例如构建一个简单的报表看板,不考虑复用性和后期维护优化,那么可以不采用标签和标签化处理方式,此时考虑的是如何快速支撑当前局部业务的需求。标签和标签类目体系主要关注的是哪些数据可复用,因此它们一定不是用来解决单一场景问题的。

当一家企业要正式构建数据资产时,就需要使用标签类目体系方法对数据资源进行完整梳理和规划。当企业发展到众多业务都需要数据服务支撑,特别是到了交叉数据源的开放共享阶段,就必须在标签方法论的基础上构建上层业务对数据资产的应用机制。

4.数据资产化的必经之路

随着企业对数据价值认知的不断深入,数据自然需要资产化,即对数据资源进行标签封装:从命名、规范、质量、安全等维度对每一项数据资源进行标注、说明、定义。数据不能再像以前面向单一场景时那样怎么快怎么用:数据没有备注,或只有数据操作者自己看得懂,甚至只要系统能跑通,业务上能使用起来,数据端没有注解都没关系。

数据资产化的最终目的就是让业务人员也能阅读、理解、方便地使用数据,因此将数据资产转化为可阅读、易理解的载体就是把数据资源标签化。很多企业虽然没有提出“标签化”的概念,但也在努力让资产往业务方向靠,其实也是在做标签化的趋同动作。

在这种思路下积累起来的标签集合可以通过标签门户向业务人员开放,供其查看、了解数据资产分布,并配合标签服务工具来方便业务端操作,从而激发业务活力,完成对多变场景的超速响应。业务人员查看数据资产就像逛淘宝一样简单,可以随时随地通过搜索或者类目分类查看企业可提供的标签。这些标签的解释术语(元标签)都是按照业务可理解的方式来组织和描述的,因为只有业务人员能看懂,他们才有兴趣进一步查看详情。在详情中还会具体罗列这些标签的历史使用情况:已经被哪些部门在哪些业务场景中使用,是怎么用的,用的效果怎么样。遇到合适的标签,业务人员可以将其加入购物车或者收藏夹,保存为自己的标签集。确定这些标签要为业务使用时,通过标签服务工具,让业务人员自己通过交互界面以无代码的方式创建数据服务或数据应用。

例如某业务人员查看了“性别”和“年龄”标签后觉得不错,可以先将其加入收藏夹。一周后业务场景提出数据服务需求:针对不同性别、年龄的消费者显示不同的活动内容。此时该业务人员可以申请收藏夹中“手机号”“性别”“年龄”等标签的使用权限,获得授权后导出到标签服务工具中。在标签服务工具中选择【数据查询】这种服务类型,将“手机号”标签设为输入项,将“性别”“年龄”标签设为输出项,即可快速配置出一个通过消费者手机号查询其性别、年龄的数据服务接口,供业务系统调用。

3.2 面向业务可理解

最近几年大数据实践逐渐转向成熟期,关注点从数据同步、数据开发逐渐转移到数据资产管理和治理。业内因此衍生出了多种数据资产建设管理办法,但当前主流方法,如DAMA数据管理知识体系、数仓建模理论等,都偏向于底层技术实现,而非从上层业务应用角度对资产进行统一管理。

1.需要更具价值的数据资产

数据资产之所以称为资产,是因为它是从价值出发,经整理、管理、优化,对业务真正有帮助、能带来效益的数据资源。那些扔在数据库中、不知道是什么的原始数据项并不是真正意义上的数据资产。即使经过了数据开发者大量的治理工作,数据项如果不是业务上可用想用的,那么也只能称为数据负累。

企业一方面鼓励业务人员要研究数据、数据化运营,但另一方面数据支撑却没有建设充分:业务部门提一个数据需求,往往需要在数据部门排期2~3个月后才能得到数据结果或数据服务响应。业务人员受不了长时间的等待想要自己去查看数据,面对着的又是一串难以理解的英文、数字编码。因为数据库原理、数仓知识最初都是从国外引入的,企业内的数据环境对业务人员非常不友好,业务人员连数据信息都无法理解,更不用说上手直接操作了。

因此企业需要找到一种更具价值的数据资产建设办法。更具价值是指,能让业务用起来,帮助业务人员解决问题。把数据资源封装成业务人员能理解的形态是后续资产价值化的必要前提。标签类目体系方法论通过“标签”这种载体将数据资源转化为业务人员能理解的资产形态。业务人员可以通过标签的定义、逻辑、值字典、常见应用类型、使用效果等维度来全面简单地理解数据资产。例如“性别”这个标签, 逻辑描述不会是“取IDCard字段,先校验是否为18位数字,是则取倒数第二位数字,该数字为奇数则本记录取值为女,为偶数则本记录取值为男”,而应该是“取消费者实名认证时上传的身份证信息。根据身份证号码的倒数第二位数字判断男女”。

业务人员快速理解标签信息后,可以选取所需标签并申请使用,第二天数据服务接口就能提供,第三天业务系统的技术人员就能和自身系统对接联调完毕,第四天这些标签就能被实际使用起来。当然4天时间还是太长了,在工具平台打造得非常顺畅和智能后,业务人员可以在一天内完成标签的申请到使用。在标签使用的过程中,也可以根据实际情况修改、删除原有标签,同样在一天内生效。此时业务部门对数据的使用效率就会非常高,试错成本非常低,最终以较低的成本找到数据价值路径。这样业务部门就有意愿主动完成数据业务化的转型工作,同时以业务的高频使用来试验标签质量,带给数据部门最真实的反馈信息。

2.好数据资产设计办法的特征

1)好的数据资产设计办法是桥接数据和业务的中间逻辑层,让数据变得可阅读、易理解。在这里要注意,这个中间逻辑层不能只有和业务的连接,而忽略与底层数据的映射,毕竟有数据的流通传递数据资产才能真正发挥价值,空有架子外皮没有意义。

2)好的数据资产设计办法是一种统一的对象数据描述办法,应该把个体刻画升级为群体刻画。举例来说,对人的研究必须找到对人群的共性刻画。只要是“人”这个对象,那么就会有性别、年龄等特征,每个个体都可以在特征值维度找到个性刻画,而不是一上来就去研究个体,专注于这个人具体怎么样,那个人具体怎么样,每当有新人出现时,又必须重新刻画,永无止境。

3)好的数据资产设计办法具有第一性原理,通过学习方法论+演绎推导即可构建具体的企业资产,而非经过大量实践后再归纳总结。

标签类目体系方法论可以满足以上3个特征要求,理由如下。

  • 第一,标签作为面向业务的数据资产载体,一方面以标签的形态串联业务端的理解和操作,另一方面每一个标签都会与底层数据字段相映射,以实现底层数据的切割、相连、操作等。


  • 第二,标签类目体系是一种以对象为基础的数据资产梳理方式,对某一类对象的标签类目体系的构建实际上是完成了对某一类对象的模式设计。对这一概念的详细解释可以查看标签类目体系第一性原理的具体内容。


  • 第三,标签类目体系有自己的第一性原理,根据第一性原理,得出具体的方法、标准、实施步骤和模板工具,而不是某一场景中数据信息的简单收集和罗列。


3.数据资产必然走向业务导向

未来能够大规模高效使用数据的不能只有技术人员,还必须有广大的业务人员。
谷歌搜索引擎的核心算法并不是基于多么高深的人工智能算法,也不是基于人工维护的绝对准确的网页信息库,而是基于大量普通用户在网页访问、跳转间的行为记录,来推算网页之间的关联关系,进而为广大用户提供高质量的目标网站。在其中发挥最大作用的就是群体智慧,其价值比专业人士的专业整理还要高。同样,到底要打造哪些数据资产,数据资产怎么用,需要发挥业务人员的群体智慧,根据大量的业务行为进行群体决策,这也符合用数据来判断的主旨。

如果重要环节都需要专业人士来整理、把关、判断,专业人士就一定会成为阻碍业务发展的瓶颈。专家资源有限,而优秀业务的发展速度一定会快于专家的培养速度。因此数据资产的建设运营不能完全等待数据专家来判断,需要一种自发流畅的机制来自动化保障数据资产的有效优化。所谓业务导向,并不是说要听业务专家的意见,而是要听业务流程、业务人员、业务数据所表达出来的意见。

真正能够发挥数据价值的地方在业务前线。必须以数据的最终价值来驱动数据的全链路运营过程。真正持久的数据资产建设一定不是从治理出发,干的都是苦活累活但是效果却不显著,业务并不为苦劳埋单,而要从价值倒推,让业务部门通过收获数据红利来反向促动数据部门治理和优化数据,并按需主动提供新的数据源。

4.数据操作系统下的数据资产流向

企业构建数据资产起初主要是为了对数据进行有效运算并得到结果。在发展过程中,要解决的问题逐渐转变为: 如何让业务人员能够快速使用数据资产去产生价值,缩短业务部门和数据部门之间的距离?其中包括加深对对方部门的理解(例如让业务部门理解数据,让数据部门理解业务),让后端计算引擎等数据技术资源良好匹配前端业务性能要求等。等到了数据操作系统时代,业务端可以通过智能系统自动串联前后端信息流。试想一下,有一天业务人员只需要对着数据操作系统说一句“我要A公司全体员工的性别分布,以饼图呈现”,系统就会自动地先将语音转成文字,将语义解析为多条指令,再从员工资产库中选取“性别”和“所属公司”这两个标签,配置分析服务引擎进行数据加工运算,最后通过饼图可视化组件呈现满足要求的数据交互界面,以供业务人员使用。

在数据操作系统模式下,对数据资产进行操作是一个横向流程,如图3-3所示。在业务系统侧,业务人员会向数据操作系统发出数据需求指令;之后数据操作系统就会将这些语音指令转化成真正的系统指令代码逻辑,发送至数据库表进行相应的运算;最后在将运算结果回传给数据操作系统后,系统选择合适的数据可视化效果呈现给业务端。在整个过程中,业务人员向系统发出语音指令的动作是高频的,说明业务需求活跃;而数据开发工程师预设数据库表和标签、创建映射的动作应该是相对低频的:在保障稳定的同时,让更多工作由系统自动化完成,可以防止全流程卡在数据开发工程师这一侧。

图3-3 数据操作系统工作流程

数据资产操作过程中的业务半程,即图3-3中虚线左侧流程中的重点是构建业务可理解的数据资产载体。虚线右侧是技术半程,重点是打造后端技术可实现的自动化数据处理过程。当前业内提到的数据资产构建方法其实有两大派系:一种是技术派系,类似数仓建模理论、数据治理方法等,目的是使海量数据能够稳定、高效地运转,属于技术半程范畴;而另一种就是本书所倡导的以标签作为数据资产价值载体的标签类目体系方法论,其目的是激发业务诉求,寻找并发挥数据价值,是面向业务半程的。

3.3 数据价值可衡量

数据已成为五大生产要素之一。它作为一种可再生资源,可以通过劳动加工获得价值并参与价值分配,它像土地、劳动力、资本等其他生产要素一样,是可交易、有回报的。数据不再是躲在业务背后的支持力量,它已经走到台前,自身就具有商业价值。

1.什么是数据商品化

数据可交易、有回报,意味着可以将数据作为一种资本妥善运营,这是一种比数据商业化更大胆也更直白的提法。多年前就有企业在探讨数据的商业价值,相信会有越来越多的企业来共同探索数据资本化的方式和路径。
数据资本化的核心前提是数据商品化,如何将数据切割清楚、组织封装、服务配套成独立的商品单元,并形成数据商品售卖、使用、售后等全链路的运营闭环,将是这几年大数据领域中的研究重点。

企业迫切需要一种数据转化方式将设备中的信号、数据库中的字段、业务人员口中的指标等,映射和封装成一种可确权、可交易、可持续、可衡量的数据商品。一定不能直接将数据信息打包售卖,这种粗暴、低价值的售卖方式容易触碰信息安全的红线,不利于数据价值的衡量,且容易造成数据资源的贱卖/高卖,这些都不利于数据生态的稳定发展和数据价值的长期积累。

标签对数据的业务导向封装正好匹配了数据商品化的思路:将数据拆解成最小粒度单元,既具备某一对象的共有属性,又有丰富的多样性。通过标签这种组织方式,可以实现对数据资产的管理、使用、衡量的全链路闭环,因此标签完全符合数据商品化的载体要求。这一点也佐证了标签类目体系对数据资产的刻画方式是顺应时代发展要求的:提倡从价值角度梳理、组织数据资源形态;只有让数据资产通过数据价值参与分配,才能进一步解放数据生产力,极大地发挥数据的作用。

2.数据价值分配模式

数据商品与普通商品不同,它们参与价值分配的方式也不太一样。数据商品包含数据本身和数据服务,类似于实体商品本身和商品配套服务,却又有不同:很多实体商品可以脱离服务单独售卖,但是数据商品中的数据本身并不能直接售卖,必须通过数据服务才能让最终用户接触到并使用,因此能定价交易的是将数据封装在数据服务中的组合商品形态。

数据商品在参与价值分配时,不能直接对数据本身定价或分配价值,只能对带有具体数据的数据服务形态定价或分配价值。例如,不能直接说用户表中的性别字段值多少钱,定价多少,而应该看在某一场景中,选择“用户ID查询性别”这一数据服务的使用者具体查询了几次用户的性别信息,这些查询为他们带来了哪些价值或对该业务场景产生了多少价值,以及从这些价值中分配给该数据服务的价值是多少。慢慢地,大家形成了一种共识—这种类型的数据服务的单次使用价值是多少,这种共识就可以作为这种数据商品的单价。

3.标签是数据商品最适合的颗粒度

数据商品中的数据本身根据不同的颗粒度可以分为对象层、表层、字段层、字段取值层。例如,用户是一种对象,用户下会有用户基本信息表、用户交易明细表、用户注册认证表等表级信息组织。每张表里都会有围绕这种表的详细字段,例如基本信息表中会有性别、年龄、职业等基本信息,用户交易明细表中会有交易时间、交易金额、交易商品等交易信息,用户注册认证表中会有注册日期、注册会员号、注册手机号、认证日期、认证绑定身份证号等注册认证信息。在职业这个字段取值中,会存在教师、医生、工人等多种取值类型。表3-1为不同的数据粒度示例。

表3-1 不同的数据粒度示例

从中可以发现,同一对象群体的不同个体在“对象”“表”“字段”层面都具有相同的信息项,在字段取值层面存在差异性。字段粒度是刻画某一对象群体通用特征的最小粒度。例如每个用户都会有其“基本信息表”“职业”等信息,但是在“职业”的字段取上每个用户都不太一样。

可规模化商业运作的商品应具备一定的通用性和多样性,以达成有效平衡:过于个性化的商品不利于规模化组织、售卖、管理,过于笼统的商品分类又不利于商品的有效选用。

在标签类目体系方法论中,对象对应于根目录,多种表对应于多级类目,属性/字段对应于标签,属性/字段值对应于标签值,如表3-2所示。标签类目体系中的标签是属性粒度的业务向资产形式,最适合作为数据商品中数据本身信息的业务逻辑封装形态。

表3-2 标签类目体系方法论中各概念与数据粒度的对应关系

4.数据商品化全流程运营

以标签为核心的数据商品化全流程运营过程如下。
1)根据业务场景需求,按照标签类目体系方法论设计标签集。例如某女装频道的业务部门打算开展千人千面的精准营销,需要对用户进行肖像刻画,数据产品经理会与业务人员沟通,然后设计业务部门所需的标签,例如“性别”“年龄”“预测购买力”“预测风格偏好”“最近购买品类”等。

2)标签创建后生成标签开发任务,分配给数据开发工程师或算法工程师。当具体字段开发完成后,将数据字段与标签进行关联映射。至此,标签的设计就完成了,经过审核后可以在标签集市中上架,作为数据商品信息呈现。

3)业务人员可以搜索、浏览、查看标签化的数据商品信息,包括标签名称和标签详情、功效、可应用场景、用户评价等。如果发现自己需要或感兴趣的标签,业务人员可以将其加入购物车或收藏夹,以供下一阶段配置数据服务使用。

4)通过服务化的工具,可以将选中的标签集合快速配置成数据服务或数据应用(真正的数据商品形态),供业务部门使用。

5)业务使用过程中所沉淀的日志、反馈、事故等信息都可以用来更好地管理标签和服务,帮助优化数据商品的质量。

6)标签管理过程可以更好地优化现有标签设计。例如,对于质量不高且无人使用的标签,可以吸取教训,避免以后再设计类似的标签;对于质量不高但需求高的标签,寻找更好的设计思路来提升标签质量;对于质量高但需求不高的标签,分析原因后修正标签设计思路;对于质量高且需求高的标签,可以不断优化或设计出更多类似特征的标签。

通过标签化的数据商品参与价值分配,可以预见以下几个结果,如图3-4所示。
图3-4 数据商品化的4个导出结果

  • 数据部门将会从成本中心变为利润中心。数据部门生产的数据商品会在业务中发挥价值,并通过商品化进行价值衡量与结算,而不产生价值的数据都会被下架以减少成本支出,最终数据部门会收支平衡,乃至变成一个以数据作为核心生产要素的产能工厂,实现数据变现。
  • 数据部门中的标签运营部门会成为重中之重。标签运营部门的人员包括数据产品经理或标签设计师、标签管理员、标签运营专员等。标签运营部门会以业务为导向,以实现数据价值为目标,全链路开展标签价值的测算、计量和扩大化的工作。
  • 通过价值才能真正解决数据打通、治理、使用等“老大难”问题。对奋斗在第一线的数据人员来说,数据打通、治理、使用是压在心上的三座大山。数据打通是数据资产化的前提,但因为存在部门墙、信息孤岛等问题,大家对原始数据过度保护了。数据治理环节复杂、推动困难,导致业务人员没有耐心,数据人员没有信心。数据使用问题是针对业务人员而言的,有时候数据部门非常希望业务部门的人员能对数据感兴趣,能使用起来,但往往因为沟通不畅及数据门槛较高,双方在认知层面存在较大鸿沟。通过标签可以很好地将数据价值发挥出来,用价值倒推业务人员主动理解数据。DT时代,谁掌握了数据谁就有制胜权,没有使用上数据的公司、业务只能被动受限。在数据价值展现后,业务部门会主动与数据部门沟通数据源打通、数据质量提升优化、数据场景化使用等问题。这些问题在价值面前都能迎刃而解,千万不要仅仅依靠技术手段或行政命令来解决。
  • 数据价值运营是一个持续运作、坚持不懈的过程。数据价值运营是一个艰苦、持续的运行态,环节中的任何一环“罢工”,都会使得整个环节运行卡顿或减慢速度。例如数据源头有3个月不更新,产出的数据质量就会变差,业务部门就会投诉或拒绝使用。一旦业务部门在整个闭环中的参与度降低,三座大山又会从头再来。所以数据问题不是解决一次就能“长治久安”的,数据事业是一条需要长期耕耘、时刻警惕的艰辛之路。
对于以数据价值实现作为自身理想坚守的数据人来说,当数据魅力真正迸发的时候,那种兴奋和感动会让我们觉得人生的价值也一起得到了实现,也许就像有人说的,人生和理想互指迭代、同频共振了。所以真正的数据人并不会在数据问题面前失落和放弃。


关于作者:
任寅姿(花名:影姿),资深产品总监、数澜研究院院长拥有超过10年的数据产品经验,原阿里巴巴集团数据产品专家,曾负责集团消费者标签类目体系、DMP精准营销等系统的数据资产设计与实施。2016年加入数澜科技,负责管理公司产品团队,系统提升团队数据思维、数据资产设计能力及数据服务应用经验,是数据中台理论定义及体系构建的核心参与者。

季乐乐(花名:寒泉),政法行业资深专家、产品专家拥有超过6年的政法行业产品经验,原南京通达海区域负责人,专注于研究数字检务、智慧法院等领域。
本文摘编自《标签类目体系:面向业务的数据资产设计方法论》,经出版方授权发布。


推荐阅读:



《标签类目体系:面向业务的数据资产设计方法论》

数澜科技出品,标签类目体系已获专利,萃取百家头部企业数据资产设计经验,系统总结数据资产设计方法论。

扫码6折优惠购书↓:


 往期推荐 



技术琐话 


以分布式设计、架构、体系思想为基础,兼论研发相关的点点滴滴,不限于代码、质量体系和研发管理。本号由坐馆老司机技术团队维护。




点击“阅读原文”了解更多数字化转型好书

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存