查看原文
其他

在大型项目中,抖音集团如何“用活”数据?

火山引擎VeDI DataFunTalk
2024-09-10

导读 本文主要介绍在大型项目中,抖音集团如何“用活”数据?

主要内容包括以下几个部分:

1. 理念升级:从数据中台到数据飞轮

2. 案例解读:大型赛事项目

3. 核心结论:数据飞轮,让数据活起来

分享嘉宾|火山引擎VeDI 

出品社区|DataFun


01

理念升级:从数据中台到数据飞轮

当前,数据作为数字经济时代的关键生产要素,逐步融入生产生活各方面,去年国务院也发布了《关于构建数据基础制度更好发挥数据要素作用的意见》,且国家数据局于今年成立,进一步说明数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。

对于企业来说,随着互联网、大数据、人工智能等技术的快速发展,数字化转型也成为企业实现更快发展、降本增效的重要手段之一。数字化转型能够使企业更加高效、灵活和适应市场变化。通过利用先进的技术和数据分析,企业可以优化业务流程,提高生产效率,降低成本,并更好地满足客户需求,不仅有助于提升竞争力,还可以带来更多的商业机会和收入来源。

数据驱动,也是字节跳动的企业文化基因。据介绍,80% 的字节员工每天在通过各种各样的数据产品使用数据,进行数据消费。这其中既包括大家传统认知中的数据工程师、数据分析师这些需要直接和数据打交道的人,也包含产品、运营、市场,甚至行政、HR、UED 这些传统意义上离数据比较远的人。

经过十多年数据经验沉淀,从数据工坊、数据中台,字节跳动也衍生出数据飞轮模式。我们认为,在企业数据建设发展过程中,经历了从数据工坊、数据中台到数据飞轮的三个阶段。
  • 第一阶段:数据工坊,主要指在企业内各个子公司、子业务各自进行数据建设,形成数据孤岛,并且将导致数据处理效率低下,无法处理大规模数据。
  • 第二阶段:数据中台。这是一种集约化的数据管理方式,主要是通过构建统一的数据平台,实现数据的采集、存储、处理、分析和共享。数据中台可以有效地提高数据处理效率,降低成本,并提供更准确、更及时的数据支持。同时,数据中台的建设也需要大量的资金和技术支持,而且需要长时间得规划和实施。
  • 第三阶段:数据飞轮。数据飞轮是火山引擎提出的企业数智化升级新模式,强调以数据消费促数据生产,以数据消费助业务发展,通过数据消费这一出发点,转动企业业务应用层和数据资产层的两个飞轮。

企业大数据建设的三个阶段

数据飞轮与数据中台并不是完全替代的关系,而是继承和升级的关系。数据中台提供了企业所需的底层数据支持和数据处理能力,而数据飞轮则是在此基础上,指出数据消费的重要,并提供配套的便捷、易用的数据消费工具,帮助企业形成数据应用和业务价值提升的良性循环。

02

案例解读:大型赛事项目

无论是春节、双十一等节日事件,还是世界杯、冬奥会等大型赛事,抖音集团需要承接大量大型项目的需求。数据在其中的重要性不言自明,从决策层到一线员工,都需要依据数据来进行决策。

以赛事项目为例,业务团队以及运营人员在赛事运营、热点运营、直播间分析、资源投放等有大量数据消费的需求,基于数据BP的组织模式,数据流和业务流充分地融合,让处于业务流各个环节的不同角色,有充分机会使用到数据。同时由于数据研发治理、A/B 测试、CDP 等数据工具进一步降低使用门槛,推动业务层产生更多数据消费,进而产生飞轮效应,更好实现赛事项目的业务目标。特别是对于一些国民级的大型赛事来说,累计观看人次往往达到百亿级、累计活动参与人数千万级,涉及多端、多场景、多业务联动,对技术实力、组织效率、产品能力都是一次“严考”。

面对庞大的数据量级,在大型赛事项目上如何用好数据上,面临这两个问题:
  • 横跨大量需求方,如何实现组织协同?
大型活动的成功不仅仅依赖于技术团队的努力,还需要市场、运营、内容创作等多个部门的紧密合作,有的甚至需要协同公司内数 10 多个数据团队、协同百余位需求方。
  • 如何让组织协作方都能又快、又准、又全地使用数据?
例如,对于直播赛事,需要实时分析观众兴趣偏好等数据,以便为观众提供更好的观看体验和个性化推荐。这需要对大量实时数据进行快速、准确地分析和处理。

1. 数据 BP 的组织协作模式

为了给用户提供更丰富观赛体验,大型赛事项目往往会针对比赛做大量创新,不仅仅有赛事运营中常见的积分榜、有奖预测等,更有实时的运营项目,比如赛事热点榜单、热门球星等等。除此之外,大型比赛也会涉及到多端同步直播。

丰富的赛事内容、运营活动以及多端联播,意味着赛事项目需要多业务线、多团队、多角色介入与合作,更意味着他们将产生复杂的看数、用数需求。比如,每个团队监测的数据指标不一致,对数据实效性需求不同,统计口径或埋点不一致,该如何满足?

字节跳动的数据 BP 机制则可以解决这一问题。数据 BP 来源于 HRBP(Human Resources Business Partner,人力资源业务合作伙伴),其职责是向上支撑不同类型的业务线,向下兼容数据平台底层的各项能力,具备对数据工具和引擎的高效使用能力。数据BP 作为数据平台与业务的桥梁,对业务直接输出平台已沉淀的能力,把业务场景方向反馈给中台建设,实现能力的动态互哺。

除此之外,为了能统一服务标准,数据BP还总结了一套服务评估体系,称之为“0987”:
  • 0 代表稳定性,即产生数据是否稳定。通常,SLA 破线的故障数要清零。
  • 9 代表需求满足程度。即要满足 90% 的业务数据需求。
  • 8 代表数仓构建情况,即数仓完善度。是否可以满足分析师查询覆盖率达到 80%,也就是说分析师查询日常数据都可以找到数据。
  • 7 代表用户满意度。通过 NPS 评估服务满意度不低于 70%。
另外,大型赛事更需要横向团队支持来保障数据质量。比如比赛产生的数据量特别大,上线前可能出现数据大面积延迟,数据 BP 则能根据情况灵活申请资源,上线前做整体监控及全面优化。除此之外,大型赛事也面临核心直播数据质量风险高的问题,通过上线前演练,数据 BP 团队最大程度模拟真实数据和场景,全面保障数据的可用性、准确性。

2. 场景一:大型赛事中的实时数据分析

在大型赛事项目中,业务有非常多关于实时数据的需求反馈,例如直播间分析、专项看板、核心大屏等,实时数据能够帮助运营人员更快、更准确地制定或调整赛事运营策略,而“赛事运营资源投放“就是重要的实时需求之一。

为了最大化大赛覆盖面和影响力,项目组一般会根据赛事进程为每场比赛匹配广告投放资源。那么,在有限资源下,如何才能最大化广告投放效果,成为赛事运营团队考核的核心指标?运营团队需要找到投放时间、投放人群、投放量级等变量的最佳组合,这也需要通过实时数据看板辅助决策。

从用户的实时点击到最终呈现给赛事运营的一个个数字看板,背后涉及复杂的数据采集、加工等流转过程,其中技术难点在于对数据实效性要求高、更新频率高、准确性要求高。这主要依赖火山引擎大数据研发治理工具 DataLeap 来实现。DataLeap 具备实时全栈能力,涵盖数据采集、数据处理、运维管理、监控告警等全链路。

数仓研发人员会基于 DataLeap 对不同任务进行分级,并匹配任务监控能力。如果该任务有延时,即被判断为高危任务,并把风险推送给相关人员,由此保障数据实时性。除此之外,火山引擎 DataLeap 还对 Flink 引擎进行深度优化,大幅度提升计算能力和计算性能,能让数据采集、加工等流程缩短到秒级,带来更快的数据响应,帮助赛事运营团队更好实现实时决策。通过 DataLeap 采集、加工的数据最终会通过数据中心展现给赛事运营团队,数据中心能提供一套标准化的看板能力,帮助赛事运营团队根据实时数据曲线来制定投放策略。

项目组会通过历史比赛数据来做赛前预判,当到计划投放的时间点或场景时,监控数据中心提供的 PCU、进房人数等实时数据趋势,来判断是否投入更多资源。如果数据趋势达不到预判趋势,就会投入资源。最终赛事运营团队也总结出一套投放策略——聚焦于开播、上下半场结束前 15min 的 pcu 高点这几个关键节点进行资源投放。

3. 场景二:基于 A/B 测试的产品能力优化

如果有朋友细心,便会发现很多产品 app 首页对不同人的tab展现情况、时间、位置是不同的。这是基于大数据的能力,洞察用户偏好,根据数据分析进行精准推送。

为了获得更好的曝光,大型赛事往往也会在产品 APP 首页等关键位置上线推广资源。优质推广资源有限,如何才能最最大化推广资源价值,需要用科学、严谨的方法来评估,项目组主要通过 A/B 测试来解决这一问题。

以赛事团队在 APP 首页的 tab 展现为例,项目组通过两个阶段的 A/B 测试,最终制定了最优的赛事展示方案。

阶段一:预赛期。由于这一阶段比赛还处于热度不断攀升的阶段,数据 BP 团队将 APP 用户分为“展现顶部 tab”和“不展现顶部 tab”两群人,根据经验初步判断,将赛事 tab 展现给兴趣度最高的一部分人群,能实现收益最大化。为了这部分展现人群,数据分析和数仓团队根据历史数据做人群分析,定位基本人群画像,通过客户数据平台 VeCDP 圈选人群,再导入 A/B 实验平台 DataTester,由数据分析师设计实验规则,命中实验规则的人群即可看到赛事 tab。

阶段二:比赛期。这一阶段,随着决赛名单出炉,赛事热度被推至顶峰,顶部 tab 也将被全量展现给 APP 用户。为了进一步平衡顶部 tab 带来的收益和影响,数据 BP 团队上线了“动态调整”能力。“动态调整”能力意味着,结合比赛进程、用户兴趣变化等因素,不同人在不同时间,看到顶部 tab 位置是不同的。而之所以能实现灵活调整,也离不开对 VeCDP 和 DataTester 的组合使用。

通过 VeCDP 圈选不同人群,再到 DataTester 建立不同对照组进行测试,并实时复盘,不断修正结果,具体而言,第一是做数据分析,比如通过 VeCDP 圈定的人群点击率到底有多少。第二是看活跃情况,例如,一个用户顶 tab 展现在第四个位置,即该 tab 是被隐藏起来的,因为前期判断该用户兴趣度不高。但比赛期间,赛事团队通过 DataTester 实验数据发现,他主动搜索赛事相关内容、或者手动把顶 tab 展现出来,我们则会认为他高活跃,把顶 tab 挪到第三个位置。

03

核心结论:数据飞轮,让数据活起来

反观大型赛事项目中的数据建设方式,我们主要可以总结如下几点:

第一,数据消费是数据飞轮的核心驱动力,也是企业数字化转型的核心。消费繁荣可以促进数据资产的建设,消费繁荣能促进业务的发展。这样企业的数据流就逐渐地跟业务能够进一步地融合,数据资产、业务应用,最终形成双飞轮的效应。
  • 提升决策效率:数据消费能够让业务在进行决策与运营的时候,更快、更有效。例如,大型赛事项目的运营同学会根据实时数据看板,来制定广告资源投放策略。基于这种实时的数据消费,能让决策更高效、更有效。
  • 驱动业务价值提升:一旦业务参与方发现借助频繁的数据消费能做出高效决策,并带来更好的业务价值后,会促生出更多、更频繁甚至延伸到更宽领域的消费。当数据消费盛行时,企业会加大在数据建设、数据治理和数据查询能力的投入,那么飞轮的转动便会推动数据在各个应用场景的快速渗透,并促进数据消费。
第二,产品普惠,数据产品做得足够简单易用,需要尽量少的专业知识,降低使用门槛。例如,为了确保数据产出的及时性,赛事项目的研发人员会基于 DataLeap 对不同任务进行分级,并匹配任务监控能力。如果该任务有延时,即被判断为高危任务,并把风险推送给相关人员,自动化监控的能力则能降低使用产品门槛。

除此之外,我们也在推动数据飞轮与 AI 能力结合,进一步降低用户的使用门槛。例如,DataWind 找数助手,可以使用自然语言问答的方式来检索多种数据源,包括数据集、数据指标维度、业务知识库等,并做出拟人化的总结响应。在这种交互过程中,大语言模型可以更好地理解用户的真实意图,让“找数”本身的成本变得非常的低。另外,DataLeap 开发助手能够降低编程语言带来的障碍和门槛,一方面让不精通 SQL 语法的人也可以做简单的数据开发工作;另一个方面,让特别专业的数据研发人员从大量繁杂的需求中解放出来,更聚焦在复杂场景中。

第三,资产运营,即实现数据资产的可治理、可落地和可运营。通过制定明确的数据治理策略、规划实施计划、加强元数据管理和优化数据湖资源管理,我们实现了对数据的全面管理和有效利用,为企业的发展提供了有力的支持。

例如,在大型赛事项目中,为了确保数据的质量、一致性和可用性,通过数据BP的组织模式,对各个团队的指标口径进行统一,并通过数据研发治理平台等产品,制定明确的数据治理策略,不仅保证在后续的数据分析和决策中得到准确的结果,还可以确保数据的合规性和安全性,避免数据泄露和滥用。

数据驱动已经成为数字化转型中企业的基本认知,但是如何“用活”数据,进一步提升企业活力,还需要持续、长期探索。
以上就是本次分享的内容,谢谢大家。

往期推荐


【他山之石】360 多兴趣召回 Mind 实战优化

快手3D数字人直播互动解决方案-元宇宙的应用探索

蚂蚁 TuGraph-DB 数据库查询引擎技术

如何将知识图谱与AIGC结合?京东是这么做的

如何使用 JIT 技术实现高效的数据库表达式求值

Alluxio 在网易大数据的应用与优化实践

数据集成产品的技术演进与实际应用-FastData DCT

阿里云湖仓存储系统设计剖析和性能优化

滴滴大数据成本治理实践

百度推荐排序技术的思考与实践

蚂蚁营销推荐场景上的因果纠偏方法

数据产品经理应对B端用户增长方法论

点个在看你最好看


继续滑动看下一个
DataFunTalk
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存