查看原文
其他

大模型加持,火山引擎加速数据价值的“飞轮效应”

CSDN 2023-09-21
在数据价值驱动企业数智化转型的当下,数字化建设已是共识,大部分企业有所布局。但如果深入产业后会发现,即使企业目前数据量不少,尽管使用了数据工具,但数字化建设仍不尽如人意,业务和数据之间缺少双向良性互动。
例如,对于企业里不同职能岗位的不同参与者,可能缺乏使用数据的意识,缺乏敏捷、易用的工具。导致在项目推进过程中,大部分人主动或者被动地凭经验、拍脑袋决策,这会导致业务结果存在不确定风险。有些企业管理者可能会问,为什么花了大量的人力、物力、财力,花费很长时间建设数据中台,但在业务侧却没有明显成效?
9月19日,在“数据飞轮·V-Tech数据驱动科技峰会”上,我们看到了火山引擎的答案。在数智平台VeDI上,迭代升级大模型能力,进一步释放数据价值。

有数据,不驱动?

进入数据爆炸时代,不少企业意识到了数据的价值,开始大量地囤积数据,部署数据分析产品,试图用数据来改变业务现状。但依然有很多试图拥抱数据的企业,没有实现真正的数据驱动。
对此,火山引擎总裁谭待表示“数据驱动本就是一件难而正确的事。”

火山引擎总裁谭待

为什么企业有丰富的数据,却不能让数据实现价值?关键原因在于数据是否用活。而我们知道,字节跳动的迅速发展离不开两大法宝,推荐算法和数据驱动。既然数据驱动这么难,字节跳动又是怎么做这件事的呢?
谭待介绍道:“2012年公司创业,我们最初做A/B测试,当时还是手写代码,后来发展成支持大规模测试的平台。我们发现只看一个结果是不够的,需要有数据分析提供策略依据,有指标验证。所以我们开发了数据运营平台(代号“风神”),数据集成、数据开发、数据治理一系列的配套工具。”在那时,字节内部有一句流行的话术:A/B是一种信仰,风神是一种习惯。
一两年之后,字节跳动开始开发客户数据平台,包括ABI等工具。与此同时,云、AI、数字化转型等技术开始掀起应用风潮,数据规模急速增大,数据分析的速度开始面临上升瓶颈。字节跳动又基于ClickHouse进行了深度优化与自研改造,开发了极速OLAP引擎(对外产品叫ByteHouse),支持内部数万员工每天的日常工作,让创新不再有延迟。
但随着数据中台在业务实践中逐渐有了雏形,问题逐渐显现——究竟是构建面向应用的数据中台,还是构建面向底层基建的数据中台?谭待表示:“我的看法是面向应用更有目标性,能更早发挥数据价值,好比说先找到了钉子,然后再去看哪个工具钉更适合。”
三次发展,三段时期,字节跳动实现数据驱动的秘密,那是业务增长和数据建设需要让数据真正使用起来,每一个角色、每一个岗位都能成为数据产品的使用者。由此,我们也不难理解为什么会出现“有数据,不驱动”的问题。因为数据,没有被用活,没有被消费。
数据驱动为什么如此艰难?火山引擎数据产品负责人郭东东表示,因为很多企业没有做好数据消费:“大部分企业主要是看最核心的几个数据,但在业务整体流程中,还需要更多的数据跟踪、观测和决策,目前还是远远不够。”
他观察到,不同职能岗位使用数据产品的意愿也不高,主要因为数据的查询还不够简单便捷,很少人会主动使用。如果企业如果没能做好数据消费,那么数据作为资产就很难真正使用起来发挥价值;如果不能高频使用或者使用不当,会让其在一定程度上成为企业的负资产,消耗巨额的无效成本。

数据飞轮:从数据消费到双轮驱动

企业不想完成数据消费?当然不是,企业既然希望数字化升级,部署数据产品,他们一定想用好。怎么才能让数据用活用好,真正实现数据驱动?
今年4月,火山引擎基于字节跳动十余年数据驱动的底层思考和实践经验,提出了数据飞轮的概念。数据飞轮是推动企业进行数智化转型升级的新范式。其核心理念:数据消费是核心驱动力,以数据消费助力业务发展,以数据消费促进资产建设。

火山引擎数据飞轮
“数据飞轮”,是围绕数据消费形成了从数据资产到业务应用的双向正循环。
  • 数据消费是解锁数据驱动的钥匙。以数据消费为核心,每一个具体业务中可以代入数据消费的理念,这能加速决策洞察,让数据真正赋能业务,提升业务价值,进而推动更多、更频繁的数据消费行为,这是第一个飞轮。
  • 数据的频繁消费会为企业的下一步发展囤积更多的数据资产。业务的蓬勃发展也带来更大规模的数据,从而推动数据资产的建设,提高数据研发效率。更好更快的数据产品,自然也就让业务员工更愿意使用,成为第二个高速旋转的飞轮。
“我们的数据飞轮和传统数据中台最大的不同在于,中台本身的理念是数据统一,但数据统一之后并不代表业务端就会使用。那我们要做的是数据和业务的双向良性驱动,让数据真正消费起来,应用的场景就会越多,在业务中发挥的价值就越大。”郭东东表示。

数据飞轮有效吗?

数字化升级的目的是基于数据驱动业务增长,但是很多企业纠结的点反而在此:因为数字化本身的效果很难量化。那么我们不禁要问一句,数据飞轮是否真的能实现预期效果?数据飞轮真的有效吗?
如前文所说,企业数字化的过程中不是缺乏数据建设,而是缺乏数据消费。因此,衡量数据飞轮效果的标准,就不可能是企业购买了多少数据产品,而是完成了多少数据消费。
数据飞轮从字节跳动数据驱动经验中提炼出来,字节跳动内部情况是怎样的?其实践经验可以概况为“两个80%”:
  • 在业务应用上,80%的人可以直接使用数据产品;
  • 在数据资产上,统一的数据资产建设能覆盖80%的日常分析需求。
除去与公司产品非直接关联,或是基本没有数据需求的业务岗位,大概80%的员工可以直接使用数据产品,这个数据是从字节日常业务经验中得出的。
另一方面,在资产的建设管理上,从最开始就划定交付的数据指标,包括报表、数据集等交付物。对于日常业务场景中经常使用的GMV、DAU以及转化率等指标,是否充足交付最直观的判断就是能否覆盖到80%的日常分析。
“这个数据为什么是80%,而不是100%呢?关键原因在于很多业务是长尾的,还有一些不太常用的场景,这类偏小量的边缘需求就不会覆盖很细节的业务指标。”
即便要求不是100%,想要实现两个80%的目标依然不简单。字节跳动能完成两个80%的目标,主要采用了“三个All”的方法论:All Business(业务应用)、All journey(资产运营),All in one(产品普惠)。从业务应用、资产运营到产品普惠,这套方法的核心思想就是:数据应用更懂业务、对数据资产的全盘管控,高度一体化构建数据产品。
郭东东通过抖音电商的案例来解释“三个All”的逻辑是如何运作的:
  • 假设有一位抖音电商的运营人员,在活动大促时他需要一天盯100场直播,在100个页面中来回切换的同时,还得不停地手工捞数据和汇总。当一天结束后,他发现没有时间对任何一场直播进行业务上的指导性操作。
  • 发现以上问题后,字节提供给运营人员一款将所有直播数据可以打通汇总的产品。除了整合数据,这款产品还可为所有直播数据诊断和分析,包括直播是否符合预期、优缺点、优化策略,这些可以帮助和指导运营人员,整个流程下来即是“All Business”。
  • 数据发挥需要体现在数据资产的沉淀上,包括后续的数据再加工、数据消费、打标情况、业务应用、业务评价等,需要从数据全链路流程中分析数据资产在业务中的使用、消费和流通情况,最终完成数据给业务带来哪些价值的评价,就是“All joureny”。
  • 给到用户的产品尽量做到“All in one”,通过可视化、智能化、一体化,让产品的使用门槛降到足够低,即使是刚刚入行的运营人员也可轻松掌握、快速决策。

大模型:数据飞轮的进一步探索

如果说,使用门槛是阻碍数据消费的关键难关,那么“All in one”就是突破这道难关的一柄利刃。
新的技术带来新的理念,也为原本难以解决的问题带来新的答案。火山引擎不断探索新的技术,推出新的数据产品,其核心的驱动力基于“All in one”的产品普惠理念。
将新兴技术赋能产品升级迭代,不断构建对外开放的数据产品联动能力,正是All in one的产品普惠理念。去年,火山引擎发布了数智平台 VeDI,覆盖数据引擎、数据建设与管理、数据应用等全链路相互协同的数据产品。在今年4月的发布会上,进一步升级了湖仓一体分析服务 LAS,Serverless流式计算Flink服务,并发布管理驾驶舱 Plus。
今年6月,火山引擎推出了大模型服务平台火山方舟,来拥抱大模型时代的到来。在此次大会中,火山引擎数智平台VeDI对数据产品大数据研发治理套件DataLeap和智能数据洞察DataWind进行了升级,以AI加持,降低企业数据消费门槛。
字节跳动数据平台负责人罗旋表示:“无论何种技术赋能,其核心都在于进一步降低业务使用门槛,更好地探索数据价值。此次为数据飞轮引入大模型能力,主要基于对数据链路上各个环节的探索。”
字节跳动数据平台负责人罗旋
想要消费数据,首先要找到数据。
“‘找数’是资产管理的一大场景。在过去,当要查询某个不常见的数据指标时,可能需要随时查用哪张表、哪个字段,一个数据指标可能经手很多人,其中有人员更迭的情况,这个过程的成本就很高。”罗旋说。
DataLeap-找数助手,让资产查询的方式变得更加“拟人化”:通过大语言模型的嵌入,在与用户进行对话的过程中,模型可以理解用户真实意图,实现包括Hive表、数据集、仪表盘、数据指标、维度等多种数据类型及相关业务知识的问答式检索。相比关键词的检索,基于大模型方式的检索的整体准确率无疑会更高。
原始的数据是没有任何价值的,是数据的生产和加工给予了数据新的意义。
在数据研发的日常工作中,有较大部分的精力被各类基础需求所充斥,比如经常帮各个业务部门从多张数据表中,通过关联,自动查询、统计指标数据。这类工作虽然基础,但往往多且繁杂,占用数据研发不少精力。
针对这样的问题,此次升级的DataLeap-开发助手,借用大模型的能力,在很大程度上帮助数据研发人员从繁杂的需求中释放出来。比如业务部门可以通过代码生成的功能自己探查数据。当面临“忘了某个函数怎么写”这类问题时,也可以直接通过智能问答功能得到答案。

对于有一定SQL查询基础但不十分精通业务的同学来说,SQL查询修复功能可以帮助业务一键修复代码中的问题,从而提升查询效率。
不同的数据有不同的答案,唯有真正洞察数据背后的意义,才能做好数据消费。
虽然传统采用拖拉拽等操作方式的BI工具已在很大程度上降低了数据的使用门槛,但在使用中还是能感受到智能化程度的欠缺。
此次升级的DataWind-分析助手,一方面,可以通过大模型的能力帮助业务从自身配置报表一步步下钻分析,凭借自然语言对话快速完成取数和图表搭建,通过进一步解读分析直接得出结果,缩短数据分析的时间;另一方面,通过与飞书等IM的联动,可以实现订阅提醒、消息推送、监控提醒等功能,在与DataWind分析助手的对话过程中实现快速查询,同时该功能也支持自言语言自由提问。
可以说,大模型的出现进一步帮助企业降低了数据消费的难度。罗旋这样解释:“这次将数据产品与大模型结合,帮助企业在找数、加工处理、取数、用数等数据链路中,更全面应用到AI的能力。而产品之间本身的联动性,也就是产品All in one这个理念,也是我们一直追求和不断提升用户体验的地方。从发布的能力上也可以看出,用户可以通过自然语言实现在数据资产找数,到数据生产自动写SQL取数和加工,再到数据洞察探索分析拿到结果,形成这样一个完整的链路,降低了数据消费的门槛。”

有数据,更能驱动

目前火山引擎的数据产品在汽车,金融、大消费等行业的一些头部标杆客户中落地。数据飞轮落地标准主要有两个:数据驱动是否覆盖到足够多的场景?能否让大部分的职能岗位使用起来?
以运动健身品牌乐刻为例,通过数据消费确定最佳策略,让乐刻App内容社区的用户点击率提升65.1%,用户停留时长实现翻倍,人均点击提升了130%。
而博西家电基于火山引擎VeDI,在数字化营销与用户运营上更为便捷、频繁地实现数据消费,以金刚位运营为例,博西家电运营位的点击转化率提升可达到50%以上。
还有汽车行业,奇瑞控股旗下的汽车品牌捷途,通过火山引擎数据产品,运营人员的数字化分析更独立自主,APP运营数据分析场景从过去的7天缩短到目前的秒级响应,并从0到1拓展了不少精准分层运营场景,例如在保养包售卖场景中,短信实现90%以上的打开率。
这样的例子还有很多。当然,不同行业在数据的消费选择上存在差异。汽车行业,对数据的关注主要在重复客户的运营;互联网行业,往往更关注客户DAU的增长;金融行业,一般会关注产品通用性能的问题。不同行业的不同需求,这也使得数据产品呈现出不同的行业形态。郭东东认为,面对行业需求差异性带来的问题,一方面需要在产品矩阵、解决方案、交付体系上做好分层设定和把控;另一方面也需要结合字节跳动的实践经验,与行业标杆客户进行共创,打造更合适的产品内容。
由此不难发现,数据飞轮虽然转了起来,在很多行业取得了不错的成果,但未来的路依然道阻且长。但正如谭待所说,“数据驱动本就是一件难且正确的事”,只要路的方向是正确的,越来越多新技术会成为数据驱动路上的助力,越来越多的行业客户会践行下去,并发现新的思路。
数据飞轮在转,火山引擎也不断演进,沿着艰难但正确的方向,路总会越转越宽。
点击阅读原文,了解更多资讯~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存