查看原文
其他

如何从零开始搭建数据分析后台 | 饭大官人

饭大官人 饭大官人 2022-10-26


先跟各位读者老爷们道个歉,这段时间总是接广告,非常不好意思,其实我也比较克制了,基本上接的广告都是教育类的,这些教育类的广告9.9块的体验课也买不了什么吃亏上当,在我心中始终认为,投资学习这件事情,永远都不会太亏。各位老爷们也不知道我拒绝掉了多少广告……如果实在难以接受,哎,那就算了吧。

 

广告接多了,实在不好意思,今天补一篇文章。


假设有一天你去了新领域,比如饭大就去人工智能领域,如何抽象、提取底层业务原理,并从零开始构建一个数据分析后台。

·  正  ·  文  ·  来  ·  啦  ·



01


任何互联网产品,都离不开数据,毕竟数据是衡量产品表现的重要手段,从事自然语言处理以来,也构建了一套通过数据迭代产品的方法论,以下分享一下自己在NLP领域的数据体系搭建心得,期望抛砖引玉,带来更多的碰撞和交流。

 

笔者写作比较谨慎,在使用“数据体系”这个词的时候,比较慎重,在提炼方法论的时候,也是尽量保证方法论的通用性。


还是描述一个场景,设置一个命题:

任何互联网产品,都离不开数据,毕竟数据是衡量产品表现的重要手段,从事自然语言处理以来,也构建了一套通过数据迭代产品的方法论,以下分享一下自己在NLP领域的数据体系搭建心得,期望抛砖引玉,带来更多的碰撞和交流。

 

笔者写作比较谨慎,在使用“数据体系”这个词的时候,比较慎重,在提炼方法论的时候,也是尽量保证方法论的通用性。

 

还是描述一个场景,设置一个命题:

 

当你掌握着AI的实际商用能力,并进入一家公司成为业务负责人,此时公司要求你,使用AI赋能某项业务,并要求:通过数据体现业务价值,并希望此后通过数据迭代、验证、优化改进产品,你该如何从零开始构建数据体系?

 

毕竟在笔者刚进入AI领域的时候就遇见过类似的命题,我想这也是每一个期望独当一面的AI产品经理迟早会遇见的命题。

 

搭建数据体系,三步走。

 

一、明确行业的业务需求,确定统计指标。

二、建立数据字典,方便开发进行数据埋点。

三、建立数据分析工具,方便业务人员使用。



02

 

一、明确行业的业务需求,确定统计指标。

 

先从行业来看。

 

AI技术正在被各个行业所应用,首先要明确自己用AI能力所服务的行业,在意什么数据指标。如:金融、电商、教育、医疗、游戏、社交、线下生活服务等诸多领域,各个行业在意的数据都不一样。这一点不必多说,相关从业者想必也非常熟悉了。

 

再从场景来看。

 

使用AI能力,基于用户场景的获客拉新、提升留存、促进活跃、提升销售、挽留/回流、提升服务效率、服务质量,用户满意度等等等等。

 

大到设计一款商业产品,一项业务技能、小到迭代一个功能点,完成一处优化,最好要心中做好规划,并且在需求文档上体现,验证本次期望提升的部分,并以数据的方式展示。

 

不同的业务、不同的目标,决定了我们要选取什么数据指标来衡量。

 

(笔者早年做过运营,且数据分析的基本功较为扎实,故而这个命题经过多年的业务迭代,心中自成一套业务框架,无非是换了一个新的领域应用而已)

 

这个阶段属于思考认知,本质考量的是数据专业的积累,与AI能力无关。这一块在很多的成熟公司都已经比较健全了。毕竟我们要做的是从零开始搭建整套数据体系,写上述内容也是为了构建一个全局框架。



03


二、建立数据字典,方便开发进行数据埋点。

 

很多业务人员做数据分析,这种我们称之为使用武器的人,一线业务人员使用的每个业务后台,其实已经是武器本身了。而摆在我们面前的难题是,如何从零开始,搭建生产武器的兵工厂?

 

而数据字典,则是兵工厂设计的重要源材料,数据分析后台上的每一个数据指标,都是出自数据字典。

 

数据字典——所有统计指标的集合。是我们需要日常维护,基于需求不断拓展的。

 

我们先整体看一下整体结构,然后逐一就NLP领域,针对每个类别做定义和解释。



【全局数据】我们常用的大业务数据后台,都是各个部门的负责人需要看的,有些根本与NLP无关,但是可以反馈产品的具体表现。

 

【个体数据】一般是产品/运营/客服人员使用,帮助我们进行分类针对某个特定的群体,做服务、做抽样、做特性分析用。

 


在我心中,AI的能力是可以存在于任何一个载体上的,特别是NLP而言,许多时候不需要摄像头和屏幕,仅仅只需要麦克风扬声器wifi模组三件套即可,所以把硬件定为主键值。

 

比如说:一个播放音乐的AI语音技能,可以存在于手机、平板电脑、车机、耳机、手表、眼镜、音箱……等多个硬件载体上。

 

我把全局数据,划分为了三个大类别,并做了定义。

 

 

下面这张图片是运营数据的一些字典相关。

 

在硬件载体下,还有一个渠道的概念。比如小米、华为、苹果、三星等诸多硬件厂商,往往都生产不同的硬件,渠道的统计一般是用来反馈市场部门的工作表现,同时也用于反馈用户质量的。

 


上图的运营数据由于字典字段过多,不逐一展示,基本是通用的。

 

下图则是笔者自己定义的用户使用表现,比较难以做归类,其实目前也没想好名字,主要是为了区别于业务数据。

 

 

然后业务数据,继续拆分,同样也可以划分为三个类别,这些是对AI产品经理比较重要的业务数据范畴了。

 

 

业务在我们内部分为,带订单的和不带订单的。

 

不带订单的,例如:天气、导航、闹钟、等工具型技能,展示的结果可以是卡片,可以是文本,也可以是其他等等。

 

音频资源(音乐、有声读物、笑话、养生知识等)分为免费的和付费的。所以就音频资源而言,则需要根据情况分开统计。

 

当然买飞机票、火车票、打车、外卖这些会产生交易的自然是属于订单模块了。

 

下面是以导航为例子,不带订单的BOT的埋点行为。

 

 

不带订单的相对比较容易统计,而带订单的则往往需要进行统计每个路径的行为表现了。

 

服务的完整性也自然包含支付环节,而每个环节都存在漏斗行为。

 

 

下图是我提供的一个带订单技能的数据字典统计框架。

 

 

而对话还可以再进行细分行为,NLP自然是服务于这一块的,以看电影举例,下单之前的所有行为,都是归属于对话的过程。

 

一般而言,从唤醒到出结果,意味着NLP能力的结束。用于最终是否有下单意图,也取决于此前的给予的结果是否合理。

 

 

综上,整体的数据结构就是这样,逐步,一步步地细分下来的。

 

 

其实就NLP而言,纯搭建对话管理的行为就够了。

 

但是如果你是一家公司关于数据体系搭建的负责人。其覆盖的范围就不局限于,仅仅在对话管理模块了。

 

看问题,一定要从宏观逐步看到微观。从行业角度,逐一拆解,不断细分颗粒度。最终完成数据字典的完善。



04


三、建立数据分析工具,方便业务人员使用。

 

当有了数据字典之后,接下来就是排列到数据后台上,做数据看板,设计筛选方式,展示方式,并且图表化。

 

当然了,别忘记了账号、权限、安全模块。这一块也是数据搭建体系的基本功,做过的基本轻车熟路,就不展开讲了。

 

 

然后是各个部门的人员使用,BOSS们看看大趋势,新增、活跃、收入等整体状态表现。

 

各个部门的业务人员,看趋势(折线),看对比(柱状),看转化(漏斗),看分布(饼状)……用来改进业务,以及出各种各样的报表。

 

产品人员看自己负责的业务模块,比如下图。展示的是:某个单位时间内,多少用户,使用了XX业务,中间更换了多少意图,最终完成下单行为。

 

 

各个部门各取所需,基于需求迭代工具后台。

 

注意,并非所有的的业务都值得上后台,比如用户使用习惯等一些特性数据,仅需要自己做阶段性的抽样取样分析,就可以了。

 

毕竟埋点是一个非常花费开发以及测试资源的业务。高频的上,不高频做下优先级排序,视情况上线。成熟的公司内部自有一套规则规范。小公司就得衡量开发量与人力资源分配了。

 

 

05


数据体系的大厦基石:数据字典

 

文章开头的命题。

 

当你掌握着AI的实际商用能力,并进入一家公司成为业务负责人,此时公司要求你,使用AI赋能某项业务,并要求:通过数据体现业务价值,并希望此后通过数据迭代、验证、优化改进产品,你该如何从零开始构建数据体系?

 

核心就是数据字典。数据字典是构建数据体系这座业务大厦的基石。

 

 

下图是我们内部完成数据字典构建的规范(拆解出NLP相关模块)。

 

AI产品经理思考的是,为什么要做这个数据埋点?通过该埋点,如何指导产品迭代。


 

本质上,数据分析是一个技能,可以应用于任何行业。我们先得兵工厂才能够造出武器。没有后台工具,一切的数据分析行为无从开展。

 

在NLP领域,数据体系的构建中,数据字典的建设才是全局关键,它决定了我们要选取什么数据指标来衡量业务好坏。

 

数据展示后台仅仅是一个大基础,我们还做了例如对话管理分析后台,本文由于定位以及篇幅原因,不展开讲了,后续会进行补充。





以上如果是同领域的同学看起来,会比较轻松,不同领域的人看起来会有一些理解上的吃力,就目前而言,写一个方法论,一定是基于一个案例拆解,才方便去会帮助各位读者消化理解。


本次系列文章的内容,会收录进我未来要写的第二本书里。在那之前,你可以看看我的第一本书《游戏运营:高手进阶之路》


虽为细分领域的书籍,但是有很多的东西,跟其它领域是通用的。



本文相关阅读:

顶级活动策划进阶-数据篇,必须了解的数据分析方法论丨饭大官人

 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存