如何从零开始搭建数据分析后台 | 饭大官人
先跟各位读者老爷们道个歉,这段时间总是接广告,非常不好意思,其实我也比较克制了,基本上接的广告都是教育类的,这些教育类的广告9.9块的体验课也买不了什么吃亏上当,在我心中始终认为,投资学习这件事情,永远都不会太亏。各位老爷们也不知道我拒绝掉了多少广告……如果实在难以接受,哎,那就算了吧。
广告接多了,实在不好意思,今天补一篇文章。
假设有一天你去了新领域,比如饭大就去人工智能领域,如何抽象、提取底层业务原理,并从零开始构建一个数据分析后台。
· 正 · 文 · 来 · 啦 ·
01
任何互联网产品,都离不开数据,毕竟数据是衡量产品表现的重要手段,从事自然语言处理以来,也构建了一套通过数据迭代产品的方法论,以下分享一下自己在NLP领域的数据体系搭建心得,期望抛砖引玉,带来更多的碰撞和交流。
笔者写作比较谨慎,在使用“数据体系”这个词的时候,比较慎重,在提炼方法论的时候,也是尽量保证方法论的通用性。
还是描述一个场景,设置一个命题:
任何互联网产品,都离不开数据,毕竟数据是衡量产品表现的重要手段,从事自然语言处理以来,也构建了一套通过数据迭代产品的方法论,以下分享一下自己在NLP领域的数据体系搭建心得,期望抛砖引玉,带来更多的碰撞和交流。
笔者写作比较谨慎,在使用“数据体系”这个词的时候,比较慎重,在提炼方法论的时候,也是尽量保证方法论的通用性。
还是描述一个场景,设置一个命题:
当你掌握着AI的实际商用能力,并进入一家公司成为业务负责人,此时公司要求你,使用AI赋能某项业务,并要求:通过数据体现业务价值,并希望此后通过数据迭代、验证、优化改进产品,你该如何从零开始构建数据体系?
毕竟在笔者刚进入AI领域的时候就遇见过类似的命题,我想这也是每一个期望独当一面的AI产品经理迟早会遇见的命题。
搭建数据体系,三步走。
一、明确行业的业务需求,确定统计指标。
二、建立数据字典,方便开发进行数据埋点。
三、建立数据分析工具,方便业务人员使用。
02
一、明确行业的业务需求,确定统计指标。
先从行业来看。
AI技术正在被各个行业所应用,首先要明确自己用AI能力所服务的行业,在意什么数据指标。如:金融、电商、教育、医疗、游戏、社交、线下生活服务等诸多领域,各个行业在意的数据都不一样。这一点不必多说,相关从业者想必也非常熟悉了。
再从场景来看。
使用AI能力,基于用户场景的获客拉新、提升留存、促进活跃、提升销售、挽留/回流、提升服务效率、服务质量,用户满意度等等等等。
大到设计一款商业产品,一项业务技能、小到迭代一个功能点,完成一处优化,最好要心中做好规划,并且在需求文档上体现,验证本次期望提升的部分,并以数据的方式展示。
不同的业务、不同的目标,决定了我们要选取什么数据指标来衡量。
(笔者早年做过运营,且数据分析的基本功较为扎实,故而这个命题经过多年的业务迭代,心中自成一套业务框架,无非是换了一个新的领域应用而已)
这个阶段属于思考认知,本质考量的是数据专业的积累,与AI能力无关。这一块在很多的成熟公司都已经比较健全了。毕竟我们要做的是从零开始搭建整套数据体系,写上述内容也是为了构建一个全局框架。
03
二、建立数据字典,方便开发进行数据埋点。
很多业务人员做数据分析,这种我们称之为使用武器的人,一线业务人员使用的每个业务后台,其实已经是武器本身了。而摆在我们面前的难题是,如何从零开始,搭建生产武器的兵工厂?
而数据字典,则是兵工厂设计的重要源材料,数据分析后台上的每一个数据指标,都是出自数据字典。
数据字典——所有统计指标的集合。是我们需要日常维护,基于需求不断拓展的。
我们先整体看一下整体结构,然后逐一就NLP领域,针对每个类别做定义和解释。
【全局数据】我们常用的大业务数据后台,都是各个部门的负责人需要看的,有些根本与NLP无关,但是可以反馈产品的具体表现。
【个体数据】一般是产品/运营/客服人员使用,帮助我们进行分类针对某个特定的群体,做服务、做抽样、做特性分析用。
在我心中,AI的能力是可以存在于任何一个载体上的,特别是NLP而言,许多时候不需要摄像头和屏幕,仅仅只需要麦克风扬声器wifi模组三件套即可,所以把硬件定为主键值。
比如说:一个播放音乐的AI语音技能,可以存在于手机、平板电脑、车机、耳机、手表、眼镜、音箱……等多个硬件载体上。
我把全局数据,划分为了三个大类别,并做了定义。
下面这张图片是运营数据的一些字典相关。
在硬件载体下,还有一个渠道的概念。比如小米、华为、苹果、三星等诸多硬件厂商,往往都生产不同的硬件,渠道的统计一般是用来反馈市场部门的工作表现,同时也用于反馈用户质量的。
上图的运营数据由于字典字段过多,不逐一展示,基本是通用的。
下图则是笔者自己定义的用户使用表现,比较难以做归类,其实目前也没想好名字,主要是为了区别于业务数据。
然后业务数据,继续拆分,同样也可以划分为三个类别,这些是对AI产品经理比较重要的业务数据范畴了。
业务在我们内部分为,带订单的和不带订单的。
不带订单的,例如:天气、导航、闹钟、等工具型技能,展示的结果可以是卡片,可以是文本,也可以是其他等等。
音频资源(音乐、有声读物、笑话、养生知识等)分为免费的和付费的。所以就音频资源而言,则需要根据情况分开统计。
当然买飞机票、火车票、打车、外卖这些会产生交易的自然是属于订单模块了。
下面是以导航为例子,不带订单的BOT的埋点行为。
不带订单的相对比较容易统计,而带订单的则往往需要进行统计每个路径的行为表现了。
服务的完整性也自然包含支付环节,而每个环节都存在漏斗行为。
下图是我提供的一个带订单技能的数据字典统计框架。
而对话还可以再进行细分行为,NLP自然是服务于这一块的,以看电影举例,下单之前的所有行为,都是归属于对话的过程。
一般而言,从唤醒到出结果,意味着NLP能力的结束。用于最终是否有下单意图,也取决于此前的给予的结果是否合理。
综上,整体的数据结构就是这样,逐步,一步步地细分下来的。
其实就NLP而言,纯搭建对话管理的行为就够了。
但是如果你是一家公司关于数据体系搭建的负责人。其覆盖的范围就不局限于,仅仅在对话管理模块了。
看问题,一定要从宏观逐步看到微观。从行业角度,逐一拆解,不断细分颗粒度。最终完成数据字典的完善。
04
三、建立数据分析工具,方便业务人员使用。
当有了数据字典之后,接下来就是排列到数据后台上,做数据看板,设计筛选方式,展示方式,并且图表化。
当然了,别忘记了账号、权限、安全模块。这一块也是数据搭建体系的基本功,做过的基本轻车熟路,就不展开讲了。
然后是各个部门的人员使用,BOSS们看看大趋势,新增、活跃、收入等整体状态表现。
各个部门的业务人员,看趋势(折线),看对比(柱状),看转化(漏斗),看分布(饼状)……用来改进业务,以及出各种各样的报表。
产品人员看自己负责的业务模块,比如下图。展示的是:某个单位时间内,多少用户,使用了XX业务,中间更换了多少意图,最终完成下单行为。
各个部门各取所需,基于需求迭代工具后台。
注意,并非所有的的业务都值得上后台,比如用户使用习惯等一些特性数据,仅需要自己做阶段性的抽样取样分析,就可以了。
毕竟埋点是一个非常花费开发以及测试资源的业务。高频的上,不高频做下优先级排序,视情况上线。成熟的公司内部自有一套规则规范。小公司就得衡量开发量与人力资源分配了。
05
数据体系的大厦基石:数据字典
文章开头的命题。
当你掌握着AI的实际商用能力,并进入一家公司成为业务负责人,此时公司要求你,使用AI赋能某项业务,并要求:通过数据体现业务价值,并希望此后通过数据迭代、验证、优化改进产品,你该如何从零开始构建数据体系?
核心就是数据字典。数据字典是构建数据体系这座业务大厦的基石。
下图是我们内部完成数据字典构建的规范(拆解出NLP相关模块)。
AI产品经理思考的是,为什么要做这个数据埋点?通过该埋点,如何指导产品迭代。
本质上,数据分析是一个技能,可以应用于任何行业。我们先得兵工厂才能够造出武器。没有后台工具,一切的数据分析行为无从开展。
在NLP领域,数据体系的构建中,数据字典的建设才是全局关键,它决定了我们要选取什么数据指标来衡量业务好坏。
数据展示后台仅仅是一个大基础,我们还做了例如对话管理分析后台,本文由于定位以及篇幅原因,不展开讲了,后续会进行补充。
以上如果是同领域的同学看起来,会比较轻松,不同领域的人看起来会有一些理解上的吃力,就目前而言,写一个方法论,一定是基于一个案例拆解,才方便去会帮助各位读者消化理解。
本次系列文章的内容,会收录进我未来要写的第二本书里。在那之前,你可以看看我的第一本书《游戏运营:高手进阶之路》
虽为细分领域的书籍,但是有很多的东西,跟其它领域是通用的。
本文相关阅读:
顶级活动策划进阶-数据篇,必须了解的数据分析方法论丨饭大官人