量化设计价值(一) 分层数据获取概述
“文中示例相关数据都为假的模拟数据,而非真正的商业数据,以此声明”
此文是想梳理下,对于“数据”这个概念,到底意味着些什么,帮助大家从不同层次理解多面的数据。先明确下获取数据的目的-度量。
度量是什么
【度量Measure】是一种测量评定对象的方式,它帮助我们结构化的获取对象的状态与变化,我们运用这些数据进行洞察,转化为有用的信息,帮助决策和优化,这个过程也是分析诊断的过程。
那日常
会有怎样的一些信息获取呢?(这里面包含了数据也包含了一些正负性的反馈)
我们对一个功能上线进行一组完整的项目结果质量数据模拟:
净交易收入额比去年同期上升2.0%,达到2千万
订单量为222,比上周上升了2.0%(对交易产生直接正向作用)
方案产出数共222件,比上周上升了22.2% (对内容产出有直接的提升)
用户的满意度为2.2 ,上升了2% (之前是2.0)
用户使用表现出沉静,轻松的情绪(比之前挫折,晦涩要好很多)
功能点击,周活跃2200,点击率22%,周留存22.2%(0-1)
功能渲染和可交互时长为0.2秒加载完成。用户在使用时交互顺畅无卡顿(符合业界前端质量交付标准)
这段描述符合整个产品使用的过程,它似乎是一个多面体,帮助我们了解整个产品黑盒。这个描述越精细越多维,我们得到的信息就越清晰越客观。(包含多元数据内容,并对数据已进行比对和使用,得到一定的有效信息)反之,假如哪个环节出现问题。我们能清晰看到问题出现的环节,并且通过其表征的信息进行问题的深挖(再细化相关数据或者关联的层次)。
我们可以拆解到这几个层次的数据
业务结果、用户反馈(态度与情绪)、行为点击、系统性能
可理解为:良好的产品运行-》用户流畅使用-》良好的用户反馈-》预期的产品转化结果
从获取方式来说,大致可以从两个大角度(这里从广义的范畴去分)
【qualitative research定性研究】:快速从样本中判断问题的性质和方向
【quantitative research定量研究】:数据的验证性,全面性、追踪性
定量获取
系统承载业务内容的运作,可以记录各种各样的明细数据表,在海量数据中,进行科学的关联与细分。以大数据驱动为最终目标,其特点是:数据的全面性和自动追踪获取。
业务结果
追踪问题:产品是否符合市场需求?产品是否良性发展?
业务型数据是围绕着整个商业建设和运作阶段而产生的数据。是最能体现产品、商业价值的部分。可以归纳为三类:内容建设->流量访问->商业交易。是商业链路中产生的具有直接商业结果的数据。
内容建设 是指经过人为输入,系统流转产生的比如商品、文章、方案等等具有实质内容价值的数据。是具有生产过程的(一般是经过一系列的操作完成的)。
流量访问/分发 则是针对商业内容的使用/运作,比如某个商品的浏览,某个内容的传播等等。这些和营销相关具备人群效应的数据也属于业务数据。最常见的就是曝光量点击量,而在中后台系统中则是以访问浏览为主。
商业交易 则是最直接的商业结果型数据,最常见的就是网站的GMV(成交金额:包括:付款金额和未付款。)
订单交易额、注册会员数等等。
以某平台中相关的业务数据为示例
业务结果的分析,是根据不同业务发展,确定核心业务指标,以及建立对核心指标的拆解逻辑。
它或许是个计算公式。或者是个一级指标到二级关联指标。例如以下,这里暂时不展开来讲。
对于业务数据的获取,我们大部分是直接通过后端的数据库沉淀下来的。但如果涉及到商业数据的细分(按照商业目标进行阶段性或者类别型的追踪监测)。比如想知道会员的vip的分层情况。或者知道某行业商品的生产细分情况等等。这些虽然可以通过后端拉数据,让数据分析师或者运营整理出来,但是每次都有加工成本,也没有办法看到实时数据,这时候就会要考虑去做细分埋点,下文会提及到埋点方式。
行为点击
追踪问题:产品使用情况如何?用户浏览习惯如何?
用户行为数据,是围绕用户访问某产品过程的用户行为轨迹数据。其中大体包含了用户量、曝光量、点击量、浏览量、访问时长、停留时长等等观测用户使用情况的表征数据。
这里是一组典型的平台用户使用行为的描述,而这些行为的最终,是产出了上面的业务数据(订单与成交金额)
访问首页->点击并浏览商品详情->点击客户咨询进行咨询->点击购买提交订单->点击支付,支付完成
由此我们可以解释,行为数据与业务结果之间的关系,并且两者的关注点也是有差异的,在行为链路中,我们更注重每一层的转化关系以及用户为什么没有向下转化的障碍点。
再以B端管理系统为例
B端的管理系统具有典型性,可以用点线面来归纳,点指的是诸如事件曝光点击等。线指的是用户使用路径,面则是广义的综合性观察,比如流量分布,比如区域热图等。通过观察这些,可以观察到用户的使用率和使用路径。并且得知用户使用产品是否真的贴合需求,设计的是否合理高效。
行为数据要结合具体的场景或者维度去观察,才能产生更有用的信息。
运用行为数据,我们可以去做很多分析:漏斗分析、留存分析、流量分布分析、路径分析 、单页热力分析、点击分析、 人群分析等等,这些都是分析方式,在后续关联篇章中会去探讨。
行为数据的获取是依赖于埋点的,在业界有两大类埋点方式:全埋点、手动埋点。
行为数据的三大事件类型基本可以归类为:曝光事件、点击事件、停留事件
对于C端侧重于曝光、点击。对于B端侧重点击、停留 (从流量转化与访问效能两个角度来说)
以上介绍了业务结果和行为点击两种数据,而这两种内容,都会涉及到埋点采集这件事,这里我们介绍下关于埋点采集数据这件事情。
埋点采集
追踪问题:如何根据人物、场景、动作制定精准的采集方案?
埋点,是对特定数据的采集,由前端埋点和上报、进行数据处理和数据分析。一般数据埋点分以下三种:
全埋点虽然是所有数据可按需可查,但是因为它的数据量极大,且需要2次定义和清洗,所以只能对通用性质的数据进行采集。而针对性的内容,由数据采集定义后,由前端上报后,可能做到定点,定期精细具体的统计。
两者大致能产出什么数据分析呢?主要以平台/系统这个角度看:
整体分析-通用全埋点
用户活跃、用户留存、用户跳出率、用户停留时长、用户流量分布...
局部与特定分析-手动埋点
关键事件点击率、关键入口渠道流量总计与分布、关键链路漏斗、关键具体区域曝光与停留时长...
为了获取更精准的业务/行为数据,我们一般会采用手动埋点的方式,所以前期 第一阶段会在场景中确定分析目标,然后梳理相应需要的指标,书写明确的埋点需求是很重要的一个环节,书写的足够明确,才能和业务、前端、数据分析师进行准确的沟通,分析目标一致,然后上线后建立相应的数据看板。
注意点:采集方式|统计口径|数据精准度校验
那怎么定义数据分析时的埋点需求呢?可以用以下方式去描述:
什么用户=用户定义
什么时间=时间戳
什么环境=地理位置+网络环境+硬件环境+软件环境+哪个页面(来源页面)+什么位置
什么行为=事件ID+命名
什么条件=可以以某个行为或者业务交易为条件
结果如何=用户操作的结果
示例:
一个后台系统悬浮帮助功能使用的情况需求
一个搜索使用的情况需求
这2个是比较细致的数据采集的描述。规则了统计的对象,范畴,以及条件,结果观测等等的需求,大家可以在业务和行为数据相关采集中,试着撰写下这样明确的需求。这样的数据采集才具有精准的分析价值。
人群标签
追踪问题:用户都是哪些人,谁使用了这些功能 ?
人群标签可以理解为数据型用户画像。为什么在这里提及,因为大量数据(特别是具体的采集数据)都会涉及到人群这个角度。人群也是定量数据中最具有独立观察价值的数据。
人群标签就是根据人群特点,进行描述分类,对人群打标签。我们根据不同的获取路径,可以大致分两类。
一类是利用基本数据进行定义,比较简单直接
从不同的端,可以获取用户的基本来源,如访问端的类型,或地理位置等,可以定义为“客户端用户”、“江浙沪用户”等。
通过唯一用户ID所匹配的一系列用户注册时的基本信息内容,如性别、职业、行业、兴趣等。可以定义为“女性用户”、“定制类用户”等。
还有一类就是复合型自定义,一般是根据用户的业务、行为数据或者类别属性来定义的,它非常的灵活聚焦。
使用某类条件公式来定义某一波用户
如我们将购买能力从高低来分层用户:月购买小于5000的为中购买力用户,大于5000的为高购买力用户,周活跃大于2但无购买记录为潜力用户。
另外一种构建用户范畴的方式:通过“时间、地点、事件”等一系列复杂描述来勾勒圈选用户
如我们定义“第一次访问站点时,在首页有关注过每日推荐“的用户。
系统性能
LCP:页面的速度指标
FID:页面的交互体验指标
CLS:页面的稳定指标
定性获取
用户态度
用户情绪
严重评级
高中低评估
低
-会让参加者心烦或沮丧,但不会导致任务失败的问题。中
-这类问题会显著提高任务的难度,但不会直接导致任务的失败。高
-所有直接导致任务失败的问题。遇到这类问题后基本没有可能再完成任务。
综合因素评估
多维度的评估
对用户体验的影响
预期的发生频率
对商业目标的影响
技术/实现成本
评分(0=低,1=中,2=高)