淘宝用户体验分析方法论
本专题共10篇内容,包含淘宝APP基础链路过去一年在用户体验数据科学领域(包括商详、物流、性能、消息、客服、旅程等)一些探索和实践经验,本文为该专题第一篇。
在商详页基于用户动线和VOC挖掘用户决策因子带来浏览体验提升;在物流侧洞察用户求助时间与实际物流停滞时长的关系制订表达策略带来物流产品满意度提升;在性能优化域构建主客观关联模型找到启动时长与负向反馈指标的魔法数字以明确优化目标;构建多源VOC标签体系综合运用用户行为和用户VOC洞察、落地体验优化策略,并总结出一套用户体验分析方法论。
存量竞争时代,体验重要性日益提升。来自决策层的声音:“全面提升用户体验”、“把重视客户体验变成发自内心的习惯”、“回到用户最根本的体验指标”突显了提升体验决心。
如何全面、及时和精细化地衡量体验好坏?如何讲清体验好坏和生意的相关性?如何有效地优化体验,优化到什么程度合适?如何验证解决方案的有效性?本文主要介绍数据科学同学在基于产品体验、服务体验、性能体验等项目经验总结出的一套分析框架与方法,可系统、高效地为发现、诊断及推动体验策略优化与落地,供参考学习。
用户旅程梳理
备注:客户旅程管理软件服务公司 Pointillist 发布了《2020 客户旅程管理和客户体验测量报告》调查了全球 1050 位客户体验、客户服务和营销专业人士,以揭示关键趋势、洞见和基准。
▐ 体验地图结构
▐ 体验地图案例
案例:物流体验地图
▐ 梳理要点
定性分析、用户访谈 用户画像 确定体验方向、体验主题,它是整个体验地图的主题,很多产品的方向可能不止一个,用户的使用场景也完全不一致。所以确定主题是整个产品的奠基石。
确定用户需求,拆解用户行为 补充纵坐标中各类节点的内容 找准机会点
注重前期对产品的思考,包含发展策略、目标定位等; 不要根据自己的经验或认知来确定用户行为过程中的阶段; 不要过早将聚到信息加入到Map中,用户达成某个目标而使用的媒介; 注重团队合作、头脑风暴;
没有标准就没有问题,评价用户体验好不好,首先要建立一套标准,符合标准才能代表用户体验好,并且把这个“好”尽可能以量化的指标表达出来,否则无法测量,管理也就无从下手。
▐ 名词解释
NPS:净推荐值(总推荐者百分比-总批评者百分比),用NPS衡量客户忠诚度的前提是被调研的产品/服务对客户来说是可对比、可选择的。 用户满意度:衡量用户对特定事件/体验的满意度,通常采用五点量表(非常满意、满意、一般、不满意、非常不满意)采集数据。 用户费力度:衡量用户使用某产品/服务来解决问题的困难程度,通常也采用五点量表采集数据。 FCR:首次解决率(FCR),简称首解率,含义是:【人工客服处理的问题中,客户首次接通人工客服就可以解决的问题比例】,计算口径为:【在规定时间内仅进线一次的用户数占比总进线用户数】。 VOC:用户原声,通常指用户反馈的舆情、评价、咨询求助等。 MOT:Moment Of Truth,即关键时刻,体验领域有个重要定律-峰终定律,它告诉我们客户不会关注到体验旅程的全流程,他只会在意在最高峰、最低谷以及最后终点这三个关键时刻,能否给他留下一个深刻的印象,并且深刻的印象可能是正面的也可能是负面的。
▐ 指标设计流程
体验指标金字塔模型
如图,围绕用户体验“可衡量、可运营”,归纳出一套体验指标金字塔模型,指导如何设计体验指标体系。
该模型将指标区分为用户体验和业务运营两类指标,用户体验类指标解释“用户体验如何衡量”,业务运营指标解释“用户体验如何驱动”,希望结合内外部视角找到体验提升的机会点,包括重塑用户旅程、改造内部业务流程、优化信息表达等。
X-metrics = 用户体验指标:倾听“客户之声”,站在外部客户视角衡量用户体验。
O-metrics = 业务运营指标:站在内部运营视角,针对用户旅程的关键触点挖掘驱动用户体验提升的关键因素。
整体流程如下:
【面】整体NPS:用于衡量整体品牌的推荐度,涵盖所有用户群及各个产品/服务。 【线】满意度/费力度:针对影响整体NPS的某个产品/服务的整个用户旅程进行满意度/费力度调研,如:导购、客服、物流、基础操作、品质、价格满意度等。 【点】驱动因素/VOC:针对用户旅程的关键触点结合满意度下钻的驱动因素及VOC明确体验指标,如:负向反馈率、VOC求助量/占比等。
▐ 指标设计原则
指标设计需以MOT为核心
用户对产品/服务的体验更多是事后回忆,不会记得所有流程,因此体验评分不是平均分,也不是总分,而是关键时刻(MOT)的体验分数。
体验指标与运营指标应保持对应关系
X的衡量与O的驱动需协同,保证对体验提升的衡量与指导意义。
体验指标无需严格从“面”开始设计
按照业务需求及分析师发现的体验问题规模,大多以“线”、“点”作为起点开始设计。例如:在物流体验场景中,业务明确需提升“淘宝物流产品满意度”;支付体验场景中,明确基于支付VOC中top1问题“无法使用微信支付”展开治理。
该阶段指标不是终版
该阶段的指标设计更多是依赖业务先验知识、历史问卷调研等,尚未有明确数据校验体验指标与运营指标的严格相关性,需在后续的流程中持续更新。
▐ 指标设计案例
案例:性能指标体系
数据准备
▐ 体验数据架构
同体验指标设计方法,我们将支撑体验分析的数据分为两类:
O-data = 运营数据,包括DAU、销售额、下单转化率、留存率、复购率等,属于滞后数据,代表着现阶段的经营现状。
X-data = 体验感知数据,包括净推荐值、满意度、用户原声等,属于先行数据,代表收入或利润的未来风险。
▐ VOC标签体系
APP用户反馈:偏购前,大多为用户在使用APP过程中遇到的产品、性能体验的问题反馈,同时也包含部分热心用户提出的诚恳建议。 商家客服咨询:偏购中和购后,大多为用户购中咨询商品,购后咨询订单和物流状态的场景,其中购后约50%以上语料为咨询物流。 CCO求助原声:偏购后纠纷求助,大多围绕订单和物流异常求客服。 评价:购后评价商品,使用时注意存在大量刷评数据。 问大家:购前基于商品的C2C的咨询,回复比较真实,但数据总量不大。
经过长期调研和总结形成一个关于产品满意度的评估标准:需改善(<50%),良好(50%-60%),优秀(>60%)。而大多数体验场景缺乏显性标准,故需要一套分析方法来判断体验好坏。
▐ 分析方法
问题发现阶段主要通过指标的趋势、排名、波动监测,以及未知原声异常监测(聚类检测、词云),跟踪老问题,发现新问题。
通常涉及两类指标:用户调研为主的满意度、驱动因素类指标,用户原声及其加工后标签统计类指标。对于满意度这类单一汇总类指标,通常可以跟自己比(看趋势)、跟竞对比(看标杆)发现问题。对于用户原声这类非结构化数据,通常应用于跟踪、发现和诊断“点”层面体验问题,可通过文本分类方法加工成体验问题标签,再基于标签的声量/占比的趋势变化、排名变化发现问题;此外,也可通过文本聚类方法挖掘新标签,实时检测未知问题的发生。
由于指标的复杂度不高(如高维、多周期等),该阶段整体以原子分析方法为主:
问题诊断
▐ 诊断分析方法
诊断分析主要是通过用户洞察、归因分析、价值衡量等方式,挖掘问题发生的原因,给出体验优化建议和策略。基于体验问题本身的不同类别,我们梳理了一套面向体验场景诊断分析方法,其特点在于对X-data的灵活运用:
▐ 诊断分析案例
主客观关联分析
案例:目标定义-性能优化目标
业务问题定义:如何针对不同人群设定差异化性能优化目标,能兼顾技术投入与用户预期满足,达成ROI最大化。 数据问题定义:如何找到一个与性能满意度强关联的指标,围绕这个指标设定合理的目标,再按一定的维度下拆指标找到差异化目标。 找出与满意度强相关的指标 通过用户问卷调研并作结构分析可得出:影响用户的核心因素为“功能加载速度慢”、“打开APP速度慢”,由于“功能加载速度慢”是由一系列功能(如各类页面、模块)组成,明确“打开APP速度慢”是首页因素。 建立主客观指标模型,寻找两者之间的关联关系
如上图,通过主客观关联分析发现某款机型下某App负向反馈率在冷启耗时x ms出现拐点。可得出,性能差于拐点时,性能优化能明显带来负向反馈率下降;性能优于拐点时,性能优化对于体验的提升效益不再显著。因此,可以设定x ms作为该机型下该APP性能优化目标。
用户动线分析
案例:策略制订-详情用户动线分析
业务问题定义:如何基于用户在详情页面的行为数据找到产品改进机会点以提升用户决策效率。 数据问题定义:如何围绕“什么样的用户”进入“什么商品”产生了“什么样的浏览行为”梳理详情页各模块的浏览、点击、停留时及行为时序数据,挖掘主流用户的行为路径及关注点差异,交付详情决策因子的补全、调序和表达优化策略,提升详情决策效率。 分析思路: 前提假设:不同人群、类目、场景的用户决策因子的差异化和增强表达,可提升详情用户浏览体验,提升购物决策效率。 假设树: 分析结论(示例):
首先,要证明你的分析是正确的; 其次,需要有非常准确的、可靠的价值描述; 最终,必须有清晰明确、成本可控的落地方案。
确定是否真认可?任何业务方做成事都是梦寐以求的,假设结论靠谱、能落地,绝对不会置之不理; 业务方质疑分析,或者觉得价值不大,疑惑是和自身关系不大,需要鼓起勇气再次咨询意见,解决质疑; 价值不足够大,当前有更加紧急的事情要做,代表结论可能要凉; 没找对人,需要换一个业务再营销一遍,有时候策略搁置无法执行的原因是数据同学本身没有充分推动。
前期充分了解和识别相关团队的OKR、定位和合作意愿度,做好沟通工作; 重要策略需申请PMO资源,组织正式KickOff,特别地要拉上业务和技术老板压阵,传达大家重视程度,明确各团队职责分工,达成一致; 过程中做好项目管理,PMO投入不足时数据负责人要主动补位做好协调工作。
总结一个数据策略能否落地,分析本身是否正确占10%,剩下是分析本身的价值;数据同学需要懂得对企业内部、人物关系、环境背景的分析。
效果验证
▐ AB实验
什么是AB实验
AB实验是最直观的一种评估策略因果效应的科学手段,做AB实验需要两个前提条件:同质性与无偏性。实验中的不同组应该是同质的,意味着样本构成需相同或极其相似以确保结果的可比性,这通常是通过平台工具随机分流来实现。实验也应该是公正的,核心指标只受实验策略本身的直接影响。只有控制了全部干扰因素,才有可能接近Treatment和Result之间的因果关系。相对传统的优化前后对比方式,AB实验有以下优势:
同质 - 保证可比性
可以有效控制其他干扰因素。
可以避免选择性偏差。
无偏 - 保证效果复现
AB的一般步骤
策略已经全量,需后置评估策略上线效果
策略渗透率过低,使用AB无法得到置信的样本量
策略本身不具备随机AB的条件
进行AB的成本较高,ROI较低
判断可以AB后需明确实验变量,一个好的实验变量要满足以下几点:
实验变量需根据假设来创建
需要符合单一变量原则
定义实验关键指标
确定分流方式
如何确定分流对象及保证分流的均匀性是该步骤需要解决的问题:
分流对象:分流对象是需根据核心指标来确认,例如:在短视频场景,提升引导GMV则分流对象就是用户,提升创作者活跃度则分流对象是创作者。在端性能优化场景,提升设备顺畅度分流对象就是设备id,而非用户id。
分流均匀性:AA空跑是检验分流均匀性的常用手段,选定的实验组和对照组,在上实验策略前先空跑一段时间。如果空跑期的样本量和各项指标均无显著差异,则认为实验分流是均匀的。
最小样本量测算
实验希望能检测到的指标精度越高,所需要的样本量就越大,这样可以使实验的敏感度大于我们预期的策略效果提升(MDE)。因此,针对我们希望检测到的预估效果MDE(通常由离线测算所得,如5%/10%等),我们需要计算实验所需要的最小样本量。在给定错误容错率下,最小样本量由MDE、均值、方差共同决定。此处需要注意的是不同的指标类型的方差计算方式是不同的,在实操中如果分流单元和分析单元不一致需要特殊处理。
附:最小样本计算公式及Python实现,也可基于Evan's Awesome A/B Tools在线网站进行测算。
from statsmodels.stats.power import zt_ind_solve_power
from statsmodels.stats.proportion import proportion_effectsize as es
zt_ind_solve_power(effect_size=es(prop1=0.30, prop2=0.305), alpha=0.05, power=0.8, alternative="two-sided")
实验日常监测
在进入实验期后,需要对实验数据进行日常监测,日常监测主要观察以下几方面:
样本量。在实验的过程中,应当日常观测实验组和对照组的样本量是否均匀。如果在进入实验期后,实验组相比对照组的样本量出现显著差异,应当立即排查样本量不平的原因(实验策略导致分流不均?实验策略埋点上报有问题?)
各项实验指标。如果在实验的过程中,实验组和对照组的指标出现不符合预期的差距,也应当立即排查该现象出现的原因。
核心护栏指标。如果实验策略对实验组的核心护栏指标产生严重的负向影响,例如:广告收入严重下降,也应立即同步各方,决定是否停止实验。
实验效果分析
在实验周期结束后,需要根据实验数据进行分析。A/B test分析将显示两个版本之间是否存在统计性显著差异,所以在分析结论时不止要观注实验分组之前的差异性,还要关注置信度和置信区间等统计指标来检测差异的真实性及可信度。在分析实验数据时,通常会有以下问题:
实验指标不显著怎么办?
可以看一下核心指标的走势,如果有单调递增的趋势,可以适当延长实验时间再看一下效果,大样本是王道。其次判断统计功效问题,如果在进行了样本量计算后,实验指标依然不显著,则一方面需要通过观察实验指标的相对/绝对差值考虑是否实验策略真的没有显著影响,另一方面可以通过更换监测指标剔除无渗透用户以提高指标检测精度。
是否可以通过实验数据,找到对实验策略敏感的用户群体?
找敏感用户群体可以通过维度拆解的方式,观察实验策略对不同用户群体的影响差异;也可以通过causal tree/uplift model的方式,从模型角度计算单个用户群体/单个用户的CATE,从而对实验效果的异质性进行探究。
关注的多个实验指标有正有负,如何判断是否可推全?
首先,确认哪边的指标是本实验更重要的指标,同时关注护栏指标和北极星指标的情况(若护栏指标和北极星指标显著负向,拒绝推全)。其次,判断正负指标是否存在相关性或者是否存在兑换关系,综合盘整体收益是如何。
如果实验效果不好,没有推全,是否说明这个实验没有任何价值?
很多AB实验结果都是失败的,如果某个实验没有推全,我们依然可以通过实验数据,去探寻本次实验失败的原因,从而发现是否有新的可能的改进点。根据新的改进点继续进行实验,最终进行策略的快速迭代。
如何检验分流均匀性
备注:受不同的实验分流系统中内置hash函数及分流对象本身的均匀性影响效应量函数参数会不同。
附:效应量函数图
如何检验指标显著性
针对一个比率型指标(如:浏览转化率),我们首先根据其基线值和预期提升幅度通过最小样本量公式计算其所需的累计样本量,满足最小样本条件后再基于分流对象进行hash分组(一般分为30组以满足t-test的样本量需求),再运用显著性检验UDF进行检验。
案例:某AB实验指标显著检验
▐ 因果推断
条件独立假设。在接受实验之前,对照组和实验组之间没有差异,实验组产生的效应完全来自实验处理。 共同⽀撑假设。在理想情况下,实验组的个体,都能在对照组中找到对应的个体。如下图,两组共同取值较少时,就不适用PSM了。
黄峰 等 - 《体验思维》、《全面体验管理》
刑焱 等 - 《客户体验管理 - 知行合一》