万字吐血好文,一线分析师的4大总结。
一、分析师的商业价值
直觉驱动的困境
分析师是谁?做什么?产出的价值?
「宋世君:我们谈谈“DS 是谁”. 用心理学的术语, 这个其实是 DS 的“本我”。我们是一群在相关量化领域受过专业的训练, 并且希望应用自己的量化能力, 在数据中挖掘对业务有用的信息, 并且通过这些信息为业务发展提供助力但是同时又保持数据的中立性的人。......,从个体的角度, 这也意味着我们看待 DS 并不是看这个人的学术专业, 而是看这个人的动机和意愿。公司里跟数据有关的职能是多样的, 有些是把数据作为拿到业务结果的抓手, 要对业务结果负责, 这些是数据运营. 有些是把数据作为研发的对象, 对跟数据相关的这些产品负责, 这些是工程研发. 有些是基于数据做实时地在线实现, 这些是算法工程师的工作. 这些都是我们的合作伙伴, 但是我们又有我们自己的定位, 跟这些都不同. 我们应该为我们工作的中立性和科学性负责. 我们需要有业务的思想, 但是我们并不是要做业务本身, 我们希望做业务发展的催化剂。」
我非常认同世君老师上面这段话对分析师的定义。分析师需要兼备定量能力和业务思维,科学、中立的通过数据来互补业务直觉。「直觉驱动」的短板可以分为以下四类:1. 看不清自己的用户是谁、有什么行为,体验如何「= 拿不准用户」;2. 将顶层 KPI 拆解成若干抓手和子目标的时候,并不明确这些抓手和目标事实上是否可以提升 KPI,或者哪些抓手与目标更加有效「= 打法不清晰」;3. 难以评估策略对用户与 KPI 的影响「= 算不准影响」;4. 不知道业务健康度如何以及当下要采取的行动「= 看不清现状」。
补足短板的具体解决过程体现了分析师日常在做的事情以及数据分析的价值:
「拿不准用户」:用户画像细分、行为轨迹等分析帮助业务更了解用户:他们是谁,喜欢什么,什么环节体验不好,什么诉求尚未满足;
「打法不清晰」:通常业务完成某个 KPI 可以用到的抓手非常多,比如,内容平台的终极目标之一是用户留存,同时提升留存的抓手有很多,例如 CTR、赞读比、访问时长、公域私域相互导流等。不过,直觉并没有办法有效判断这些抓手哪个在当下最可能把公司最顶层一些指标提升上去。这时候,对历史数据的观测研究可以量化抓手与 KPI 之间的关系强弱,辅助业务排布各个抓手的优先级。
「算不准影响」:直觉无法判定一个策略对用户的实际影响,实验分析可以科学评估这些影响,帮助业务稳步向前迭代优化;
「看不清现状」:当大盘指标异常波动的时候,异动归因分析相比直觉是更加科学高效的方法来定位指标波动原因并提出解决方案。
二、业务不同阶段下数据分析的发力点与交付
良性的业务发展通常要经历从直觉驱动到数据驱动的过程,本节进一步展开这个过程并讨论不同发展阶段的业务特点与痛点,以及这个阶段数据驱动业务的打法。
这里采用 KANO 需求模型将数据分析需求分成三类:
基本型需求:分析师必须具备的能力与交付,是分析师做事情的行为底线。基本型需求完成不好的时候,再多的锦上添花也是徒劳,也会直接失去业务方的信任;
期望型需求:一般业务与分析师正式拉会所讨论的项目与预期就在期望型需求的范围,这部分需求完成的越及时或者越多,业务方对数据分析的评价也会越高;
惊喜型需求:主动分析,跳出业务的思考框架,数据分析产生的洞见帮助业务解决困惑,发现战略机遇,或者数据所提供的策略帮助业务完成难以达成的目标,就是惊喜性需求。惊喜性需求没有被满足业务不会不满,一旦被满足的时候业务的满意度是非常高的;
第一阶段:从零到一,直觉驱动业务野蛮生长
业务开展早期通常可以通过学习头部竞品的成功经验快速获得增长,同时,产品运营同学也很容易凭直觉在产品雏形中找到好的抓手。虽然从 0 到 1 开展业务是非常辛苦的,但是单从业务增长而言,这却是最轻松的第一阶段。数据分析在这个阶段会跑在业务后面紧跟,做好业务与数据的连接工作。业务在第一阶段对数据的需求就是 T+1 准确反映业务 OKR 指标表现,分析师及时做好 BI 角色支持,不要在业务需要临时看数据的时候连现成的 sql 都没有备好:
基本型需求:埋点、OKR 指标口径与常用 sql、数仓明细表;
期望型需求:建设业务指标体系,画像体系;业务日报(OSM),每天早上盯住关键指标并及时报备异常波动;用户生命旅程数据刻画(UJM);
惊喜型需求:
第二阶段:增长放缓,实验评估助力业务小步迭代
第一阶段临界终点的时候,直觉依然可以找到不少优化点,但是从大盘指标上已经可以看出业务增长放缓。这时业务就进入了第二阶段,这个时期巨幅影响大盘指标的策略会越来越少,也就很难通过前后数据对比看清策略的影响了:投石问路的过程中业务最怕的是听不清石头落地的声音,因此分析师在这个阶段为业务提供的关键价值就是引入实验机制,以 AB 测试为典型的统计方法可以精确、科学的度量每个实验的微弱效应,帮助业务在投石问路过程中「听到」方向。实验机制是业务第二阶段的高效解决方案的另外一个原因是,实验可以对线上同时运行的多个策略带来的影响分别进行准确估算,因此实验机制在速度和精度上都全面超越原始的事前事后对比法。在这个阶段,分析师需要充分发挥统计专业能力,做好实验方法咨询的角色并积极推进技术、业务部门之间协作打通实验平台:
1. 基本型需求:
实验分析支持
为业务方提供统计专业咨询,e.g. 实验设计,AB 数据含义,统计指标的计算口径
2. 期望型需求:
联动业务、后端、前端开发、BI 协同搭建实验平台
平台可以并行线上实验同时可以自动化处理实验分流不均、检验指标显著性
向业务普及 AB 方法与对业务的价值,出具实验分析白皮书强化业务对实验的信任
3. 惊喜型需求:
将实验分析报告模板化,赋能业务在脱离分析师资源的情况下自主完成实验设计与分析报告
维护业务上下线的实验明细日志,包含实验 ID、业务策略、影响、上下线时间、上下线理由,季度性提供给业务去复盘总结。
与第二阶段不同,在第三阶段开始的时候,策略的成功率与影响程度都大幅降低。这个阶段,产品和运营侧好的直觉基本被穷尽,算法侧已经把特征体系和技术选型迭代到了相对完备复杂的水平,再想提升预测精度是非常困难的,便开始频繁出现实验结果不显著或者负向的业务策略,业务增长正式进入横盘阶段。在业务缺少方向感的时候,数据驱动业务方向的选择就越来越被重视。分析师的话语权也开始变大,毕竟到了第三个阶段产品运营与算法团队初步具备了一定规模,不增长的后果是很难想象的。
因此,分析师一定在这个阶段有业务主人翁意识,开始深度思考业务问题并主动提出一些质疑来挑战 status quo。主动思考和分析,站在更加全局的层面去思考业务发展的关键问题是什么;开始频繁旁听业务讨论会,重点体会业务高层在会上提出来的问题以及流露出来的困惑点。这些对于分析师找到需要分析的关键问题是非常必要的,也是分析师在这个阶段产生影响的关键一步。
对于增长而言,第三阶段一个关键的指标是用户留存率。用户增量 = 新用户+沉默召回用户+活跃用户*留存率,业务早期的增长可以通过业务之间导流与拉新来完成,当业务成熟后,提升存量活跃用户的留存是最为经济的手段。所以分析师有必要用数据去验证策略/算法的目标与用户实际留存提升之间的关系,目标是不是错了?能够提留存的目标又应该是什么?这就是分析师要在第三阶段需要用数据来回答的关键问题。我之前刚接触一个做社区内容平台搜索推荐的业务时,该业务已经快半年没有什么算法策略提升过用户留存,分析团队在梳理这块业务时候发现业务和算法都在用 CTR、赞读比、收藏读比等有限几个指标来衡量用户的阅读体验并做排序。分析师基于 DID 建模分析发现当时大盘用户里面留存提升的群体通常伴随着上一期深度阅读量与 CTR 的显著提升,而赞读比、收藏读比与留存的相关性并不高。问题是,业务过高估计了赞读比、收藏读比的价值,并在排序的时候没有引入深度阅读相关的特征。团队后续推进了一系列的策略建议:首先是大幅提高了 CTR 的排序权重,这个简单的策略就打破了长达半年来业务留存率无法提升的困境;团队进一步在排序目标里面引入深度阅读概率、平均阅读速度等与留存关联性最强的指标,并设计了多目标融合的新指标指导算法排序和产品运营,带来了新一轮的留存增长,业务顺利走过了第三个阶段的增长瓶颈期。
平台的终极目标是流量、利润,这个顶层目标会在 OKR 体系下被拆解成二级指标,三级指标等子目标。无论是业务策略还是具体算法,它们都在直接影响一个子目标(e.g. 价格,CTR,时效性),无论他们在完成这个子目标的时候多么数据驱动,通常都在基于直觉假设他们的子目标与公司的终极目标是直接挂钩的。问题是,直觉是会犯错的,因此才存在业务第三阶段的瓶颈期,这时也就体现了数据驱动的价值。
基本型需求:通过历史策略和数据开展观测性研究,通过数据估算策略当下每个子目标对公司顶层指标的影响,联动业务制定并落地新的目标和增长方案;
期望型需求:积极主动创新,寻找更具增长潜力的新指标,纳入当前业务的子目标体系,提供子目标整合成统一一个目标的方案;
惊喜型需求:观测性研究方法工具化,赋能业务在脱离分析师资源的情况下自主完成目标优化。
第四阶段:数据持续驱动细分人群的差异化策略迭代
分析师在这个阶段需要在细分用户群体粒度整合阶段二的实验能力和阶段三的观测性研究能力,打通数据驱动细分策略迭代的流程:
Step1:基于细分实验分析,策略在指标普涨用户群体上线,普跌群体下线;
Step2:产品运营与分析师联动展开用户调研与观测性研究,针对体验不良的用户群体探索新的增长发力点;
Step3:循环
在此基础上,分析师需要在这个阶段打磨到细分用户群体的异动归因分析能力,帮助业务及时发现问题和增长点。
分析本质上是在做什么?
分析本质上就是在「比较」。
好的分析就是一个「数据比较 -> 洞见 -> 业务优化」的过程。洞见离不开「比较」:无论是我们看指标走势,AB 差异,同比环比,或是回归分析模型中的参数,这些都是我们「比较」的不同形式。具体来说,数据比较来源于三种分析场景:
实验分析;
异动归因:日报周报解读,突发指标异动分析;
观测研究:增长抓手分析,未经实验全量上线的策略评估,长期战略规划。
比较背后的思考体系
基础:画像、指标体系
需求画像:用户 demographic,诉求归类(产品 = 诉求),用户行为、兴趣分类;
供给画像:供给形态、来源、品类、时效;
场景画像:时空,供求关系,竞争,大盘等外生因素刻画。
供需结构指标:按照需求 + 供给画像细分后的用户数、供给分发规模;
匹配效率指标:供给分发转化率 e.g. CTR、ETA、成交率、交互率...;
体验结果指标:用户留存,人均消费与浏览时长;
方法:实验、异动归因、观测研究
四、未来分析师所处的环境
几年前我还是一名算法工程师,跳到阿里刚开始的时候很不习惯,因为许多日常人肉要做的工作都被数据和算法平台解决了,不夸张的讲,那时许多产品运营同学训练部署机器学习模型的速度都比我要快。AI + 数据的平台在逐渐释放那些高度重复的数据工作,那时候我意识到,如果一个 RD 脱离业务,时间精力花在调包换模型调参数这类事情上的话,ta 早晚被淘汰掉。
对于分析师来说,我们不得不思考的问题是自己每天的「分析」工作中有多大比例并没有在分析?目前来看,数据查询平台还没智能到通过拖拽形式来完成多数的取数需求,一些公司内不健全的埋点平台还有数仓还需要大量分析师花精力排坑填坑。也正是因为平台能力尚未成熟,产品运营自己分析一次数据的成本过高,就会有大量取数的需求提到了分析师团队,导致每个业务下都有一些分析师做了「数据的揉面工,业务的按摩师」。
最近还留意到两款明星数据产品,Chartio 和 SQLFlow,前者是拖拽式 SQL 与可视化的一站式平台,后者是在模型解释上做了一些增量工作的机器学习训练与部署平台。虽然还没有大规模商用,但是已经能看出趋势:SQL、数据可视化、训练与部署模型、模型解释相关工作的门槛会越来越低,数据感觉不错的业务同学可以直接通过这些工具来快速完成取数分析师大量的「分析」工作,还省去了不少沟通成本。所以未来一定会淘汰掉一些分析师,留下有业务思辨能力和定量专业能力的精英。
未来分析的工作还是离不开画像指标体系、实验评估、异动归因和观测研究,但是会更加关注这套体系的科学性与落地上面,也因此可能会分化出来两拨分析师:业务导向的分析师优化业务与数据的连接,挖掘业务表象的根因与战略机遇,并将洞见以画像与业务指标的形式做落地,指标与画像的工作直接优化了业务的分析质量和运营效率;模型导向的分析师优化基于数据做评估、归因、推断的科学性,并落地易用的数据产品,在此基础上,发现业务决策过程中不科学的环节,推动数据分析工具在这些环节的应用。因此我建议分析师在懂 SQL,基本的统计方法基础之上,增强自己的业务属性和数据科学属性:学习商业、经济学原理,理解基本的因果推断与计量方法,强化构建模型内核的 scripting 能力。