聊聊异常值的判断与分析(文末送书)
The following article is from 一个数据人的自留地 Author 阿北
哈喽,大家好,我是可乐
今天给大家送最新版的《数学之美》,老规矩,文末是送书规则
今天要跟大家分享的商业分析中的“独孤九剑”秘籍是 -- 异常值的判断和分析。在平时的工作中,商业分析师经常接到业务方的一类需求就是:xxx指标为什么提升/下降了,分析一下原因。对于这类需求的解决,主要分为两步:
判断该指标的表现是否异常;
分析该指标业务提升/下降的原因;
对于异常值的处理,之前有看到的一个说法是:木秀于林,风必摧之。它就是那根秀木,比喻的非常形象。
今天这篇文章先介绍一种常见的异常值判断方法,再总结下分析的一般流程。
01
箱线图判断异常值
首先,收集该指标在时间序列上的表现,找出其中位数和两个四分位数。
中位数是一组数据排序后处在50%位置上的数值;
四分位数是一组数据排序后处在25%位置和75%位置上的两个分位值,分别用Q25%和Q75%来表示;Q75%-Q25%称为四分位差,一般用IQR表示。
其次,计算出内围栏和相邻值。内围栏是与Q25%和Q75%的距离等于1.5倍四分位差的两个点,其中Q25%-1.5*IQR称为下围栏,Q75%+1.5*IQR称为上围栏。上下围栏作为确定异常值的界限。
然后,找出上下围栏之间的最大值和最小值(即非离群点的最大值和最小值),称为相邻值(上相邻值和下相邻值)。
最后,找出离群点:大于上内围栏或小于下内围栏的数值。
这就是利用箱线图去判断异常值,这里处理的距离是1.5倍四分位差(温和异常值),更严格一些可以用3倍四分位差去判断极端异常值。
02
指标提升/下降的分析流程
我们利用箱线图判断法可以识别出来指标的某次表现是否在异常范围内,当然,不论是异常值还是正常波动,都是可以进行接下来的分析,只不过经过前面的判断,可以先得出该次表现是什么水平,如果波动幅度小,或者之前也经常出现类似情况,那可能没有继续往下分析的必要。
接下来总结一下分析这类常见需求一般步骤,以快速定位原因。
1.明确问题描述与指标计算口径;
很多时候,业务方的输入不知道来自哪里,往往会出现前后验证了一大圈,回头发现是指标口径的问题,这不仅低效还很影响工作节奏。对于拿到的任何一个数据,一般要求的4项基础属性:名称、数值、单位和口径。其中口径是非常重要的,在交付的PPT/Excel中,注明数据的口径不仅可以帮你减少很多无意义的咨询,也是专业的一种表现。
所以第一步是要明确问题的描述,指标下降了,什么时间段,和什么周期的比较,这里可以参考SMART原则:
S:Specific 具体的;
M:Measurable 可衡量的;
A:Attainable 可实现的;
R:Relevant 相关的;
T:Time-bound 有期限的;
然后对齐指标的计算口径,明确大家说的是一个事儿,在一个频道上。
当前面两步都走完了,指标的变化确实值得去分析。这时候也先别急,先去咨询一下对应指标的数据产品经理,先判断一下是不是底层数据的原因。之前的经验,很多次指标的下降都是因为底层数据原因,比如:
数据仓库今天延迟刷新了;
技术原因,某部分的数据没有计入当天的数据库中;
这一环节的简单判断,有时候会帮你节省很多工作时间。
2.拆解业务流程,定位原因;
假设前面的步骤都判断完了,验证确实出现了问题,那下一步就要对指标进行拆解,定位原因。常用的就是杜邦分析法(不了解的可以百度一下),这里的拆解可以细分两种情况:
公式法拆解;
业务流程拆解;
举个例子来说,有些指标是可以按公式拆解出来的,比如电商的销售额=流量 x 转化率 x 客单价 x 复购率;实际工作中,有的指标没有明确的公式关系,那可以按其背后的业务流程来拆解。要达到该指标,是要经过怎样的流程,每个过程模块用对应的子指标去衡量。
这里拆解要遵循MECE(Mutually Exclusive Collectively Exhaustive)原则:相互独立,完全穷尽。【这里可以推荐大家去读芭芭拉·明托的《金字塔原理》,不是广告 哈哈哈】
拆解还需要注意的一点是:定位到可落地的单元。比如说美团APP的流量上涨,从业务去拆分酒店住宿、外卖、生鲜……定位到这一层的原因还是没办法去落地什么措施,但如果再往下拆解,是酒店住宿的哪个城市流量上涨,分析是不是旅游周期的原因,可以接着在APP上针对城市展示的顺序做一些优化等等。
3.列出可能的猜想 - 数据验证;
当我们在大的环节上定位出了原因,那接下来根据业务感知,进行合理的原因猜想,比如先按渠道拆解流量的上涨,定位出来具体的上涨渠道,进一步的原因分析,可能的猜想:
优化了投放渠道的广告素材?
广告投放的用户群变了?筛选的人群标签有问题?
竞对的影响?
……
列出可能的各种猜想,然后搜集相关资料和数据,验证是否属实。
上述方法一定程度上可以解决大部分异动分析的问题,但还是可能会碰到一些无法通过数据分析定位到的异常原因,这个时候可以去调研用户,深度访谈典型用户或者问卷规模调查,从一线业务那里获取输入。
送书规则
感谢人民邮电出版社赞助,送 3 本《数学之美》第三版,也是最新的版本
吴军老师的这本书把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力,第三版还新增了区块链的数学基础、量子通信的原理,以及人工智能的数学极限。《数学之美》第二版我之前还做过读书笔记:
数学之美:数学究竟是如何被运用到生活中的?
方式:抽奖
点击下方小程序进入抽奖,下周一(12月21日)早8:25开奖,就各凭运气喽~
说明:为了让更多人获赠,本月已获得赠书的小伙伴就不再赠送了
每周五送书活动大概率会持续搞下去,请大家一定一定加我微信(data_cola),以免中奖后失联,请中奖的小伙伴务必加我微信告知收获方式以便第一时间邮寄哦。