你使用过哪些数据分析的方法？

Original 陈老师接地气学堂 2021-09-27

有同学问：陈老师，每次被面试都被问“你使用过哪些数据分析的方法”。结果都感觉答不上来。我回答做了相关分析、回归分析、聚类分析、因子分析又经常被人怼。所以到底数据分析有什么方法？为啥我在做数据分析，却感觉没什么方法？

答：首先，相关分析、回归分析、聚类分析、因子分析的名字叫XX分析，但它们是统计学方法，只是数据分析的工具，不是解决问题的全部办法。很多同学一看到名字叫分析，就想当然的以为我只要按这些XX分析的代码跑一遍就算分析了，这种行为经常会被真正懂行人怼。

就举个最简单的例子，所谓相关分析，很多同学就是算了个相关系数。可统计上的相关系数与业务中的相关关系是两码事。我家门前的大树年年都在长，中国GDP也年年在涨，两列数据算个相关系数哇塞0.99，P值小于0.05，所以我家门前的树是我中华龙脉，我要发财啦！——不要笑，脱离了业务意义去做统计模型，做出来的笑果（我没打错）就是这样的。

所以回答这个问题，要回到数据分析到底解决哪些业务问题上去。我们之前分享过，数据分析可以解决的是：

是多少（数据描述状况）
是什么（树立数据标准）
为什么（探索问题原因）
会怎样（预测业务走势）
又如何（综合判断状况）

其中问题1是用数据描述问题，把问题量化。问题2345都需要探索-假设-检验-总结的循环性的过程。真正服务于业务的时候，只要熟练掌握了量化-探索-假设-检验-总结的循环，就能完成一个分析。无论是企业里的经营问题，还是个人感情、生活各种疑难杂症莫不如此。

然而，这么说面试官肯定不满意。他们还是期待着你说出一些具体名词的。因此人们总会发明一些新词，比如什么AARRR法，矩阵法，切割法，杜邦分析法等等，甚至还有懒省事的干脆叫业务法（是啊，肯定是业务法啊，不结合业务分析啥）。经常把人都听得头晕了。这里我们结合数据分析能解决的问题，梳理下这些方法。

属于“是多少”的方法

“是多少”指数据描述状况。如果只用1个指标就能描述清楚状况，比如身高、年龄这种，是没有什么分析方法的。但是如果指标很多，就会涉及到选择哪些重点指标，以什么方式展示这些指标。于是，就有了很多描述性方法。比如一些常见的：

AARRR：互联网行业增长黑客理论的五个大指标。需要注意的是，实际用的时候，还有很多二级三级小指标，绝不是五个指标就完事了，切记。而且AARRR都是围绕用户来说的，实际上也只适用于用户运营，不是所有业务都能硬插这五个指标的。

漏斗法：只要一个流程环节数》2，都能摆一个漏斗出来，用来衡量流程转化率的指标。最典型的比如互联网广告（站外页-落地页-促进页-转化页），比如B2B销售的售前流程也很长（销售线索-初次接触-沟通需求-展示demo-议价-竞标-签署合同），也能撸出来一个漏斗。

杜邦分析法：原本是财务分析中用来衡量企业经营效益与财务指标的方法，现在也被推广开，用来拆解经营指标。比如销售金额=用户数*付费率*客单价。然后再层层拆解用户数，客单价构成。有意思的是，杜邦分析法拆出来的逻辑图会很复杂，所以很多人为了提高逼格直接把它叫“分析模型”……

量收利进销存：零售行业，无论线上线下都是这六个关键指标。和AARRR一样，有一堆二级三级小指标。

要注意：以上都是描述问题的方法，并没有解答问题，比如看到用户流失率75%所以呢？所以75%是好还是坏呢？描述+标准才能对问题做判断。所以才有了下边“是什么”的方法。

属于“是什么”的方法

“是多少”指树立数据标准的方法。寻找标准可以基于业务经验，但业务经验也需要数据进行验证才知道是对的错的。因此，产生了“是什么”的两大类方法：探索标准的方法，验证标准的方法。

探索标准的方法，和到底要对几个指标进行探索有关。比如只用1个指标的方法有：二八法、十分位法、切割法。名字听着玄妙，实际上就是切割线摆在哪。当我们没有信心的时候，可以根据二八定律，把切割线摆在20%，也可以先拆10组或者若干组出来，探索下摆在哪里合适。比如用2个指标，就是所谓矩阵法，其实就是把两个指标交叉，分出四个象限，看看四类有没有明显特点。

如果超过3个指标，一般不建议直接交叉。即使只有3个指标，每个指标分3类，也会产生3*3*3=27类出来，在业务上太复杂了。这时候会用一些统计学的方法。在无标注的情况下可以用Kmean聚类进行分类探索，在有标注情况下可以用决策树。是滴，大家看到了，统计学/机器学习的方法只是解决分析问题的工具，就是这个意思。

找出来标准以后要进行验证。好的标准要能清晰区分不同群体。比如女生说要相亲的男生身高180。那意味着179的人她真的不要，181她不会立即拒绝。如果176的她照样接受，就说明画出来标准没有区分度，要么是标准划分出了问题，要么就是做标准的指标压根就找错了。

需要注意的是：有没有用数据找标准，有没有验证过业务部门的标准，是从取数到分析的分水岭。很多同学觉得自己没有做分析，不知道分析的是什么，核心原因就是手上只有数据没有标准。比如跑出来一个：本月底销售额3000万，可3000万又怎样呢？不知道。然而渠道部一看到月底销售额3000万，就大喊一声：肯定是华东大区藏了业绩，下个月头他们至少还要吐500万出来！这就是有没有评价标准的差距。所以平时工作中就得养成强烈的标准意识，这样才能进行真正的分析。

属于“为什么”的方法

“为什么”指探索问题原因。一提探索原因，大家脑子自然蹦出来的就是相关分析……往往会以为计算个相关系数，丫就真的相关了。于是产生了开篇的“龙脉梗”。实际上，想仅通过数据分析找原因，是相当困难的。往往要内部数据+外部调研+业务判断+测试，共同努力锁定原因。这一点切记切记，面试的时候经常有同学在这里吹牛吹大了，被怼得体无完肤。

正因为很难仅通过数据锁定原因，所以通过数据分析找原因往往是一个系统的过程。需要做齐量化-探索-假设-检验-总结全套流程。严格来说，这里不是靠某个分析方法得出的结论。但是考虑到面试官还是很想听几个方法的名字的，我们可以这么说：

找原因的方法可以分作经验推断与算法推断两种。经验推断就是经典的归纳法与演绎法，具体到数据操作上，就是分组对比（归纳原因）和趋势推演（演绎判断）。比如问为什么销售额下降，用归纳法就是将每一次销售下降的时候，相关症状指标列出来，然后做分组对比，看哪个因素影响下跌的厉害。用演绎法，就是假设销售下降就是因为人员流失/引流产品不给力/季节因素导致的，那么我做了相应调整：人员调动/上新品/等季节过去，以后应该销售能回升。实际中，当然是两种方法结合，不断逼近真相。

算法推断，不是靠人工智能阿尔法大狗子汪汪一叫就把原因叼回来，而是通过指标的计算发现潜在问题点，然后回归到业务里去验证。你可以简单理解为把上边经验推断的过程，量化为一堆指标的计算。比如相关分析虽然不能证明因果，但是能提供分析假设，拿到假设以后我们就能进一步验证，到底这种关系是真相关还是伪相关。因此，做分类的模型与计算相关系数的统计方法，理论上都能用来做这种探索。

属于“会怎样”的方法

“会怎样”指预测业务走势。一提到预测，大家脑子里会自然蹦出来很多很多统计学/机器学习的算法。具体的操作展开写内容太多，这里仅帮大家梳理下逻辑。细节可以后边慢慢更，或者大家自己去看相关统计学/机器学习文章。

首先大类上，预测分定性预测和定量预测两种。定性方法是基于业务经验和业务假设，来推测未来走势。有两种推测法，一种是找一个类似的业务场景进行推测。比如马上上一款新产品，根据过往的经验，一般上市后T+N周销售走势应该是XX，所以类似的也该是这样。是所谓经验推断法。

另一种是基于业务假设，比如新产品上市，假设推广部门传播力度为X，假设销售部门配备人员为Y，假设供应链的产品到货率是Z，之后套入杜邦分析法的模型进行计算，综合预测销量。定性预测并不全是拍脑袋，因为定性假设选取的场景和参数可以通过分析来获得，并不是完全没有依据。同时，对业务部门而言，定性预测时责权划分非常清晰，每个部门要做到多少业绩一清二楚，反而容易推动执行。

定量的方法又分为基于时间的时间序列法，与基于因果关系的算法两类。比如预测店铺销量，如果用时间序列法，则根据过往1-3年销量数据来预测未来的销售数据。如果基于因果关系，则要引入与销售结果相关的变量，比如店铺位置、店铺产品线、产品价格、顾客评价、顾客人数等等。定量预测看起来很复杂，很多同学会直观的认为复杂就是牛逼的。可实际操做过几次就会发现，时间序列法对于环境变化不敏感，容易被突发事件冲击。因果关系法可能采集不到足够的数据，导致模型预测精度很难上去。

所以在工作中真正操作的时候，要因地制宜选方法。在面试的时候，要客观陈述建模效果。又有很多同学本能的认为，模型在测试集上跑出来的准确率越高越牛逼。连过拟合这种问题都忘了。结果在面试的时候被面试官怼穿，这都是很常见的哈。说话谨慎不是问题，被怼穿了才是。

属于“又如何”的方法

又如何指综合判断状况，下分析结论。如果判断标准很清晰，判断的指标很少，那下结论是很快速的，不需要复杂的分析。比如女生说我就是不喜欢秃头的男生，那就看照片一票否决，来的非常爽快。这里不需要分析。但当牵扯指标很多，指标形态很复杂的时候，就很难决定了。比如小姐姐说我想要一个男的对我好（行为指标）有上进心（心理指标）有发展潜力（预测值）真心爱我（恋爱原因），这要求一出，就是个非常复杂的判断。所以，“又如何”是分析最后一步，因为往往做判断，需要做一大堆前期工作。需要搞掂了数据、搞掂了标准、了解清楚原因，做了预测以后，才知道怎么下结论。

在复杂判断中，有主观法和客观法两种。主观法就是基于人工判断（专家判断），只不过打分方式有很多种，直接打分再赋权重的往往叫专家法，打一个矩阵评分再计算的叫层次分析法（AHP）客观法可以通过因子分析（用方差解释率做权重）神经网络（算法训练权重），这样不依赖专家打工。

实际工作中，做评估的最大敌人是没标准，或者标准没节操。看到销量下降就试图甩给没有数据的外部因素，或者甩给目标定得太高，这样的话分析就没法做了。做评估第二大敌是所谓“业务常识”，经常有业务部门跳出来“你做过业务吗？老夫从业10年都没见过这样的”。做评估的第三大敌是领导意见，领导就是不想下这个结论，你咋办？只能回来改ppt啊。所以你看，做评估的算法有很多，真正用起来少，还真不能怪我们没本事。

以上就是对常用方法的简单总结。恭喜坚持到这里的同学，上述总结的思维导图如下，大家可以收藏了。不过这里只归纳了文章中提及的一些内容，可能有遗漏，这里也没有结合具体业务场景，大家可以根据自己的实践再加以补充。

全文只是一个概览，如果大家有兴趣的话，让我看到你们点击“在看”的小手，后边陈老师有动力慢慢分享。需注意的是，如果是面试时讲自己用的数据分析方法，一定要和自己简历里的工作内容对的上，不然人家指着简历随口一句：你在哪个工作项目中用的这些方法？具体怎么用的？数据如何？估计就问崩了。面试千万条，真实第一条，瞎编易穿帮，失业两行泪。

如果是在实际工作中，则要因地制宜选择方法。遇到事先问三问：

数据足不足够
时间允不允许
业务买不买单

在企业中，不是方法越难越有价值，而是越能帮助到业务才越有价值。同样效果前提下，方法越简单越好。因此真正做工作的时候，往往是在时间、数据、业务需求限制下，选择最短平快的方法。至于复杂的方法，可以在工作有余力的时候自己尝试。想探索数学的奥秘，可以去读个博士做科研。在企业做数据分析是为了助力业务，并不是自己嗨，一定要牢记这点。

更不用说，很多企业的数据化管理程度之低，还停留在“我就要个数，一个数而已”或者“让你的人工智能阿尔法大狗子帮我解决下和这个问题”两个极端上。数据真正发挥价值，靠的是体系化运作，不是某个大数据神人掐指一算，切记切记。

更多分享，戳

数据分析对企业的作用

数据分析到底和数据挖掘有啥区别

销售分析的小例子

欢迎关注陈老师公众号，持续追剧哦

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

你使用过哪些数据分析的方法？

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

你使用过哪些数据分析的方法？

您可能也对以下帖子感兴趣