数据人的自白：不懂业务，分析就仅仅只是提数

Python数据科学 2020-09-13

作者：老七（ID：data365）

来源：鸟哥笔记

好枪手是靠子弹喂出来的，好分析师是靠大量项目实践沉淀出来的。

我的数据从业历程是从咨询公司切入，那里有稍微学术点的指标体系和方法论。然后在数据服务公司应用，那里有比较成熟的数据采集实现技术。而后在微博数据创业公司将之前的知识技能进行应用和商业。回过头来看，那会的观点暂时经得起这五年时间的考验，同时也正是因为没经历过甲方公司的数据分析，所以彼时对业务的重要性感知不深，上文也就未有过多提及。

1. 不懂业务，分析就仅仅只是提数

借用下大数据的梗，“数据分析要懂业务”这句话就像“Teenage Sex”——人人都在谈论，但没谁知道究竟怎么叫懂业务，人人都觉得别人都懂，所以人人都觉得自己懂业务。请允许我老调重弹，以个人视角阐述下什么叫懂业务，不妨以别人家的产品为例——对于头条类的内容产品来说，他的业务模式无非是从(内容)生产到分发再到变现，从而实现从投入到盈利，再到盈利增长这样一个商业闭环，要想将这个模式跑通，他就得有内容（生产者），有用户（消费者），有平台（消费平台），有广告（激励生产者和平台）。

1）如果懂业务，你就不会在日活出现下行趋势时单纯提出加大广告投放这样谁都知道的建议；你就不会在生产者因竞品提升激励费用而出现流失苗头时，只是轻描淡写的报一下同环比；你就不会在关于广告的反馈量异常提升时粗暴建议业务侧全局减少广告频率….

2）如果懂业务，你就会知道数据工作该如何推进。

第一阶段应该是基础数据建设，保证数据收集的规范化、全景化和扩展化，保障从打点->收集->清洗->统计->入库这个数据生产流程的效率和稳定。

第二阶段重点关注种子用户的数据表现，用户对产品哪些功能使用不顺畅，对哪些品类的内容更加有偏爱，什么样渠道的用户质量更高，并将以上结论同步输出给业务侧，并持续进行PDCA循环，直至通过留存率测算出来的life-time足够支持进入爆发期。

在爆发期的分析重点就是不断提升运转效率，比如根据用户偏好特征进行定向组织生产，继而扩大分发场景，从APP内分发再到APP外分发，不断提高单篇内容的分发效率；优化产品的栏目布局、功能按钮等动线设计，满足不同人群的使用偏好，提高“坪效、人效”；

从买用户到等用户再到涨用户，目前产品的核心用户群体是谁，在社会人口这个大盘里是否已渗透彻底，如果没有，通过什么渠道可以“捕捉”到他们，以及通过分享/转发这些策略的设计，实现用户的自增长。

在第二阶段的种种目的都是为了不断放大用户与内容的规模效应，为商业化做准备。

第三阶段的分析重点则是关注商业侧表现，内容无论是自产也好，还是UGC也罢，都是有成本的，成本换作了流量，流量又通过商业化实现了变现，所以需要通过数据优化当前的广告形式和策略，帮助金主爸爸找到最匹配的用户，以及让用户发现最需要的广告，从而实现ROI的最大化；

第四阶段则应关注创新发展，国内同行当前的发展模式都有哪些，以及各自的差异化竞争点，国外是否有类似的行业以及当下现状是如何，用户还有哪些延伸需求没有得到满足，内容行业的未来发展趋势是什么，以及可能会遇到的法律法规等政策风险。

3）如果懂业务，你就会知道在相应的阶段老板的关注点是什么，你就会设计出更符合业务视角的报表，通过相应的专题分析，解答老板还未开口的“需求”。

4）如果懂业务，你就会想到首先要了解各业务角色的KPI，对于团队协作来说，最有力的方法就是驱之以利，而非驱之以理，当业务人员知道你们是利益共同体的时候，良好的协作也就有了保障。

……

说了这么多，那问题来了，如何检验自己是否懂业务，个人有个小经验，就是看你的主要时间花费和产出都在哪里？如果懂业务，你的主要产出就一定不会是提数，因为老板&业务部门知道，让你提数那就是浪费公司人效&损害自己利益。否则，分析就仅仅只能是提数。

2. 回归本质，数据才能为业务赋能

引用下百度百科的解释，“数据就是数值，他是我们通过观察、实验或计算得出的结果。数据有很多种，最简单的就是数字”数据的本质是数值，只是属于结果而已，要想改变结果，只能去寻找因，从因上做改变，才能引起数变。

这段话可能不太好理解，举一个大家都知道的流水万能公式——流水=日活*购买率*人均购买金额，这个公式还可以继续往下拆，并将拆解后的因子交给不同的业务小组负责，美名其曰---KPI。

老司机都知道，这个公式最大的意义是跟踪和监控，而不能作为执行目标，初期可能还行，但到了稳定期后，日活一旦大幅提升，购买率和人均购买金额反而出现了下降；业务做了很多优化，好不容易购买率得到了提升，购买金额反而下去了；为了人均购买金额达标，运营推荐了很多高价商品，结果购买率却又下降了…为什么？

因为流水只是个结果表现，这个结果是由用户决策产生的，决定流水的正确因子应该是用户的需求强度，购买力，以及相应购买力用户与相应价格档商品的匹配程度。如果不从因果关系上想解决办法，而只在当前的存量购买力下，追求各个伪因子，就会出现按下葫芦浮起了瓢。尤其在甲方业务环境里，各个小组都是紧密围绕在核心KPI的基本路线，如果数据侧陷入到各业务小组的KPI分析需求里而没有及时纠错，那后果将万劫不复。

再举一个例子，下图是业务里常用的数据报表视图，并随着业务的迭代和细化，出现各种报表堆砌，泼盆冷水，这种报表哪怕就是有几万份，哪怕就是进行分钟级别的异动监控，可能对业绩提升也于事无补，该跌还是跌。

我们不妨将视图变换一下：

以上表头只是示意，并没有详细展开，主要思路是将结果型报表变换成过程型报表，以用户视角将整个报表分成基本属性、兴趣偏好、使用特征、商业贡献四个单元。

基本属性主要是以新增日期，渠道，机型，性别，年龄等为代表的用户基础描述。兴趣偏好是用户在使用产品之后表现出来的特性，比如喜欢卡牌、RPG等品类游戏。

使用特征则是用户在使用产品时留下的数据行为，比如浏览/点击/搜索次数。商业贡献则是衡量用户对商业化的贡献，比如购买次数，购买金额。商业贡献结合基础属性其实就是用户LTV的整个监控。

有了这种视图后，就等于有了自变量与因变量，就可以回到我们熟悉的因子，回归，判别这些多变量分析方法上来，至于RFM、CRM、渠道评估/反作弊等解决方案的产出更不在话下。

熟悉业务的好处是可以有相同的对话语境和立场，但弊端就是常常因走得太近，走得太快而忘记数据的本质，一个优秀的分析师是需要建立起一套属于自己的分析系统，其中，很重要的一个环节是自我纠错机制，这点，我也是在摸索。

3. 数据先行，增长才能更加稳准狠

伴随着人口红利消解，互联网大盘流量增长接近上限这个大背景，增长黑客（Growth Hacker）的概念现在越来越火，这里，我想说两点，

1）对于什么微信裂变，社群运营，用户补贴，拼团这些来说，都是属于增长手段，手段是有有效期和环境的。他的有效往往是在透支行业平均成功率的基础之上，毕竟后来者的复制会加快人群防疫力的构建，不仅会慢慢失效，还有可能会对自身造成伤害，在模仿手段的这个赛道里恐怕只有第一，没有第二。

电商行业有句打油诗是这么说的——“用户促活一句话：推送信息把券发，有事没事发短信。您要登陆把礼拿，优质产品在秒杀，再不来就没有啦~要是客户不买账，直接拿券头上砸”

这种生搬硬套无脑跟风做增长的后果就是成本越来越高，效果越来越差。用户的购买决策体系发生紊乱，商家的定价权也受到质疑，“价格太虚了，啥时候有优惠啥时候再来买，反正也不着急”。薅羊毛的用户越来越多，平台陷入了饮酖止渴的尴尬境地。

2）增长黑客正确的姿势应当是数据先行，数据的优势是可以客观的，全局的，通过一组指标还原用户场景和动机，进而归纳演绎->找到差异->抓住增长点。再往大了说，数据增长还应包括用户定位，产品设计，价格策略等一系列全链条环节，这个后面有机会再聊。

同时增长类项目能发挥多大效能，还取决两个前提：

数据增长是游离在产品、运营、技术、品牌之外的一种高效组织形式，打破常规分工模式和业务惯性，需要跨部门/跨角色间的联动，这种联动越高效越好。
正是因为与原有分工体系游离和并存，所以不可避免会有碰撞和交融，那么对增长小组进行直接授权和负责的管理层级别越高越好。

下图是根据淘宝亲情账号的公关稿以及一组假数据结合的增长案例：

如上所说，流水=日活*购买率*购买金额，在存量购买力下，单纯提高某一个因子对总流水的提升都于事无补，但可以做的是通过数据还原用户的需求场景，继而进行场景再造，健康的将业绩目标进行稳定增长。

4. 总结

数据分析师是个孤独的圈子，孤独在没法跟同行交流和切磋，泛泛谈没有价值，说来说去就是那么几点——趋势/细分/对比/多变量，有价值的是背后各种方法的尝试以及遇到的坑，难免不涉及业务细节，也就没法展开进行描述，不得已用了很多别人家的案例，有不太清楚的地方欢迎进行具体交流。

至于数据分析的前景，无需多做宣贯，只提一点，当像充电宝，单车，咖啡，甚至汽车、大卖场这些传统行业都逐渐开始互联网化的时候，意味着互联网从轻资产走向重资产时代，你觉得企业还会不重视精细化运营么？

产品有bug我们可以及时回滚，可智能硬件的生产制造都是有成本的，一旦生产多了卖不出去就成了库存积压，生产少了用户买不到体验就不好，至于新零售的本质就更是提高人货场的周转效率，这些可都是数据问题啊。效率运营的精细化程度可能逐渐成为未来产品间的护城河。

好枪手是靠子弹喂出来的，好分析师是靠大量项目实践沉淀出来的，上图是根据资料以及自己的理解进行的归纳提炼—数据应用的三层价值模型&数据人员能力成长体系，耐得住寂寞，才能守得住繁华，在数据分析这个道路，我们一起梦想与前行。

赠送三本深度学习书籍

Keras深度学习

内容介绍：Keras作为深度学习流行的框架之一，是一个用Python语言编写的开源人工神经网络库。《Keras深度学习》一书从新手角度出发，系统介绍了Keras深度学习技术，从Python数据处理开始，到深度学习理论，再到Keras各种代码实战，全书秉承实例讲解的方式，降低学习难度。《Keras深度学习》全书共8章，前4章介绍了Keras的基础环境搭建和前端基础知识，包括Python数据编程、Python常用工具包和深度学习基本原理等；后4章介绍Keras深度学习方法与实战案例，包括使用Keras构建卷积神经网络、使用Keras进行序列处理、应用Keras实现更加精细化模型定制的函数式API、使用Keras实现GAN和VAE在内的多种深度生成式学习模型等。

赠送方式

关注下方公众号，回复：抽奖

推荐阅读

1、我用python帮朋友做了张猪肉数据分析图，结果。。。

2、自动盖楼刷淘宝喵币！能自动的坚决不动手是程序员的基本素养！

3、警惕啊，不要随便发车票照片了，用Python可以算出了你的身份证号码！

4、最近程序员频繁被抓，如何避免面向监狱编程？！

5、牛逼了！Python代码补全利器，提高效率告别996！

👆扫码回复：数据分析

获取38g数据分析学习资源

喜欢文章，点个在看