为什么我提交的数据分析报告总是被领导K?
咱们先来设想一个场景,一个会议室里坐满了人,正在做报告的年轻人西装笔挺,头发书的一丝不苟,PPT上列满了数据和图表,他正在论证一个什么东西。年轻人讲了很多,可是在台下听报告的一个穿着随意的大佬,有点不耐烦了:“你不用说那么多,我就问你几个问题。”
大佬问了几个问题,年轻人马上被难住,于是大佬否决了年轻人的整个方案。
我们对这个场景并不陌生,这可能是一次数据分析会,一次跟主管的建模方案汇报,或是你去见一个客户汇报成果,在一线做事的人用了很多精力专注于各种细节,这在数据分析师和建模师身上表现尤为明显,可是大佬想问问题却往往是写意的-他们三言二语就能发现问题的关键,并以此做出决策,然后事实证明大佬们说得对。
这就引出了一个问题,有些人数据分析做过大量功课,熬了一周甚至一月,掌握了丰富的数据和资料,为什么他们的决策水平,反而不如大佬们短短时间内的快速判断呢?难道说,对一个问题思考得多,反而没好处吗?
这个问题,其实数学家早就想明白了,可以用建模中的“欠拟合“和”过度拟合”这两个概念来形象的比喻。
欠拟合其实很好理解,就是指学习的不够,只把样本数据的部分特征习得了,或者样本变量本身就不够,然后得出以偏概全的结论,盲人摸象这个成语最形象的表达了欠拟合,大佬经常一针见血,是因为有经验的人在其专业领域模式识别、见微知著的能力远超常人,这也是很多决策领域机器搞不过人的一个原因。
过拟合就是指把学习进行的太彻底,把样本数据的所有特征几乎都习得了,于是机器学到了过多的局部特征,过多的由于噪声带来的假特征,造成模型的“泛化性”和识别正确率几乎达到谷点,于是你用你的机器识别新的样本的时候会发现就没几个是能正确识别的,过于精确写实往往丢失事物的本质特征。
打个形象的比方,给一群天鹅让机器来学习天鹅的特征,经过训练后,知道了天鹅是有翅膀的,天鹅的嘴巴是长长的弯曲的,天鹅的脖子是长长的有点曲度,天鹅的整个体型像一个“2”且略大于鸭子.这时候你的机器已经基本能区别天鹅和其他动物了,然后,很不巧你的天鹅全是白色的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅,前面的规律是全局特征,所有的天鹅都有的特征,是对的。
然而,天鹅的羽毛是白的只是局部样本的特征,机器在学习全局特征的同时,又学习了局部特征,这才导致了不能识别黑天鹅的情况。
经常听数据分析师唠唠叨叨一大堆,陷入细节而不可自拔,是时候祭出这张图片了,领导要的可不是那个你自己想象出来的猫!
因此,如果你的数据分析涉及决策判断和预测未来,那么就可能有这两个根本问题,那么,如何避免这两种尴尬的状态呢?
针对欠拟合,笔者认为需要有效利用群体智慧的力量,其实笔者在最早的一篇微信文章《六脉神剑?大数据时代下经营分析师的挑战》提到过这个方法:
大多数据分析师(无论是经营分析师,数据分析师或者数据建模师等等)都是孤独的,在面对一个新的分析课题时,总会面临着对新形势的莫名紧张,加班加点是常有的事,而且感觉分析的事情很难分享和合作。
但由于每个人的能力和视野有限,因此分析欠拟合现象很普遍,也很正常,不是没考虑这点就是那点,但一篇报告要过大佬的关,往往需要做到滴水不漏。
那个时候,三个“臭皮匠”往往是有效的,很多专业公司来企业做咨询方案,后援团队会非常强大,这可不仅仅是气势问题,Google公司在它的How Google works提了一个观点,大家所以汇聚到公司来上班,是因为合作能让创意更好的迸发,创意精英聚在一起,能够产生巨大的化学反应,这是团队所以存在的根本,这个理念对于分析师团队同样适用,对于分析师来说,即使是1+1>1.5,也是可以接受的。
创新的组织,比如大数据组织,应该为分析师创造新的合作环境,每个分析师都应该以开放的心态接纳他人,连接,是新时代的需要,对于分析这个东西,需要的是更广的视野,更深的思考,更多的角度,再强的个人总会有没有想到的角度,如果企业的分析总是受限于个人视野,何来持续竞争力?
笔者以前有多次与团队成员连夜写分析报告的经历,有一次跟有才(同事绰号)临时接到一个过度优惠的分析报告任务,当天下午布置,第二天上午部门就要提交,怎么办?
咱俩就充分发挥协作的力量,充分讨论,直到每个结论双方都找不到明显的暇纰为止,第二天上午一次过关,笔者将这个归结为团队的力量,在这个开放、分享、透明的年代,数据分析师一定要怀有谦卑的心态,敞开胸怀迎接他人,个人英雄主义很难有市场。
针对过拟合,数据分析师除了提升自己的业务能力和换位思考的能力外,现实中可以采取多人交叉分析验证的方法来避免个人局限性,当然这个代价是有点大的,这里给出三个执行性建议。
第一,限定分析时间,写报告时间越长,边际效益越低,30天写出的东西往往跟一周相差无几,反而是在有时间限制的情况下,你才会逼着自己去考虑最重要的因素,或者干脆先找大佬或他人商量下。
第二,限定内容长度,领会电梯谈话的精髓,你的结论如果一页讲不清楚,你就应该考虑有没有抓住问题的核心,很多时候大佬没那么多时间,往往是直接先看结论再看论据的,结论不吸引人再多的数字都没意义。
第三,找个白板讨论,这是他人的一个建议,要使用粗的马克笔,笔画越粗,对你的思维越有利,越能逼着你去考虑大局,有个词叫作蜡笔效应。
笔者用欠拟合和过拟合来表达数据分析中的困境,可能并不是很适合,但道理就是那些道理,希望于你有些启示。
作者:傅一平 微信号:fuyipingmnb 欢迎交流!