大数据时代,你应该知道的生活真相(上)
点击上方
阅读本文前,请您先点击本文标题下面的蓝色字体“与数据同行”再点击“关注”,这样您就可以分享一个大数据从业者的真实数据生活,独家数据观点!
二战中有这么一个故事,美国军方想对飞机进行加固,但装甲会增加飞机的重量,从而降低飞机的机动性,防御过度不可取,但不防御又怕被击落,因此,军方把一批数学家聚拢在纽约市的一个公寓中,想找出最优的方案,军方为统计研究小组提供了一组用得上的数据,美军飞机在欧洲上空与敌机交火后返回基地,飞机上会留有弹孔,这些弹孔分布的不均匀,机身上的弹孔比引擎上的多,军官们认为,装甲集中装在飞机受攻击概率最高的部件,那么是最有效率的,但数学家瓦尔德说,需要加装甲的地方不应该是留有弹孔的部位,而应该是没有弹孔的地方,也就是飞机的引擎,因为大多引擎被击中的飞机未能返航,而被打得千疮百孔的飞机照样能飞回基地,这个事实恰恰说明机身可以经受住打击。
瓦尔德拥有的空战知识,对空战的理解远不及美国军官,但他却能看到军官无法看到的问题,这是为什么?根本原因是瓦尔德在数学研究过程中养成的思维习惯,从事数学研究的人经常会问:“你的假设是什么?这些假设合理吗?在这个例子中,军官们在不经意间做出了一个假设,返航飞机是所有飞机的随机样本,但是,显然假设是不成立的。
克劳塞维兹说过:“数学就是常识的衍生物”,掌握了数学知识,就像给常识装上了核能驱动的假肢,可以让我们走的更远,更快,数学不是高高在上的,它总是跟我们生活息息相关, 冯.诺依曼曾经发出警告:“如果数学这门学科逐步偏离现实生活的经验,并且渐行渐远,以至于第二代和第三代数学人无法在现实生活中萌生某些想法并直接受到启迪,那么我们将面临非常严重的威胁,它会在唯美的道路上越走越远,演变成为了艺术而艺术……”。
这次,大家就跟着笔者进行一次生活之旅,一定让你大开眼界,透过事物的表象,总能挖掘出令人叹为观止的数学思想,帮助我们走出思维上的迷雾,你会碰到一系列有趣的话题,从中你会对大数原理、期望理论、精准预测、统计检验、相关理论等进一步加深认识,当然,解释的是否正确,读者就自己判断吧。
Part 1
回归法则
原理
生活中随时间变化起伏变化的任何东西,几乎都会受到回归效应的影响,走向平庸是最终归宿,以抛硬币为例,随着实验不断重复,正反的实验结果往往会趋于稳定,并接近一个固定的平均值,这个大数定律似乎在印证这一点,身边有无数的例子,不管我们承不承认。
企业的宿命
西克里斯特在《平庸状态在商业活动中的胜利》提到,在竞争激烈的商业环境行为之中,
平庸已成为常态,在自由市场,对于数千家公司的研究表明了这一点,它对各个领域的企业进行分类,谨慎的区分成功企业(高收入、低开支)与经营不善的低效企业,其研究了120家服装店,根据1916年的营收开支给这些服装店排序,然后把他们分成6个群,即六分相,每个六分相包含20家服装店,西克里斯特认为,排在第一个六分相的那些服装店拥有市场领先的商业技能,所以它会进一步发挥发展,扩大优势,但是,他发现情况恰恰相反,到1922年,名列前茅的服装店已经丧失了大部分优势,它们的经营状况虽然优于绝大多数普通服装店,但已经不再遥遥领先。然而,排名靠后的服装店却发生了相反的变化,它们的业绩有所提高,正在不断接近平均水平,仅仅6年时间,曾经把第一个六分相中的那些服装店推到市场最前列的优势就丧失了,平庸状态取得了胜利。
西克里斯特发现,所有行业的情况都类似,无论他采用哪种衡量体系,都会得出相同的结果,随着时间的推移,那些业绩优秀的企业逐渐变得“泯然众人矣”。那么什么力量把卓越的企业变得平庸?西克里斯特认为找到了答案:竞争的本质就是打压成功企业,而扶持能力较弱的企业。西克里斯特指出:
"贸易准入没有任何限制,再加上竞争持续不断,平庸状态将成为永恒现象。新创建公司相对来说“能力不足”,至少经验不足,如果某些新公司取得了成功,它们就要面对市场竞争。但是,在哪些不择手段、不明智、信息不透明以及欠考虑的经营方式面前,卓越的判断力、促销意识与诚信经营根本没用武之地,其结果必然是零售业人满为患、店铺规模小且效率低下、营业额不高、开支相对较大、利润微薄、只要所有人都可以进入自由市场“自由”的竞争,优势与劣势就不会长久地存在,平庸会成为常态,一般智力水平的经营者会占大多数,他们的经营手段也会变成主流。"
这个与现代主流观点不同,一般认为,自由市场竞争是一把手术刀,淘汰竞争力不强的企业,而西克里斯特的观点相反。
类比于我们现在学校分班,为什么要分成好班和差班,因为大家都恐慌自己的孩子走向平庸,“年龄、心智与教育水平各异的学生挤在一间教室里上课,其结果必然是次序混乱、学习积极性受挫、学习效率低下。”我们希望孩子不要输在起跑线上,不就是希望尽量脱离自由松散的环境,对抗孩子走向平庸?自由市场竞争必然导致企业走向平庸,与其何其相似。
去读一下吴军的《浪潮之巅》,多少曾经辉煌的IT企业逐步黯淡,摆脱不了这个宿命,再遥想现在的互联网企业,多少年后,有几个能继续辉煌。
遗传的基因
如果企业不足证,就再看看生物学吧。姚明的孩子你觉得会比姚明高吗,大多人都认为不会,为什么?高尔顿在《自然的遗传》一书中指出:“我认为,从整体情况看,成年子女的身高与他们的父母相比更加趋于平均水平。虽然这个观点乍一看似乎非常奇怪,但是从理论上讲述这是一个必然的事实,而且观察结果也清楚地证明它是正确的。
日常生活的经验证实了他的这个推断。伟大的作曲家、科学家或者政治领导人的孩子往往在相同领域有突出的表现,但是很少能赶超其父母的杰出程度,也就是说,优质的特质不会持续存在,随着时间的推移,平庸这位不速之客会悄然登场。
高尔顿认为人的身高是由遗传因素和外部因素共同决定的,外部因素可能包括环境、幼年的健康状况或者纯粹是运气,比如笔者很矮,但我父亲却有1.75米,也许很大一部分原因是笔者小时候饮食,运动的问题,或许是遗传给我的基因出现了一点随机问题,但我相信,我的孩子肯定比我高,因为始终要回归平均。
事实上,无论是似乎有效果的减肥、当红的明星、热门的作家、状态极佳的运动员、牛逼的科学家等,在吸引你眼球的同时,也大多逐步回归平庸,卓越始终是偶然事件,甚至运气占到主导地位,因此,诸如周杰伦、科比能够持续红好多年的,是付出了难以想象的代价和具备一定的运气,昙花一现是常态,因此不要嘲笑一支歌说唱10年的明星了。
Part 2
期望理论
原理
期望是统计学中的一个概念,我举个例子你就懂了, 假定我认为某条狗赢得比赛的概率为10%,并且押了10元的赌注,如果这条狗赢了,我就会得到100元,如果这条狗输了,我就什么也得不到,那么,赌注的期望值就是:10%*100元+90%*0元=10元,我当然不会得到这样的结果,实际上赌注的期望值衡量的是我在多条狗身上多次下这样的赌注时平均获取的价值。假设我下了1000次10元的赌注,我很可能有100次押中,每次赚取100元,总共得到10000元。因此,我下的1000注,平均每注的收益是10元,从长远看,损益会取得平衡。
别玩彩票了
笔者没精力去梳理现在体彩啥的概率和期望,因此给个例子,大家有兴趣,可以自己去算算你买彩票的期望收益,绝对震撼。
下面向大家介绍美国强力球的彩票案例,如何计算一张售价为2元的彩票的期望值,如果你购买了一张彩票,你就有:
1/175000000的概率赢取1亿元的累计奖金
1/5000000的概率赢取100万元的奖金
1/650000的概率赢取1万元的奖金
1/19000的概率赢取100元的奖金
1/12000的概率赢取另一个100元的奖金
1/700的概率赢取7元的奖金1/360的概率赢取另一个7元的奖金
1/175000000的概率赢取4元的奖金
1/175000000的概率赢取另一个4元的奖金
因此,彩票的期望值为0.94元,也就是说,这张彩票根本不值2元。通过计算,可以知道,假如累计奖金达到2.85亿元,期望值就可以达到2元,那么我们该不该买呢?
实际大家都知道,大奖只有一个,如果2个人中,他们要平分奖金,假如你的竞争对手有7.5亿人次,一个人独得累积奖金的可能性所有多大呢?,需要满足两个条件:第一,必须猜中全部6个号码;第二,其他人都没猜中。单个玩家中不了的概率为174999999/175000000,两个人中不了大奖的概率是99.9999994%,因此,建议你和你的小伙伴就不要去买彩票了。
那么,7.5亿人中不了大奖的概率是多少呢,(174999999/175000000)的750000000次方,约等于0.651,也就是说,其中至少有一个人中奖的概率为35%。
如果你希望在彩票上有所斩获,最佳策略如下:
别玩彩票
如果一定要玩,也要等到累积奖金非常高的时候再买
如果奖金非常高且你准备购买,那么尽可能降低与其它人分享大奖的概率;选择其它玩家不会选择的号码;不要选择你的生日数字;不要选过以前中过奖的号码组合;不要选择有任何对他人也有意义的组合……
最后,如果某个彩票中心在彩票规则设计上漫不经心,被你发现期望值超过了投资,就大力买进吧,买的越多,你就越赚,如果有可能,就全买了吧。
误过飞机是好事
1982年的诺贝尔经济学奖得主乔治.施蒂格勒说过:”如果你从来没有误过飞机,那只能说明你浪费在机场的时间太多“。尽管说法非常奇怪,但期望值表明他是对的,假如经常坐飞机的人,有三种方案:
方案1:提前2小时到达机场,误机概率为2%。
方案2:提前1.5小时到达机场,误机概率为5%。
方案3:提前1小时到达机场,误机概率为15%。
误机造成的损失在很大程度上取决于当时的情境,我们很难衡量和量化,这里打个比方,假设在家一个小时的效用为一个效用度,那么提前2个小时到机场的成本就是2个效用度,而提前1个小时的成本仅为1个效用度,假如我们认为误机的成本等同于浪费6个小时,成本就是6个效用度。用效用度后,我们可以计算出上述三个方案的期望值。
方案1:-2+2%*(-6)=-2.12效用度
方案2:-1.5+5%*(-6)=-1.8个效用度
方案3:-1+15%*(-6)=-1.9个效用度
平均来看,方案2的损失最小。事实上,我们可以用拉弗曲线来表示机场等候的时间与期望效用之间的关系。施蒂格勒说,我们应该增加误机次数以节约效用度,这种计算带有主观性,但道理正确。
施蒂格勒的论断适用于各类问题,以政府浪费为例,每个月我们都看到报道,要么政府工作人员钻了制度空子为自己牟取退休金,要么某位市政工程的承包商虚报价格没有受到惩罚,为什么我们总感觉听任这类事件持续发生呢?答案很简单:与提前赶到机场一样,杜绝浪费行为也要付出代价,履行义务与保持警惕都是有意义的行为,但是杜绝所有的浪费行为,与把误机概率从非常低降低到零一样,其成本超过收益。
Part 3
精准预测
原理
概率是一门科学,但科学也会被用来误导,在用概率准确预测每件事发生,假如你不了解事情的情景,就不要轻易相信它,披着科学的外衣骗人,往往大多数时候让人无法分辨。
不要相信股票经纪人
给大家讲一个故事,一天,一位股票经纪人主动给你发来一份行业资讯,透露了某只股票将要大涨的内部消息,一周后,果然预言应验了,这只股票真的涨了,第二周,你又收到一期行业资讯,这一次,这位经纪人认为某只股票会跌,结果,这只股票真的跌了,10周过去了,这份神秘的行业资讯每期都有新预测,而且它们全都应验了。你信不信?
按照概率,如果不是专业人士,每次预测准确的概率为50%,那10次都正确的概率为1024分之一。那么,你是不是要跟着这位专业人士去投资呢?真相是这样的:
这位经纪人每周发出10240份行业资讯,1周后,应该有10个人左右得到的预测结果都是正确的,好了,10个人就成为这个经纪人的客户,然后,从第十一周开始,他们开始亏钱了,但谁也不知道为什么。同样,现在的基金满天飞,你是不是也中套了。让我告诉你,凡是说过去12个月里回报率达到XX%的那些热门基金,你最好去抵制它,或者你得知道它到底有几个客户?
你认为不可能发生的事情也往往能发生,但不要总是去相信他,英国统计学家费舍尔有一个著名的论断:“概率为‘百万分之一’的事件如果发生在我们身上,我们可能会感到非常吃惊,但是,无论我们有多么吃惊,这件事都肯定会发生,而且发生的概率不会超过其应有的范围”。
这次就到这里吧,后面会更精彩,敬请期待《大数据时代,你应该知道的生活真相(下)》,我们会谈谈药品检验造假、篮球中的手热效应、人人都是大胖子、单身汉约会法则、为什么高富帅总是很冷漠等有趣的话题。
如何访问?请关注"与数据同行" 微信公众号,点击历史文章菜单或者右上的按钮-查看历史消息
数学中的“罗辑思维”
阿里金融帝国的早晨:大数据金融的逆袭
互联网广告:大数据变现的颜值担当
数据说谎的艺术
数据分析师的自我修养
艰难的抉择,阿里“小前台、大中台”的解读
用心找书,大数据的思想书籍推荐
“数据化”与“差不多”先生,浅谈数据量化决策
从“男人比女人孝顺”和“百度医疗竞价”说起,大数据需要科学和正直的品格
看上去很美, 谈谈阿里云的大数据平台「数加」
DPI大数据之战,运营商的艰难抉择
浙江移动大数据平台践行之路(上)
浙江移动大数据平台践行之路(下)
重读《大数据时代》:关于大数据的再认识
天龙八步:传统企业大数据运营的一些思考
七剑下天山,谈谈我认识的精准营销
涅槃?高效报表开发人员的五件武器
普及、开放与平台:大数据价值运营之路(上)
普及、开放与平台:大数据价值运营之路(中)
普及、开放与平台:大数据价值运营之路(下)
六把武器?谈谈DT时代的大数据资产管理(上)
六把武器?谈谈DT时代的大数据资产管理(下)
邮箱:fuyp@zj.chinamobile.com