查看原文
其他

辛普森悖论与“人生的第三条路”

老喻的 孤独大脑 2022-05-09

概 述

有新闻说美国iPhone用户忠诚度没Android高,

但该国iPhone的占有率却是在上涨。

两个数据都是“真实”,原因何在?

辛普森悖论揭示了数据会说谎的秘密。

本文最后少不了来一碗实用主义的鸡汤,

扯了一下“怀才不遇”的统计学原理,

和逆向运用辛普森悖论的人生第三条路


意外吗?统计显示iPhone用户忠诚度没Android高。

据CIRP分享的最新统计数据,截至9月份的前12个月,(美国市场)Android用户的忠诚度(用户留存率)为92%,而iOS则是89%。

据了解,CIRP的季度统计以500名真实消费者为样本。

我好奇查了一下,CIRP公布了2017年Q4美国智能手机市场,iPhone的市场份额达39%,与2016年四季度的34%相比,同比增长了5%。

由上图我们也可以看到,自2017年底以来,iOS用户的忠诚度是持续上升的。

既然iPhone用户更不忠诚,投奔Android阵营的人不该更多吗?为何市场份额不降反升?

这里的确会有一个令人“疑惑”之处。

让我们简单算一下:

1、500个用户,按照最新市场份额,iPhone用户有195人,Android用户有305人;

2、Android用户的忠诚度(用户留存率)为92%,而iOS则是89%。所以叛逃率分别为8%和11%;

3、按此计算,Android用户叛逃了305*8%=24.4人,iPhone用户叛逃了195*11%=21.45人。

所以,真相是,尽管所谓“忠诚度”更低,但iPhone用户的净流入人数还是更多。


这让我想起了以前曾经写过的辛普森悖论。

斯坦福讲义里的例子:某大学历史系和地理系招生,共有13男13女报名。

历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。

历史系:1/5(男) < 2/8 (女)
地理系:6/8(男) < 4/5 (女)
合 计:7/13(男)> 6/13 (女)

上面的数据给出一个令人迷惑的结论:尽管每个系女生的录取率都更高,但整体算下来男生的录取率却更高。

1、每个系的女生的录取率却都高于男生录取率。

历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8);

2、整个学校统计,男生录取率(7/13)高于女生录取率(6/13)。

当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方

该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。

关于上题“录取率”,倒过来想容易很多,历史系女生被淘汰6人,男生被淘汰4人。地理系女生被淘汰1人,男生被淘汰2人。男生在基数较大的历史系申请人群中,绝对录取数更多,从而令整体淘汰率更低。

为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。

  • 关于基数差异所带来的相关思考,我在(请点击➡️)《财富取决于极少的大高潮,幸福取决于较多的小高潮》一文中,有所提及。

  • 另外一种基数差异所带来的认知陷阱,就是卡尼曼和特维尔斯基提出的“基础概率谬误”(Base Rate Fallacy)。我在此前的文章,多次探讨了这个使人困惑的问题:为什么人的直觉经常与贝叶斯公式计算的结果相悖?这是因为,人们在使用直觉的时候经常会忽略基础概率。(请点击➡️生命、宇宙以及任何事情的终极答案


《简单统计学》里写道:混杂因素常常出现在使用观测性数据的研究中,因为人们无法通过现实的方法使这些因素维持恒定。

所以,我们应该牢记:

一项研究的结论有可能受到混杂因素的干扰。

该书作者加里.史密斯说,辛普森悖论实际上是更早时候由两位统计学家发现的。

辛普森悖论指的是:

当聚合数据被分解时其中的模式发生逆转的现象。

该书还举了几个有趣的例子:

1、阿拉斯加航空公司在五个存在竞争的主要机场,拥有优于另一家航空公司的准点运行记录,但其总体准点记录则不如竞争对手,为什么?

因为阿拉斯加航空拥有许多飞往西雅图的航班,而西雅图的天气问题经常导致飞机延误 。

2、对于每个年龄群体,瑞典的女性死亡率都要低于哥斯达黎加,但瑞典拥有更高的女性总体死亡率,为什么?

因为瑞典拥有更多的老年女性 (老年人拥有相对较高的死亡率 ) 。

3、一项医学研究发现,一种手术对于小型和大型肾结石的治疗成功率均高于另一种手术,但其总体成功率却不如另一种手术,为什么 ?

因为它经常被用于治疗大型肾结石(大型肾结石的治疗成功率相对较低 ) 。

以上例子之所以存在辛普森悖论,是因为某种混杂因素对聚合数据产生了影响 。

更值得学习的是,加里.史密斯写道:这并不意味着分解数据永远优于聚合数据 。举例如下:

在下表中,对两个假想的棒球选手进行了比较,将数据分解成了单日和双日。例如 ,科里在双日的 1 0 0次击球中击出 2 0个安打 ,安打率为 2 0 / 1 0 0 = 0 . 2 0 0 。

在这些编造出来的数据中 ,两名选手恰巧在单日拥有更好的表现 ,科里恰巧在单日拥有更多的击球次数 。因此 ,虽然吉米在单双日都具有更高的安打率 ,但是整个赛季安打率更高的人是科里 。

根据这些数据 ,你认为谁是更好的击球手 ?

正确答案是:科里。

因为我们没有理由认为单双日是一个有意义的混杂因素 。这只是数据中的一种巧合而已 。

在此情况下,聚合数据可以更加准确地衡量谁是更好的击球手 。


下面介绍一个更“实战”的案例,这段内容来自“数数科技”(公众号:ThinkingData)。

这个例子其实是倒过来说辛普森悖论

总评中占优势的,在每个分组比较中反而都占劣势。

工作中的典型案例:

某产品的用户中有10000人使用Android设备、5000人使用iOS设备,整体的付费转化率应该是5%。细分发现其中IOS设备的转化率仅为4%,而Android设备则是5.5%。“聪明”的数据分析师得出结论:iOS平台的用户付费转化率低下,建议放弃IOS平台的研发。

一般来说,iOS平板的付费转化率比Android平板高出很多,而iOS手机的转化率也相对更好。这种情况下,设备类型就是复杂变量,如果数据是根据设备类型得到,那么其他的数据就可能被完全忽略。

接下来我们来对比这一组数据:

由此可见,Android设备转化率无论在平板端还是在手机端的转化率都小于iOS设备,这也跟我们的常规预期相符。

当计算全设备情况时,Android的转化比例为550/10000=5.5%,iOS的转化比例只有200/5000=4.0%。这也是题中“聪明”的数据分析师得出iOS版本应该下线的根源。

原因与应对策略:

误区产生的原因说起来也很简单,就在于将“值与量”两个维度的数据,归纳成了“值”一个维度的数据,并进行了合并。

(从上上图我们可以看到,基数较大的Android平板把“整体转化率”的数据带偏了。)

如果要避免“辛普森悖论”给我们带来的误区,就需要斟酌个别分组的权重,以一定的系数去消除因分组资料基数差异所造成的影响。而在实际转化例子中,就需要用如“ARPU”、“ARPPU”这样看似相似实际上有很大差异的指标来进行分割。

同样地,如果要更客观分析产品的运营情况,就需要设立更多角度去综合评判。还是拿上述的设备转化率为例,产品层考虑转化的前提会优先考虑分发量、用户量、运营思路、口碑等等。而往往为了实现最后的转化需要,需要更多前置目标做铺垫。

A/B测试中的注意点:

联想到产品运营的实践,一个常见的A/B测试误判例子是这样的:拿1%用户跑了一个重大版本,发现试验版本购买率比对照版本高,就说试验版本更好,我们应该发布试验版本。

而事实上,我们选取的试验组里往往会挑选那些乐于交流、热衷产品、又或者是付费率高粘性高的用户,把他们的数据与全体用户对比是不客观的。当最后发布试验版本时,反而可能降低用户体验,甚至造成用户留存和营收数据的双双下降。

收获与总结:

避免辛普森悖论的关键是要同时参考不同用户间的事实全貌。

第一,准确的用户分群在数据分析中是非常重要的,尤其是在免费产品当中,平均用户不仅不存在,而且是误导研发的因素之一,所以关键在于利用特征将用户进行合理划分。

第二,在一个具体的产品中,普适型的数据(如粗暴的对比IOS和Android总体情况)是没有多大参考意义的,一定要细分到具体设备、国家、获取渠道、消费能力等等再进行比对才有价值。

第三,斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。


我们认为数据科学家和分析师是客观的,但数据可能会撒谎,如西谚所言:“通往地狱的道路是用好意铺就的”。

亚马逊欧洲商业智能部门负责人、资深数据科学家KarolisUrbonas,研究了数据科学家们应该知道的三种常见的“谎言”。以下是引用他的观点:

1、平均无处不在的平均值

平均值这种过度使用的聚合度量造成了无处不在的谎言。无论何时使用平均指标–除非底层数据正常分布(这种状况很少出现)–平均值都无法反应现实的任何有用信息。当数据分布偏斜时,平均值将受到影响,没有任何意义。平均值不是一个强大度量工具,容易受到异常值与正态分布有偏差的影响。

2、将数据拟合为假设–证实性偏见

如果数据科学家不得不快速得到结果,他们不得不快速回答或者解决问题。这意味着他们会把发现的第一个杂散相关就当做答案。在这些情况下,数据科学家搜索证据以确认假设,即“为假设寻找数据”。

3、并不存在的模式

人类的大脑善于在混乱中发现模式或图案--有时,它们开始发现并不存在的模式。这是数据科学家的致命陷阱。

说到数据会说谎,最有欺骗性的的例子莫过于统计学中著名的辛普森悖论了。正如前面两段所提及的。


假如我们的工作与数据和统计无关,辛普森悖论有何意义呢?

(来自百度百科)辛普森悖论就像是欲比赛100场篮球以总胜率评价好坏,于是有人专找高手挑战20 场而胜1场,另外80场找平手挑战而胜40场,结果胜率41%,另一人则专挑高手挑战80场而胜8场,而剩下20场平手打个全胜,结果胜率为28%,比 41%小很多,但仔细观察挑战对象,后者明显较有实力。

量与质是不等价的,无奈的是量比质来得容易量测,所以人们总是习惯用量来评定好坏,而此数据却不是重要的。

除了质与量的迷思之外,辛普森悖论的另外一个启示是:

如果我们在人生的抉择上选择了一条比较难走的路,就得要有可能不被赏识的领悟,所以这算是怀才不遇这个成语在统计学上的诠释。

关于道路难易的选择,有三种人生路线:

1、较难的道路。例如爱因斯坦,他说,科学研究好像钻木板,有人喜欢钻薄的,而我喜欢钻厚的。

类似的职业有科学家、首富、体育冠军、明星基金经理、超级巨星,等等。

这类道路,获胜概率极低,付出代价极大。也容易落入“怀才不遇”的境地。

当然,在一个富足的、有安全感的社会里,会有更多的人选择这条路。期待我们亦如是。

此谓:Think big!

2、较容易的道路。平凡之路,是你我普通人主动、或者被动的选择。过过日子,陪好家人,自得其乐,不危害社会,也没啥不好。

比较是万恶之源,这条道路上的人的绝大多数苦恼,来自与第一条道路人士的比较。

3、短期容易长期较难的道路。这种道路眼下看起来并不难,人人可以走,但最终坚持下来的却极少。

巴菲特在1989年给股东的信里写道:

我们之所以能够获得现在这样的成功,是因为我们总是专注于发现那些一英尺高的,我们能够跨越的障碍,而不是因为我们获得了什么能够一举越过七英尺的能力。

虽然说起来似乎有点不公平,但是无论在经营还是投资当中,往往都是坚持那些简单和显而易见的东西比解决难题更赚钱。

如同上面的“辛普森悖论”里提及的篮球比赛,长期投资这类事,是可以绕开“专挑高手挑战”之路的。

在某种意义上,价值投资,长线思维,其实是逆向运用了“辛普森悖论”,找到高确定性的小目标,看起来“分组比较”中没什么优势,但利用时间的魔力,最终实现了总体统计上的最高回报。

选择较容易的“一英尺高的横杆”,去找平手挑战篮球,并非逃避难题,专挑软柿子捏,而是为了实现可重复、可持续的事情。

只有在更少的、更重要的变量分析上持续做到最好,才是提高整体投资回报确定性与大概率的最简单、最朴素的方法。

此谓:Think  long!

最终,正确的Long,都将变成Big。


最后

第三条道路,其实是前两条道路的混合。其短期看起来是第二条路,长期看起来是第一条路。

对比“较难的道路”,理论上这条路普通人也有指望。在这条道路上,要取得非凡的成果,没有必要非得做非凡的事情

但,反之,仅靠平庸的叠加,不管你多么拼命、坚持,也未必能够取得非凡的成果。

这其中需要天赋、勇气、努力、热爱、意志、运气和梦想。

深究下去,第二条路上的人,就条件而言与第三条路上的人并无二致。对于绝大多数资质平庸的世人,第二条路是生活的常态,第三条路是生活的希望。辛普森悖论是两条路之间神秘链接的一种。

关于这“短期容易、长期较难的道路”,上帝是慈悲的,令这路可期盼;上帝是智慧的,让这路不简单。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存