查看原文
其他

统计印象丨真实的数据也“说谎”

小数81 海曙统计 2022-05-16

前几天,

小数看到这样一组对比图片,

学到了一条经验,

就是看照片不能只看局部......

什么?

你说这不过是巧合?

好,那么来看看这一组照片,

只看这张脸的上半部分,

是不是一张电竞文男主的脸!

铛铛铛-铛,

再加上下半部分看看......

好吧,打扰了!

再来看看这双手,

是不是指节分明?

镜头转换,没错,同一个人!

近距离欣赏下这美腿,

这纤细,很多女孩子都羡慕不来的!

这一次,真的是雷佳音本人的腿!

我们再换个角度看问题!

如果看到这手会想牵吗?

肥肥手,是不是有些迟疑?

如果告诉你这是黄轩的手......

你是不是想牵了??

还有这双手

是不是有点犹豫?

如果告诉你这是邓伦的手......

还有什么好犹豫的吗?

知道你们肯定没有!

这个照片的故事告诉我们

局部 ≠ 整体

你以为只有“照骗”可以骗人?

其实真实的数据也会“说谎”哦。


是谋杀之都



还是宁静小镇

在做两个事物的结构比较时,我们常用百分比来对比。比如,比较城市产业结构时,常使用服务业增加值占GDP的比重这一百分比指标。但如果我们将总体相差悬殊的两个事物用百分比进行比较时,就有可能被数据误导。

韦尔弗里特是马萨诸塞州的一座小镇,以牡蛎、艺术家和宁静著称。不过,波士顿一份报纸报道称,韦尔弗里特当年的谋杀率是马萨诸塞州之最,每10万名居民中就有40起谋杀案——这个数字是波士顿的两倍多,后者每10万名居民中只有17起谋杀案。

这篇报道令人难以置信。一名记者对这一数据谜案进行了调查,发现所有韦尔弗里特的警察都没有听说过本镇有发生过谋杀案,包括一位在当地生活了50年的警察。

原来,一名被控在30公里外犯下谋杀案的男子在韦尔弗里特警察局自首,这个案件被统计成了发生在韦尔弗里特的谋杀案。由于韦尔弗里特只有2491名居民,所以一项被错误统计的案件导致了“每十万名居民中的40起谋杀案”这一惊人数据的出炉。相比之下,波士顿发生了98起谋杀案,相当于每十万名居民中发生17起谋杀案。

这个谋杀数据之谜告诉我们,当基数很小时,一个小小的统计意外就能产生的巨大影响。 在波士顿,一项错误记录的谋杀案对谋杀率的影响很小。但是在韦尔弗里特,一项错误记录的谋杀案可以将一个以牡蛎和艺术家著称的小村庄与底特律画上等号。 

对于基数较小的情形,比较妥当的处理方法是观察历年的数据,以获得更大的基数。在过去50年时间里,韦尔弗里特只有一起被错误记录的谋杀案,或者说没有谋杀案——两种说法都足以证明,韦尔弗里特的确是一个和平的小镇。

一年数据计算的谋杀率可以说是以50年数据计算的谋杀率的一个局部,对于基数特别小的情况下,不加推敲的使用局部数据的确会误导人们的判断。


不同的起点



完全不同的发展趋势

在一次例行会议上,一家互联网公司的分析团队向总裁展示了收入图像(图1)。 图中的数据是公司过去7个季度的收入。 老实说,这张图非常无聊。

图1

总裁看了一会儿,说:“ 为什么这张图的收入这么平坦,而我上周向董事会展示的那张图的收入那么糟糕呢?” 分析团队感到很吃惊。 于是,总裁拿出一张图(图2)分发给大家。当分析人员看到这张图时,他们立刻笑了起来,因为这张图的纵轴上并没有零点。

图2

总裁没有笑。 她说,董事会一直在盘问她,让她解释为何收入下降得如此剧烈。 她一次又一次地辩解说:“ 不是这样的!” 董事会成员则一次又一次地将手指向这张显示收入崩塌的图表。

图1和图2 使用了完全相同的数据,但是看起来完全不一样。 两者的差异不过是,图1的纵轴包含零点,图2的纵轴则不含零点而已。 可以说,图2是截取了图1的局部,虽然方便我们立刻判断出收入达到峰值的时间,但是显然放大了收入波动的程度,而图1则准确地向我们传达了“最近有轻微下探”这一信息,所以使用局部数据还需要观察大趋势。


两份城区百强排名



哪一份更靠谱

前段时间,一份全国百强县市区榜单——2018年中国中小城市科学发展指数研究报告发布了。该榜单是中小城市发展战略研究院、中城国研智库等机构构建的中国中小城市科学发展指数系统工程,已经连续发布了14年。

榜单发布后,各方官方发布平台纷纷撰文加以转载介绍。

在这份百强区的榜单中,宁波市的鄞州区列第4位、镇海区第51位、江北区第56位、奉化区第73位。宁波市有四个城区跻身全国百强,着实让宁波人激动不已~~~

榜单一扩散,马上有一些朋友发现少了点什么?——这份百强榜单中竟然没有宁波市经济总量第二的北仑区第四的海曙区,毕竟这份榜单评价的是综合实力,虽然评价指标体系不是唯GDP论,但是两个GDP千亿级的中心城区同时落榜,有点出乎意料。

为了解开心中的疑惑,小数搜索到了同时期另一份百强区榜单——“迪赛百强区(2018)”,用于比较分析。

在这份榜单中,宁波鄞州区列全国第24位,海曙区列47位,镇海区列91位,其他城区没有入选。

2018赛迪中国百强区榜单

对比这两份榜单,小数发现一个有意思的现象:

在第一份榜单中排名第1的佛山顺德区,在迪赛榜单中位列第5位;

第一份榜单中排名第2的佛山南海区,在迪赛榜单中位列第11位;

在第一份榜单中排名第3的常州武进区,在迪赛榜单中位列第14位;

在第一份榜单中排名第4的宁波鄞州区,在迪赛榜单中位列第24位;

…………

仿佛第一份榜单是迪赛榜单的抽样版,难道,第一份榜单是部分城区参与评价的局部榜单?

经过查证,第一份榜单在《人民日报》第12版(广告版)发布时,有一份榜单说明:

这份对研究对象的说明表明:这次评价的对象并不是全部的县市区。比如,全国百强区的评价对象仅是“相对独立发展”的692个市辖区,而同时期的迪赛顾问发布的榜单中,评价对象为968个地级市市辖区。

这样一份近30%城区缺席的全国百强区综合评价榜单,该如何看待呢?

小数觉得,至少这份榜单应该改为“全国相对独立发展百强区”,少了“相对独立发展”这个定语,这份榜单就混淆了局部与整体之间的关系,也就不再真实了。

不可否认,地域之间排名、对比一直很能吸引眼球,毕竟谁都希望自己的家乡或者自己所在的城区出类拔萃,以证明自己的幸运或者是眼光。这与父母晒娃的心态没什么两样。但小数建议大家对于流传于媒体、网络的各类榜单不必特别在意,因为,金杯银杯不如老百姓的口碑,不是吗?


海曙很美,欢迎你来!

       这三个小故事,展示了真实的数据也会“说谎”的几种表现。所以,今后在分析使用数据时,一定要小心谨慎的检查:比较的对象之间的总量是否相当?绘制图表的数据起点是否一致?综合评价、聚类分析时范围是否全覆盖?等等。这些方面的偏差,都会导致我们得出错误的判断,需要我们小心予以克服,方能使用统计工具找出真正的真实。

学点简单的统计基础知识,能够帮助我们远离错误,识别出其他人或者我们自己说的不靠谱的观点。其他人用数据欺骗我们,我们也经常用数据欺骗自己。

——加里.史密斯 《简单统计学》

往期精彩回顾:

数据发布 | 1-9月海曙区主要经济指标(一)

国家统计局新闻发言人就2018年前三季度国民经济运行情况答记者问

改革开放40年丨 回家的路,满载回忆与希望……

“宁波装”,给你不一样的体验(文末有福利)

垃圾分类也能撩妹?赶紧来感受一下

如果觉得不错就随手分享出去,并给小编点个赞哦!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存