查看原文
其他

你被骗过吗? 7种操纵数据的方式,第7种让无数人中招

The following article is from 科研圈 Author 科研圈


推荐

作者:Winnifred Louis & Cassandra Chapman

来源:科研圈(ID:keyanquan)

编辑:

加一


社长说

某某大学年度调查报告:本校计算机系的女同学,50%嫁给了本校男性老师,消息引起巨大风波...

经证实,此消息为属实,该系只有2名女生,其中1名与老师相恋结婚...


●  

你被骗过吗?

7种操纵数据的方式,第7种让无数人中招

数据统计和分析是每个科研人员都应具备的技能,希望本文能帮助初学者避免无意中犯错,并让你在看到故意扭曲的统计结果时,第一时间识破作假者的伎俩。


图片来源:Shutterstock


统计能够有效地呈现数据,便于我们理解周围世界中的模式。但如果凭直觉解释这些模式,结果通常会令人失望。以下是统计、概率和风险分析中常见的几种错误,以及避免这些错误的方法。


 无意义的差异


股市的很多日常波动都只是偶然现象,并没有任何意义;在民意调查中,某党领先的一两个百分点通常也只是数据噪声而已(在给定的数据样本或公式中,出现的难以解释的变化或随机性)。



为避免对这种数据波动的原因作出错误的推论,可以查看它们的“误差幅度”。差异如果在误差幅度内,则很可能无意义,这种变化很可能只是随机波动。


来自现实印象的误会


我们常会听到对两个群体差异的笼统概括,比方说女性更乐于抚育后代,而男性体格更强壮。这些结论通常受到刻板印象和民间说法的影响,却忽视了两个群体的相似之处,以及同一群体内部的差异。


如果随机挑选两个男性,他们的体能可能相差很大;如果随机挑选一男一女,他们抚育后代的表现也可能非常相近,男性的表现甚至会更明显。


要避免这样的错误,你可以查看两组的“效应量”(effect size)。它可以反映两组间平均数的差异。如果效应量小,说明两组相似度高。但即便效应量大,也可能是较大的组内差异导致的,因此不能断定两组间的所有个体都存在差异。


忽略极值


考察对象服从正态分布(也称“钟形曲线”)时,效应量的两端是有重要意义的。在正态分布下,大多数个体接近平均值,只有一小部分个体远高于或远低于平均水平。


这种情况出现时,组内的微小变化都会导致差异。这种差异对平均值几乎没有影响,但可能会完全改变极值的特征(见第二点)。


要避免这个错误,需要仔细考虑是否要研究极值。若是针对平均水平进行研究,通常不用在意组内的细微差异。但若非常关注极值,这些细微差异将会影响巨大。



当研究对象服从正态分布时(在钟形曲线上),极值处的差异比平均值附近更为明显(表现在分布曲线上为:极值处的重叠区域较少,而平均值附近有大部分重叠)


相信巧合


美国每年淹死在游泳池里的人数和尼古拉斯·凯奇(Nicolas Cage)出演的电影数存在相关性,你知道吗?


图片来源:tylervigen.com


如果你观察够仔细,就会发现这种有趣的模式和相关性,但这也仅仅是巧合而已。仅仅因为两件事同时发生变化,或者具有相似的变化趋势,并不能说明它们有关。


要避免这一错误,需要思考观察到的相关性在多大程度上是可靠的。这种相关性是一次性的,还是多次出现的?未来的相关性又能否预测?如果这种相关性只出现了一次,那它很有可能是随机的结果。


因果倒置


举例来说,假如失业和心理问题存在相关性,你很容易注意到其中“明显”的因果关系——心理问题会导致失业。但有时因果关系恰恰相反,比方说是失业诱发了心理问题。


要避免这一错误,可以在发现相关性时提醒自己思考反向因果关系。这种影响从相反方向推测可以成立吗?还是说两者相互作用,形成了一个环形反馈?


第三种因素


人们常常会忘记对可能的“第三因素”(也称外部因素)进行评估。某些情况下,两件事情的相关性是由第三因素引起的,它们实际上都是第三因素的结果。


举例来说,假设下饭店和更健康的心血管系统间存在相关性,这会让我们相信两者间存在某种因果关系。然而结果可能是,能经常下饭店的人社会地位更高,负担得起更好的医疗保健服务,而这种医疗保健服务才是他们心血管系统更健康的原因。


要避免这一错误,别忘了在发现相关性时考虑第三因素。找到事件 A 的可能的原因 B 时,反过来想一想,会不会是外部因素 C 导致了 B?C 会导致 A 和 B 同时发生吗?


修改坐标轴


在对图表的纵坐标进行缩放和标注时,会出现很多迷惑人的地方。纵坐标刻度应当将统计对象有意义的数据范围完整地呈现出来。但有时,制图者为了夸大细微差异和微弱的相关性,会缩小纵坐标的刻度范围。


从下图可以看出,当纵坐标刻度范围为0~100时,两个柱图看起来差不多高。但若将刻度范围设置为52.5~56.5,它们看起来就截然不同了。



要避免这一错误,可以注意观察坐标轴刻度。对于那些没有刻度的图表,更要持怀疑态度。


撰文 Winnifred Louis & Cassandra Chapman

翻译 杨晚钰

审校 夏烨


●  

1

社长问:

你见识过什么数据伎俩吗?

评论区等你的故事~


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存