你被骗过吗?7种操纵数据的方式,第7种让无数人中招
图片来源:Shutterstock
数据统计和分析是每个科研人员都应具备的技能,希望本文能帮助初学者避免无意中犯错,并让你在看到故意扭曲的统计结果时,第一时间识破作假者的伎俩。
撰文 Winnifred Louis & Cassandra Chapman
翻译 杨晚钰
审校 夏烨
统计能够有效地呈现数据,便于我们理解周围世界中的模式。但如果凭直觉解释这些模式,结果通常会令人失望。以下是统计、概率和风险分析中常见的几种错误,以及避免这些错误的方法。
股市的很多日常波动都只是偶然现象,并没有任何意义;在民意调查中,某党领先的一两个百分点通常也只是数据噪声而已(在给定的数据样本或公式中,出现的难以解释的变化或随机性)。
为避免对这种数据波动的原因作出错误的推论,可以查看它们的“误差幅度”。差异如果在误差幅度内,则很可能无意义,这种变化很可能只是随机波动。
我们常会听到对两个群体差异的笼统概括,比方说女性更乐于抚育后代,而男性体格更强壮。这些结论通常受到刻板印象和民间说法的影响,却忽视了两个群体的相似之处,以及同一群体内部的差异。
如果随机挑选两个男性,他们的体能可能相差很大;如果随机挑选一男一女,他们抚育后代的表现也可能非常相近,男性的表现甚至会更明显。
要避免这样的错误,你可以查看两组的“效应量”(effect size)。它可以反映两组间平均数的差异。如果效应量小,说明两组相似度高。但即便效应量大,也可能是较大的组内差异导致的,因此不能断定两组间的所有个体都存在差异。
考察对象服从正态分布(也称“钟形曲线”)时,效应量的两端是有重要意义的。在正态分布下,大多数个体接近平均值,只有一小部分个体远高于或远低于平均水平。
这种情况出现时,组内的微小变化都会导致差异。这种差异对平均值几乎没有影响,但可能会完全改变极值的特征(见第二点)。
要避免这个错误,需要仔细考虑是否要研究极值。若是针对平均水平进行研究,通常不用在意组内的细微差异。但若非常关注极值,这些细微差异将会影响巨大。
当研究对象服从正态分布时(在钟形曲线上),极值处的差异比平均值附近更为明显(表现在分布曲线上为:极值处的重叠区域较少,而平均值附近有大部分重叠)
美国每年淹死在游泳池里的人数和尼古拉斯·凯奇(Nicolas Cage)出演的电影数存在相关性,你知道吗?
图片来源:tylervigen.com
如果你观察够仔细,就会发现这种有趣的模式和相关性,但这也仅仅是巧合而已。仅仅因为两件事同时发生变化,或者具有相似的变化趋势,并不能说明它们有关。
要避免这一错误,需要思考观察到的相关性在多大程度上是可靠的。这种相关性是一次性的,还是多次出现的?未来的相关性又能否预测?如果这种相关性只出现了一次,那它很有可能是随机的结果。
举例来说,假如失业和心理问题存在相关性,你很容易注意到其中“明显”的因果关系——心理问题会导致失业。但有时因果关系恰恰相反,比方说是失业诱发了心理问题。
要避免这一错误,可以在发现相关性时提醒自己思考反向因果关系。这种影响从相反方向推测可以成立吗?还是说两者相互作用,形成了一个环形反馈?
人们常常会忘记对可能的“第三因素”(也称外部因素)进行评估。某些情况下,两件事情的相关性是由第三因素引起的,它们实际上都是第三因素的结果。
举例来说,假设下饭店和更健康的心血管系统间存在相关性,这会让我们相信两者间存在某种因果关系。然而结果可能是,能经常下饭店的人社会地位更高,负担得起更好的医疗保健服务,而这种医疗保健服务才是他们心血管系统更健康的原因。
要避免这一错误,别忘了在发现相关性时考虑第三因素。找到事件 A 的可能的原因 B 时,反过来想一想,会不会是外部因素 C 导致了 B?C 会导致 A 和 B 同时发生吗?
在对图表的纵坐标进行缩放和标注时,会出现很多迷惑人的地方。纵坐标刻度应当将统计对象有意义的数据范围完整地呈现出来。但有时,制图者为了夸大细微差异和微弱的相关性,会缩小纵坐标的刻度范围。
从下图可以看出,当纵坐标刻度范围为0~100时,两个柱图看起来差不多高。但若将刻度范围设置为52.5~56.5,它们看起来就截然不同了。
要避免这一错误,可以注意观察坐标轴刻度。对于那些没有刻度的图表,更要持怀疑态度。
原文链接:
阅读更多
▽ 故事
· 独家 | 还原宇宙起源“诺奖级”论战,特邀学界大咖深度解读
▽ 论文推荐
· 北理工钙钛矿太阳能电池研究进展 | Advanced Materials 论文推荐
· 生命起源进展:模拟早期地球大气碰撞可产生所有4种 RNA 碱基 | PNAS 论文推荐
· 鸡毛上的纹路从哪儿来? | PLOS Genetics 论文推荐
▽ 论文导读
内容合作请联系
keyanquan@huanqiukexue.com