查看原文
其他

了解数字背后的真相,做出更明智决策

warfalcon 2022-11-02



在这个信息过载,算法为主的时代,如何不被海量消息所淹没,通过多种方式来突破信息茧房,进行更多维的思考和判断,分清真相与谣言。



大家在看这篇文章的时候,正在进行直播,可以来视频号:生活黑客 观看一下。


直播大纲:

  • 多等一会,避免先入为主做判断

  • 从常识出发

  • 通过RSS来晒选信息

  • 通过公共资料库浏览信息

  • 从通识教育来了解世界

  • 在生活使用多样性来丰富认知

    



直播时间:3月16日周三晚上8:15分


主题:如何分辨真相与谣言?


直播地址:视频号 读书方法  ,另一个视频号: 生活黑客 做为备用。





顺便推荐一直跟今天直播话题有关的书籍《数据的真相》作者: 约翰·H·约翰逊 / 迈克·格鲁克



普通人一天大约要接收30G的数据,但大部分人不知道如何正确地解读这些数据。MIT数据学专家在本书中讲述了如何破译每天接触到的数据,将复杂的问题变得更简单和直观。





了解你所看到的数字信息




1.明白基于错误样本得出结论将会导致的后果。样本是否能够代表总体?例如,那些接受问卷调查的人是谁?所选的数据是否基于你想要研究的关键结果,研究这个“样本”是如何影响分析结果的?


2.问自己:哪些数据能够最为恰当地回答所提出的问题?比如,“挑战者号”调查小组一度只研究O型环出问题的发射任务,因为研究结果显示这些事故在一定气温范围内时有发生,所以也许这个数据并不是能够解决问题的上佳之选。如果调查组把注意力集中在所有发射任务上,他们可能会发现O型环问题在温度较低的情况下更为频发。如果要回答一个有关人类行为的问题,你想了解哪些类型的人?或者,换个说法,受访者的答案是如何影响特定分析结果的?


3.在报纸上读到一则新发现或新研究报道时,问你自己:这个结论是研究了哪些数据得出的?受访者是谁,或者这项研究是基于何人开展的?当你看到“在一个非科学的调查中……”或“领先的”_________,等诸如此类的话,你可以将其视为危险信号。你可以问自己5岁的孩子下一任总统是谁,然后将这个“非科学的调查”结果发表。“领先的”这类词听起来不错,但很难量化(你可能会问“领先于什么?”)。


4.留心自陈式数据 ——问人们有关他们自己的职业,看什么电视节目,或行为如何等问题与观察并记录人们行为相比会简单很多,但自陈式数据并非总是最准确的。当你看到那些由研究对象提供的数据时,记住上面的话。


5.最后要记住,在很多统计工作中,对数据的一部分抽样或对数据的总体抽样并无好坏之分。抽样是一个强有力的工具,能让我们在研究总体不可行(或并不推荐这么去做)的时候了解到情况。你不要被误导,认为一定要研究所有数据才行。事实上,给数据抽取一个样本会非常有用。在有些情况下,研究数据的子集所得出结论的确会非常有意义而且非常合适。在其他的一些情况下,我们所研究的结论是由我们分析特定数据组所得出的。所以研究数据的一部分还是全部并不重要,解读结果的方式以及结果的意义才是关键所在。






如何成熟对待数据总和、平均值、离群值






有没有做好准备使用数据总和、平均值、离群值来做更好的决定?这儿有5件事,你现在就能做:


第一,了解什么是概括统计 ,什么不是。很多人觉得因为概括统计能够反映一组数据,那它就能够反映出数据的一切。其实并非如此。概括统计仅仅是一个标准,仅仅从一个维度衡量数据组。就像我们看到的红色州和蓝色州的例子,概括统计会掩盖基本数据的不同点。


第二,理解所呈现的是哪一种平均——是平均值,是中位数,还是众数。大多数人听到了“平均”两字,会认为讲的是平均值,但并非总是这样。有三种平均,而且各不相同。其中有一些更容易产生偏离。比如,基于平均值,世界上平均每人有少于两条手臂。(大多数人有两条手臂,但有些人只有一条,有些人没有手臂,因此平均值就被拉下来了,假定只有非常少的人有超过两条手臂。)当有人说到了平均,你要知道自己讨论的到底是哪个概念。


第三,试问“什么的平均数?” 因为平均值里兼有多个数据值,每个数据值都会影响到最终结果。这便是你可以运用所有在这本书中学习到知识的时候。数据是否体现了样本?你是在看平均数的平均数吗,每一个平均数是否都有自己的特性?除了这些问题,还有很多问题需要问。


第四,看是否所有数据都被平等对待。有些平均数只是加权平均数,在这种平均数的计算过程中,有些数据被赋予了更大的权重。比如,有些选举计票使用了加权取平均数,以此来反映到达投票年龄的成年人的真实人数。如果使用正确的话,加权取平均数是一个可行的统计学工具,但是你必须知道加权是否存在以及加权的方式,从而让自己成为成熟的数据接收者。

第五,辨别离群值,并理解离群值给平均数带来的影响。有些离群值是数据组中完全有效的组成部分。其他时候,应当排除极端数值以得出你所问问题的正确答案。常言道,一粒老鼠屎坏了一锅粥。并非每个离群值都是老鼠屎——但你必须注意,离群值会使结论发生偏离。






如何成熟地应对关联性和因果性



现在,对关联性和因果性之间的差别有了较好的理解,我们在接收有关统计学关系的数据的时候,还有几点要谨记于心:


1.问你自己,这篇新发表的文章或研究展示了什么。文章中的确用了“因果”关系这个字眼了吗?不少时候,标题或文章中可能会暗示因果关系,但如果你深入研究,会发现大多数实际的研究只是在讨论某种关联性。


2.在理解统计学分析结果的时候,退一步,用常识思考一下 ——这样的关系从直觉看来对不对?为什么吃烤奶酪可以提高性生活质量?聪明人用苹果手机这种说法能不能说得通?尽管统计学常常可以得出出人意料的结论,但不要把一切孤立起来看待,不要抛弃自己的直觉。


3.如果你看到了两者之间的关系,问自己:会不会有其他的因素导致了我所观察到的结论?在理解两者关系的时候,是不是有其他确实非常重要的遗漏变量。

4.时刻当心反向因果关系。找到统计学上的关联性并不能表示事情就是按照那个顺序排列的。聪明人会晚睡吗?或者人们晚睡正是因为他们聪明?不要小看反馈循环——X影响了Y,Y同时又影响了X(如聪明人晚睡,而晚睡又给了人们更多时间让自己变得聪明,而人们变聪明了,又可以晚睡了……)


5.最后,对于科学家来说,证明因果关系也是一件非常需要技术含量的事。对于那些据称是因果关系,尤其可能存在潜在的遗漏变量的情况,要特别留心。







了解自己所看到的数据是否真的都有用。



仅因为自己被数据包围,并不表示你就要使用这些数据在生活中做决定。下面有5件你可以立即着手去做的事,以此了解自己所看到的数据是否真的都有用。


1.确定所看到的结果是否随机出现。作为一个成熟的数据接收者,常常需要在观察到的结果中排除那些随机出现的。你也许接触了5个喜欢吃汉堡的男性,但以这个样本来判断所有男性中有百分之几喜欢吃汉堡,这个样本可能就太小了。也许你遇到的这5个人,是世界上唯一喜欢吃汉堡的人群。在许多情况下,判断结果是否随机需要一个基线,以此来比较你所得出的结果。


2.要了解,许多研究发现其实是基于或然性的。一个具有“显著性差异”的研究发现,也仅仅表明结论有95%的可能性落在置信区间内。仔细研究P值可以让你了解结论有多少可能性并非仅仅是随机出现的——很多情况下我们会得出可以确信的结论,但要记住,我们只是在衡量或然性而已。


3.要知道,你在新闻标题中看到的数据常常是范围内的一个值。不论表述为误差范围(投票中的加/减)还是置信区间,研究发现通常只是一个范围内的估计值。如果一篇报纸上的文章说你最喜爱的候选人得票数为42%,那真实范围可能要加上或减去几个百分点。如果一份科学研究发现一种名字很好听的“益智”食品(包含鱼、浆果、绿色蔬菜)可能延缓阿尔茨海默病病情恶化的速度,置信区间能够提供其作用效果的范围。


4.哪怕得出了显著性差异的效应,也要看一下效应量。如果你在大洋里游泳,你可能会遭到鲨鱼攻击,但这种危险的概率很小。Discovery.com网站的一篇文章引用佛罗里达州大学国际鲨鱼袭击档案指出,实际上你“在海滩边溺水的概率是被鲨鱼袭击致死的概率的三倍”。你很容易因为最新发现有某种事物对你有害,或其他可能面对的危险而心神不宁——所以这就是为什么了解效应大小很重要的原因。


5.思考数据对你生活产生的影响。如果你生活在内布拉斯加州,从未计划出海,那你无须担心会被鲨鱼袭击,不论鲨鱼袭击人的概率有多大。(当然,除非你担心龙卷鲨)。[2] 如果你生活在非洲,你可能会更担心河马。根据盖茨基金会的说法,每年被河马袭击致死的人有数百人(与此相比,遭鲨鱼袭击致死的人数每年不超过12人)。[3] 仅仅因为某个研究发现具有统计影响——哪怕效应尺度很大,并不表示其对你每天生活会产生经济影响。






如何明智地接收被歪曲(或可能被歪曲)的数据


数据被歪曲或者曲解的方式不一而足,但是想要做一名明智的数据接收者,你可以从下面5件事做起。


1.碰到图表时,仔细观察x轴和y轴。简单调整比例、高度或单个(或者两个)数轴的其他方面来传达出完全不同的信息,这对有些人来说轻而易举。比例的起点终点在哪里?数字在增长还是在下跌?图表是否涵盖了所有相关数据?这些都是你可以问的问题。


2.留意语言表达。文字究竟表达了什么?若一家工厂称“最近”都没有事故发生,这意味着什么?由谁来界定什么才算“事故”?你用不着逢人就问,但是弄明白人们的言外之意常常和听人们口中的话同样重要


3.核实信息源。仅仅因为你在网上看过(从老板那里听过,或者在报纸上读到过,再或者看过电视报道……)并不意味着它真实可靠。地球虽然是圆的,但假如你相信地平说协会的说法,你就会对此不以为然。 



4.确保数据无误。正如《电讯报》(Telegraph)摘引咨询公司F1F9的报告所提到的,“几乎有1/5的大企业因为电子表格出错而蒙受财产损失” 。工作做完要仔细检查一遍,检查完毕后,再检查一遍。



5.正确解读数据。你买入的股票,真的是你想要买入的那只吗?你知道鸡蛋盒上保质期的真正含义吗?你会对分数、小数点、百分比之间的区别感到困惑吗?有时数据没有错,但是会因为人们的草率、无知等因素被误解。






如何识别经过筛选的数据?



如果筛选数据的情况发生在了你身上,你该如何看出其中端倪呢?你可以从以下5点做起。


1.不论何时,在观察或者使用数据的时候,阅读小字。在嘉宝这个例子当中,很多信息可以从注意事项和免责声明中搜集而来。细读注意事项、上下文及脚注。若引用了研究报告——特别是广告商引用了研究报告,你往往会发现大量的限定词,其中一些是经联邦贸易委员会及其他部门许可的。要做一名合格的数据接收者,请拿起放大镜,阅读附注细则。


2.思考一下,数据是否是以随意(或者非随意)的方式选取出来的 ——这种选取数据的方式,是否可能会让结果朝着某一个方向偏离。比如,频繁、明显、任意切换镜头的现象在体育广播网时有发生。无论何时听到播音员的声音,“过去19场比赛中……”或者“2002年以来”,他们就是在筛选数据了。使用特定时间点的数据难道事出有因?也许你仅仅是在谈论季后赛,或者分析总统大选,或者看看重大事情(像政策变化)发生之前(后)的前兆。但是你需要思考一下你所看到的数据是否经过了随意筛选,或者其筛选的方式(依照时间,等等)是否另有深意。


3.问问是否缺失了什么数据。在嘉宝例子中,我们看到有一大批完全不推荐婴儿食品的医生,还有一组儿科医生,不推荐任何特别品牌。这些小组都没有在嘉宝提出的“4/5”论断中体现。缺失的数据和呈现的数据同等重要。试想有一个杯子里盛了半杯水。乐观者会告诉你一半是满的;而悲观者则会告诉你一半是空的。两者都对——而且都对数据做了筛选。如果你想要做出更好的决定,就要掌握所有数据。


4.不要赋予任何数据超出其自身的意义。想开一些,不要被单个数字左右。它可能看似很有说服力,但是未必能准确地呈现出事情的全貌,因为它是根据经过筛选的数据所得出的。如果一名波士顿红袜队的球迷告诉自己的儿子,击球手贝比·鲁斯 [0] 创下了出局1330次的纪录,孩子可能会认为贝比是位差劲的运动员。


5.对数据的来源多打个问号常常大有裨益。随便读一本贸易组织编写的读物,其中必然充斥着称赞其成员企业的文章。(尽管也有例外——《华盛顿邮报》曾经报道过,“有一项得到奶酪行业赞助的研究,得出了奶酪有害健康的结论”。同往常一样,在你接收数据的时候,请思考一下数据的来源。


因此,下次你的老板说因为“上月销售额下滑”不能给你涨工资时,问问她过去一个季度、一年或者10年的销售额。


当你12岁的孩子因为“她所有的朋友都在看R级电影”而想看R级电影时,问问她数据组中是否涵盖了她的每一个朋友——还是仅仅局限于爸妈对这类事情比较无所谓的朋友呢。


还有如果你听到有人说“4/5的人……”,那么问问题的时候到了。






如何成为一个成熟的数据接收者




我们希望你们在日常生活中遇到数据时需要铭记的5个要点。


1.当你看到、听到数据时,要学会识别数据。一篇报纸上的文章、广播故事、来自供应商的电子邮件、孩子的成绩单、下周的销售额预测、地图等全部都是数据。不论你住在哪里,在做何事,你每天都可能被数据所围绕。


2.确保事实正确。许多数据问题只是一个错误导致的。或许电子表格中的公式用错了,或者关键数值的小数点放错了位置。也许一位博主无意间曲解了一项最新的科学研究。你首先应该做的一步是核实你看到的数据是否正确。


3.了解数据来源,以及展示这些数据的人是谁。在有些情况下,个人或者组织可能会有周密的计划,这意味着他们可能会调整数据(你也可以称之为筛选数据),使其符合他们要传达的信息。毕竟,你通常不会听到民主党总统候选人赞扬共和党人领导的倡议活动(反之亦然)。甚至在没有明显目的的情况下,你接收到的数据也有出入,以某种方式被搜集并传播——能够影响最终结果的所有因素近在眼前。


4.留意明显的数据陷阱。你很有可能会打开家乡的报纸(或者浏览网站),然后发现一则新闻,新闻中的数据仅仅证明了关联性,而字里行间却在暗示因果性。以我们的经验来看,正常情况下,你最有可能遇到的一些其他因素是什么?样本数量小、结果存在非显著性差异(或者存在显著性差异,不过带来的效应很小)、欺骗性平均值以及包括信息可视化在内的误导性可视图形。


5.要知道,正确解读数据能够帮助你做出更好的决定。——分析数据以解答关乎自身的问题。下一季度你公司的销售额将会有多高?关于致癌食品的最新研究是你应该担心的事情吗?买一栋避暑别墅,什么样的价格才算合理?


扩展阅读:



 100天行动读者反馈 





  现有付费课程  


① 打败拖延症:我是如何战胜拖延症的?


② 养成好习惯:不需要意志力的习惯养成法:100天行动


  关于warfalcon公众号  


①目前有2000+篇自我成长相关实用类文章

②4年进入有道云笔记最有价值公号top10

③6年占据印象笔记收藏服务总榜top1

④知乎同名,回答被100万+人收藏


文章搜索传送门

↓↓↓

加入一百天行动

↓↓↓

有很多小伙伴说找不到我们了,微信改版,公众号发布顺序被打乱,如果你没有星标,也很少点在看,那么你将不能第一时间看到我们的文章,或者是在两三天后才能收到。
如果你想第一时间看到我们的内容,将我们「设为星标」吧,在阅读文章时,也别忘了随手点「在看」,星标+在看,就可以增加你成为warfalcon常读用户的几率了:)
点击公众号「warfalcon」,按照以下操作就可以设置为「星标」啦~


喜欢记得点在看哦





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存