这本书列出十大法则来帮助读者理解统计数据,并运用大量生动、鲜活且知名的故事,辅以大量资料佐证,带大家深入充满虚假信息、不良研究和糟糕动机的世界,从中挖掘可贵的数据,让“用数据沟通”变得更可信,并教会大家正确运用统计数据,帮助个人、组织或政府部门做出更好的决策。
当我们遇到某个世界问题的统计数据,想着要不要在社交媒体上点赞转发,或者激烈驳斥时,停一下,先问自己这样一个问题:“我的情绪为何如此激动?我们这样做不仅仅是为了自己,还有一种社会责任在里面。我们已经看到社会压力在我们的观念和思考问题的方式方面的影响有多大。我们要慢慢下定论,学会先控制自己的情绪和抛开党派立场,只关注事实本身,这样我们不仅可以更清醒地思考问题,也为他人提供了正确的思考问题模式,即我们不是以某个政治派别的成员的立场,而是以持不偏不倚态度的个体身份思考和推理问题的。我想形成这样的习惯。我希望这也是你的愿望。情绪能左右人的思考,范•米格伦洞悉这样的人性。所以当解读统计数据时,专业知识和技术固然重要,但如果不给情绪这匹野马套上缰绳,任由它带着我们时
如果我们不知道统计数据,我们对世界现状的认知很可能大错特错。人们很容易被自己的双眼蒙蔽,以为看到的都是真相,事实并非如此。有些现象,即使得到了真实数据,我们也搞不懂其原因,但如果没有真实数据,恐怕连知道真相的机会都没有。然而,如果只看数据,我们就只能看到世界的一角。所以在看完数据表格之后,我们也可以抬起头来,带着好奇心去看去听去摸,去感受真实的世界。那么,我的第二条建议是,试着从两个角度看问题:蠕虫视角和鸟瞰视角。两个视角会给你展视一些不同的东西,这可能也成为你的难题:这两种景象敦真敦假?这样的疑问会让你踏上探究之旅。我们在后面会发现有时统计数据会误导我们。有时,我们自己的眼睛欺骗了我们;有时,一旦我们明白了事情的缘由,数字和眼晴所见的不符也就可以理解了。要做到这一点,通常需要我们问一些聪明的问题。
统计学家有时被人嘲笑为“只会计算”。这种不屑既误事又伤人。制定政策需要的数字岂是儿戏,我们不仅难在计算,更难在界定。一旦你明确了要算的是什么,计算就是轻而易举的事,但如果你不理解这个界定,那么即使有了数字也不会看出所以然。所以可悲就在于我们中很多人从一开始就犯了方向性错误。那么,如何避免掉入这个陷阱呢?问问统计对象是什么,统计数据背后有什么故事。人们总是天真地认为统计最多就是跟数字打打交道,比如,怎么记一个百分比,怎么化整为零并分类。其实这些都是数学问题,都是技术问题。只有方向对了,技术才派得上用场,对吧?
除了前面三个建议之外,你还要学得把数据放到大背景里去看,看宏观层面,所谓登高才能望远。找一些能给你带来宏观感受的东西,比如把一个国家的情况与另一个国家的情况进行比较,或者算出一些政府拟支出的人均成本。
你如果对某个观点有疑问,可以很容易找到第三方的意见。因为几乎所有学科,不论是理工类还是社科类,只要重大研究一出来,全网的同行业专家很快会了解,并将他们的意见和想法发表在网上。很多科技记者认为,互联网给他们这个职业帮了很大的忙;在一项对约100名欧洲科技记者进行的调查中,2/3的人认同这一观点,只有不到10%的人不认同。为什么这样说呢?因为在互联网上,你可以很容易找到你要看的论文,还可以看到底下的评论,也可以联系到专家,讨教他的意见。如果你想要了解医疗方面的事,我可以告诉你一个咨询的好去处:科克伦医学文献数据库 (Cochrane Col laboration〉。它是以医生、流行病学家和循证医学倡导者阿奇•科克伦的名字命名的。1941年,科克伦在被德国人俘虏投入战俘营后,居然进行了一次临床试验,这需要巨大的勇气,决心和隐忍能力,三者缺一不可。当时监狱里的战俘都病得厉害,科克伦自己也是,所以他怀疑这是由于饮食中缺少某种元素引起的。他知道自己掌握的信息还不够多,没法很有把握地给出治疗意见,但他没有绝望,也没有任凭直觉,而是设法组织他的战俘同伴测试了不同饮食的效果,终于发现他们缺少的是什么,然后向战俘营军官提供证据,后来维生素补充剂被及时供给战俘营,从而挽救了很多人的生命。而后来伊恩 查莫斯爵士根据他的观点,开始系统收集医学文献,发展成一个医学科研人员的国际性群体,他们对各种临床课题进行审查、评价、综合分析,并公布最新数据。他们自称为科克伦协作组织,也就是科克伦医学文献数据库。这个数据库免费开放,可以看到任何课题的综述,以及在随机试验的基础上,对该课程研究的摘要性描述。
不管是美国大选,还是英国脱欧,在之前的民调结果都跟结果完全不同。很大一部分原因出在,民调机构试图寻找一个最有代表性的选民群体样本。而很多调查都是同样。2011 年英国的人口普查,答卷率为 95%,还有 5%的人没有回应。就这一点,就可以说人口普查数据失真。如果样本本身就跑偏了,算法再怎么分析,它得出的结论也一定是跑偏的。除非我们亲力亲为地收集数据,否则对统计漏失能做的有限。但至少,在别人给我们提供数据时,我们可以,也应该记得问一下,哪些人或哪些内容可能遗漏了。一些数字的缺失是很明显的,例如,有关贩卖妇女或吸毒等犯罪方面的真实数据就没有被很好地收集。其他类型的遗漏只 要仔细查看也能发现。比如,研究人员可能没有明说某项实验只研究男性,这种信息有时会隐藏在统计附录中,或者有时根本没处找。但快速调查一下,就会发现这项研究的瑕疵。如果一个实验只研究男性,我们不会认为实验要是包括了女性,还会得出同样的结论。如果政府的统计是针对一个家庭的收入的,我们必须认识到,我们不可能由此了解到太多这个家庭里谁花钱最多的信息。大数据看起来很全面,也可能用途很广,但一个都不少,是一种容易让人上当的错觉:一切尽在自己掌握中。其实我们必须常问:〝数据里少了谁?漏了什么?,这只是我们对待大数据要谨慎的原因之一。大数据代表者数据收集和统计方式的巨大变化.这种变化的影响还有待我们审视。
“大数据”正在改变我们周围的世界,如果电脑以人类不能理解的方式代替人类做决定或预判,自然会遭到排斥。我认为人类的担心并不多余。现代数据分析可以产生一些奇迹般的结果,但大数据往往不如小数据可信。小数据通常可以被核实,大数据往往被深藏在硅谷的地库里。分析小数据的统计工具也容易检验,但模式识别算法则容易成为商业领域敏感的神秘黑匣子。所以我认为我们既要抵制人们对大数据和算法的炒作,也要警愓对它们的全盘否定。涉及要紧的事情,我们应该就事论事地不停追问:底层数据是否可访问?算法的性能是否进行了严格的评估?例如,通过随机试验,看看人们是否在没有算法帮助的情况下做得更好。是否允许外部专家对算法进行评估?他们的结论是什么?我们绝不可以把算法和人都绝对化,认定一个怎么都比另一个好,这样一刀切的想法才是个大大的陷阱。
即使官方的统计数据如我们所愿, 客观、公正、不受任何干扰地编制出来了,它们也不会永远完美无瑕,因为我们关心的一些事情很难用数字衡量,比如家庭暴力,逃税或露宿街头的情况。所以,官方统计学家无疑还有很大的进步空间,比如让他们收集的数据更具代表性、相关性,更契合日常生活实情,并且完全公开,无所保留。他们越往这个方向努力,就越能赢得我们的信任。尽管官方统计局存在种种问题和缺点,但它们仍然是我们最可信任的机构。当一个国家挑出一群统计学上的精兵强将,并爱护他们时,他们会不遗余力地将事实以精准数据的方式呈现给大众来回报这份信任。但当一个国家的统计机构辜负了这种信任时,它们也会受到国际同行毫不留情的鞭挞。当一个刚正不阿的统计学家受到政客的陷害时,同样的群体也会起来声援他。统计人员大多比我们想象的勇敢无畏。他们有捍卫数据真理的职业操守,我们决不能无视,更不能轻视这份操守,作为公民,我们也有捍卫统计这个国家公器的责任。无论是出于私人目的,还是以监督为目的,如果我们想了解国情,那么我们通常会从机构或组织,如国家统计局,欧盟统计局。加拿大统计局,劳工统计局和国会预算办公室等处提供的统计数据开始。世事纷繁,但作风硬朗, 思想独立的统计机构可以让民众看到真相。
南丁格尔做了正确的事情,推动了历史的进程,但许多滥用美丽信息图的人却可能正在做相反的事,因此,当我们看那些美丽的图形的时候,要警惕,要先用辨别它们的良莠。首先,也是最重要的,要稍安毋躁。因为视觉会触发感受,所以要先审视自己看到图后的情绪反应,是觉得胜了,还是想辨解,是生气,还是想庆贺?要警惕这种情绪对你正确解读信息的影响。其次,你要问自己这些问题:我是否理解图上的术语?轴线代表什么?统计对象是什么?统计的范畴说了吗,还是取样有限?如果图片反映的是复杂的分析或实验结果,我看懂这个过程了吗?如果我判断不出图片描述的是否属实,那些专家的意见能信吗?我有没有向谁讨教过经验呢?当你看到可视化的信息时,你要知道有人在输出观点。正如话有三说,用图说话也无可厚非。只要图说的有道理,我们也不应故步自封,要随时以图为镜,矫正自己的错误看法。
费雪和凯恩斯都是业界大腕,他们手头有大量现成的信息,也会认真地收集更多数据。正如亚伯拉罕• 布雷迪乌斯这位艺术鉴赏大师被伪造者米格伦骗得晕头转向一样,费雪和布雷迪乌斯落得如此下场不是因为他们专业不够精深,而是因为他们被感觉冲昏了头。本书的出发点是,数据的收集和分析是能够帮我们了解世界本真的。但我也同时指出,我们经常搞错,不是因为没有数据,而是因为我们拒绝接受数据给我们呈现的东西。对费雪和其他许多人来说,拒绝接受这些数据的原因是他们拒绝承认世界己经变了模样,时代己经往前走了,而他们还留在原地。费雪的竞年对手之一,一位叫罗杰•巴布森的经济预言家不无惋惜地评论费雪为“当今世界最伟大的经济学家之一,也是贡献最大、最无私的公民,但作为预言家,他失败了,因为他认为世界整体是理性的,不是感性的。
第一,我们应该学会在看到数据结果时,稍稍停顿一下,观察自己的情绪反应,看会不会因受情绪摆布而接受或拒绝数据结果。第二,我们应该从个人经验出发,对数据的解读。应将“乌瞰”的广角视角与 “蠕虫”的聚焦视角结合起来。第三,我们应该看看自己是否能理解数据标签上的内涵和外延。第四,我们要把数据放到应有的背景中去看,并学会对比着看数字的含义第五,我们应该看看统计数据后面是否还有故事,是不是哪些数据己经被筛掉了。第六,我们应该问一下统计样本是否全面,是否己将某些对象排除在外,如果将其包括进来,统计结论是否会有所不同。第七,我们不应该无条件信任大数据和算法,我们要明白无论大数据还是算法,没有透明性,信任度就要打折扣。第八,我们应该多多关注官方统计机构,要保护那些捍卫统计公正性的英勇的统计学家。第九,任何美丽的图表或信息图都良莠不齐,我们要睁大眼睛。第十,我们是否能保持开放心态,问问自己会犯什么错,情况是否已经发生了变化事实上,与其说是戒律,不如说是经验法则,或者说是我从经验教训中养成的思维习惯。当你遇到对你很重要的统计数据时,不妨用这些方法试一下。不需要每一个统计数据都核对一遍,但对你的新闻来源做个初评它们还是有用的:记者有没有把术语解释清楚?有没有提供数据背景?有没有有评估数据来源的可靠性? 如果这些思维习惯你还没有养成,就容易上假数据的当。
直播时间:6月27日周日晚上8点
主题:坚持利它主义能给你带来哪些收获?
直播地址:视频号 读书方法 ,另一个视频号: 生活黑客 做为备用。
100天行动读者反馈
现有付费课程
① 打败拖延症:我是如何战胜拖延症的?
② 养成好习惯:不需要意志力的习惯养成法:100天行动
关于warfalcon公众号
①目前有2000+篇自我成长相关实用类文章
②4年进入有道云笔记最有价值公号top10
③6年占据印象笔记收藏服务总榜top1
④知乎同名,回答被100万+人收藏
文章搜索传送门
↓↓↓
加入一百天行动
↓↓↓
有很多小伙伴说找不到我们了,微信改版,公众号发布顺序被打乱,如果你没有星标,也很少点在看,那么你将不能第一时间看到我们的文章,或者是在两三天后才能收到。
如果你想第一时间看到我们的内容,将我们「设为星标」吧,在阅读文章时,也别忘了随手点「在看」,星标+在看,就可以增加你成为warfalcon常读用户的几率了:)
点击公众号「warfalcon」,按照以下操作就可以设置为「星标」啦~
喜欢记得点在看哦