一个两次预测美国大选几乎全中的数据媒体,为什么在这一届上也栽了?
背后的问题是,技术发展到今天,我们对大众的想法,还是没什么了解。
四年一次的美国总统大选预测,大概是全球最重要的数据分析。
一年时间里,民调机构打了数以百万计的电话,以不同方式解读数据、预测结果。再没有第二件事能像大选一样让这么多人投入这么多资源,尝试分析民众的想法。
现在,大选结束一周了,参与机构们还在试图解释一个问题 —— 为什么它们都错了。
美国政治新闻网站 Mother Jones 在选举结果出来后 P 了一张照片。
原始照片说的是 1948 年大选。当时《芝加哥论坛报》根据电话民调判断杜鲁门会输,提前印好了报纸发往全国。第二天杜鲁门大胜,拿着一份论坛报接受媒体采访。
1948 年的预测受限于当时只有 1/3 的美国人拥有电话,民调获得样本有限。但这种局限今天已经不存在,技术的发展使几乎每个人都能通过电话和手机被找到,现在还有通过覆盖甚广的互联网进行的民调。
有了更好的技术和更多的民意样本,机构对大选的预测本不该有任何“惊喜”。
你可以怀疑《纽约时报》、CNN 之类本身倾向民主党的媒体在解读数字时有所偏差。但这次所有根据民调预测的机构也差不多都错了。连特朗普最重要的媒体支持者、美国最大电视台之一的福克斯新闻网,根据民调作出的预测也判断特朗普会输。
新锐数字分析媒体 FiveThirtyEight 也在猜错的队伍里。
从 “538” 这个名字你就不难猜出它和选举的关系——这是选举人的数量。每个州有一定选举人,当一个州的选民投票结果出来后,该州的所有选举人都会投给第一名候选人。
美国大选本质上是二选一,所以“猜”谁赢不是特别难。FiveThirtyEight 厉害的地方在于,它除了准确地预测上两届谁成功当选外,还在 2008 年准确地预测对了 49 州的选举人票结果;2012 年更是预测 50 个州选举人票结果全对。
没什么机构和媒体能做到这样。何况 2008 年的时候 FiveThirtyEight 只是个个人博客。
但今年,已经积累了两次大选经验,团队扩张到数十人的 FiveThirtyEight 预测希拉里·克林顿胜率 71.8%,认为她可以拿到 302 张选举人票,全民投票比例为 48.5%:45%。
实际结果是特朗普拿了 306 张选举人票,克林顿 232 票。克林顿虽然拿到更多大众投票,但也只多 0.76%。
FiveThirtyEight 怎么做预测的?
曾在毕马威担任过经济顾问的分析师 Nate Silver,在 2004 年离职后靠打扑克赚了 40 万美元,还在一家棒球网站 Baseball Prospectus 做了几年合伙人。期间他创建了 PECOTA 预测系统,评估球员未来表现和交易价值。
2008 年,Nate Silver 创办了 FiveThirtyEight,预测大选结果。
因为准确预测 2008 年选举人票归属,FiveThirtyEight 快速获得关注。到奥巴马当选那天,网站单日访问量已接近 500 万。同时期访问量跻身美国网站前十的《纽约时报》的日访问量也不过 2000 万。
2010 年 6 月,FiveThirtyEight 被《纽约时报》收购,作为一个子品牌加入上百个博客组成的时报博客群。
2013 年,Nate Silver 脱离《纽约时报》加入这家迪士尼旗下的体育新闻网站 ESPN。独立的 fivethirtyeight.com 也在这时候成立,标志是一只狐狸。
哲学家以赛亚·伯林在《狐狸和刺猬》中写道,狐狸知道很多事情,刺猬只知道一件大事。刺猬用一个观点统摄对世界的认识,另一类狐狸,则承认种种无法统一的经验,拒绝仅仅一个观点。
Nate Silver 自比狐狸,被他拿来当作刺猬进行对比的就是传统媒体。它们跟着自身强烈的党派意识作选情判断,“狐狸”更相信自己的多方位观察、不断修正自己的判断,作出更准确的判断。
Nate Silver 谈到自己作决策时用到数理统计学中的贝叶斯决策理论。意思是信息不全情况下,对部分未知的状态用主观概率进行预测,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。
从最早预测大选到后来评估棒球球员的未来表现,FiveThirtyEight 自己都没有数据,它仰仗外部数据做分析,出彩的地方是自己的预测模型。
FiveThirtyEight 预测模型有三种,分别是:
Polls-plus: 结合民调数字和经济指数的一种预测。模型假设竞争会比较激烈。
Polls-only: 比 Polls-plus 更简单、所见即所得的一种预测。模型只统计民调结果,反映大选日当天的胜率,比 Poll-plus 更具不确定性。
Now-cast: 根据现有民调预测今天就进行选举的胜率,比另外两种模型激进得多。
不同预测模型之间的区别在于,它们用不同的方法综合评估各种民调,赋予这些民调不同的权重,最后得出自己的预测。
用外部数据作自己的分析预测,这也是其它预测机构的通行做法。如《纽约时报》Upshot 用的是《赫芬顿邮报》的民调数据库,《经济学人》跟 YouGov 合作以及 NBC 新闻和网络调研公司 SurveyMonkey 合作等。
民调整体预测的差距不到 4%
一般来说,平时见到的民意调查可以来自各种机构、组织或个人,比如报章杂志、电视、网络、咨询公司。好奇心研究所做的投票其实就是一种民调。
而美国大选的民调,基本上是媒体独立开展或与民调机构进行合作。
他们用随机抽样的方式挑选一批已经注册登记的选民,了解他们的投票倾向。收集完数据,民调机构一般会抽样情况对数据赋予不同的权重。
像盖洛普这样做得比较好的民调机构,会在统计出所有样本各种量化的结果后,和美国的全国资料做比较,找出哪类人受访的比例不均,并在接下来的调查中,非随机地调整受访的对象,借以抵消并弥补不平均的状况最后统计出结果。
今天的民调方法是在 1936 年大选预测失败后完善起来的。
1936 年民主党候选人富兰克林·罗斯福谋求连任,他的竞争对手是来自民主党的堪萨斯州州长阿尔夫·兰登。当时知名杂志《文学文摘》照着黄页信息、杂志订阅名单、各类组织和俱乐部的花名册,寄了 1000 万份明信片做民调,最终收到了 240 万份回信。
它根据这些数据得出结论兰登和罗斯福选票比例为 57:43,兰登可以取得当时 531 张选举人票中的 307 张。
最后开票结果为罗斯福取得 62% 选票,罗斯福以 523:8 的选举人票,压倒性地战胜兰登,成功连任。
《文学文摘》的问题在于它挑选的人群不能代表整个美国,在那些名册上的人都不是工薪阶层。
今天依然是民调主力的盖洛普则在 1936 年用随机抽样调查,用更少、但分布族群、阶层更广的样本预测了罗斯福胜利,一战成名。
今天随着技术的进步,民调覆盖的人数已经不是问题,也不存在一个庞大的阶层没有电话联系不上。
实际上,民调数字的差别也不是太大。
本届大选前一周的整体民调显示,克林顿领先优势为 4%,而实际结果为克林顿领先 0.6%。两者偏差不到 4%,属于一个合理的范围。
民调偏差较大的地方是对摇摆州选举人票归属的预测。一方候选人支持率领先优势小于 6% 的州一般会被称为摇摆州。
在不少选前分析、民调结果看来,克林顿拿下民主党保底的 242 张选举人票没有什么大问题,再拿下摇摆州佛罗里达的 29 张选票,即超过法律规定的 270 票当选总统。
而如果特朗普想要当选,则需要在保住共和党基本盘的情况下,尽可能多地争取摇摆州选举人票。因为他没什么可能拿下支持民主党的加利福尼亚州,那里有 55 张选举人票。
最关键的五个摇摆州佛罗里达、密歇根、新罕布什尔、北卡罗莱纳、宾夕法尼亚加起来有 84 张选票。
据 FiveThirtyEight 事后整理,民调偏差大的也就是这几个州。在犹他州、俄亥俄州、威斯康星州和艾奥瓦州,特朗普的票比例领先优势远大于民调平均预测结果,两者差值高达 6% 以上。
几乎所有分析机构都根据民调结果预测特朗普拿不下这几个州的选票。而实际结果是特朗普拿下了五个关键摇摆州中的四个。只输掉拥有 4 张选举人票的新罕布什尔州。
产生这种结果的一个合理猜测是,其实有很多支持特朗普的人在接受民调时不愿意说出真实的想法。他们可能对外声称支持克林顿,但在最后把选票投给特朗普。
皮尤调查中心把这类选民称为害羞的特朗普支持者。
反特朗普的媒体和名人不可避免地影响了民调准确性
硅谷有名的风险投资人彼得·蒂尔,本月初在华盛顿的美国记者俱乐部公开发表演讲支持特朗普时说,“我也不是同意特朗普在每个场合说的每一句话。但媒体都没有认真研究特朗普,只抓住了他的言论。而支持特朗普的选民恰好相反。”
特朗普的竞选口号是让美国再次伟大起来(Make America Great Again)。他宣称可以带来就业、让美国更安全、会扫除华盛顿的腐败。在经济不景气、枪击案频发的现在,非常好地迎合了民众的不满情绪。
但特朗普平时说话是非常招人讨厌。比如他在 Twitter 上发了一组错误的黑人枪击数据,数据错得离谱。
以至于力挺他的福克斯新闻台也在节目中指出此事不妥。双方在电视上对此事讨论的原话是:
比尔·奥莱利:你在 Twitter 上说你从别处看来一组枪杀数据,2015 死于谋杀的白人有 81% 被黑人杀害。这是完全错误的,实际上只有 15% 的白人被黑人所杀。
特朗普:嘿,比尔,比尔,我从网上看到成百上千万的数据,是不是每个我都要检查?
比尔·奥莱利:必须的啊,你是总统竞选人。
这只是特朗普日常言论中的一个例子,其它还包括关于使用核武器的荒谬言论和杀死恐怖分子家人这样有违国际法的话。媒体和公开发声的名人也紧盯这些言论,试图说服大众,投票选这个人再荒谬不过了。
福克斯新闻频道主持人克里斯·华莱士评论说,共和党党代会之后,很多媒体机构一致认为特朗普突破底线,于是他们便作出决定,也不用再遵守新闻行业的一般规则和客观性。
特朗普言辞中侮辱女性的录像带出来以后,反对他的声音更多了。 随着媒体密集报道,几十个共和党参议院、议员宣布不再支持特朗普。南方公园本季第 5 集直接讽刺说“我说了那么多杀人、关于穆斯林和墨西哥人的疯话,最后你们因为这点事受不了?”
这人说了很多不体面的话,但他确实代表了一个阶层对现实的不满。虽然许多投票者也不喜欢他说的一些话,但他们对找一个人打破现状的期望更强烈——就像彼得·蒂尔所说的那样。
实际的例子是,FiveThirtyEight 八月底做过一个民调对比,一组民调数据来自现场采访,另一组来自非现场采访。结果现场采访的民调模型显示克林顿胜率高达 86%,而非现场采访的数据是 70.5%。
也有研究调查发现,用电话录音打过去得到的特朗普支持率远比真人打过去要高。
到最后,还是怎么解读的问题
尽管民调对于关键州的计算有偏差,但直到摇摆州开票前,民调说的还是特朗普和克林顿的普选选票差距不太大。说明两个不受欢迎的候选人能争取的人数可能差不多。
另一个迹象,很大比例的人迟迟没有决定。最后一轮全国民调结束后,仍然没有做好决定的选民比例高达 12.5%,此前三次大选这个数字都不到 4%。
这些迹象表明,大选情况未定,特朗普的录像带、大选前不久 FBI 重提克林顿邮件门都让选举结果变得难以预测。
那为什么各路媒体、分析机构解读的时候,还是给出了这样的结果?
一个客观原因,最后能传递出来的数字过于简单了。一篇典型的预测报道大概是一千字不到的篇幅,有一些图表和一些分析。FiveThirtyEight 也有文章警告说这会是一场竞争胶着的大选。
但真正被外界看到的不是那么多长段文字和复杂的数据表格。大多数人看到的是社交网络里的一句话、或者在电视直播里所引用的、或是放在媒体预测页最顶端的大图。它们都只是一个数字。
机构花费大量时间,分析了数以千万计的数字,但最后大众真正在意的,只是一个数字。而一个数字恰恰不可能反映选举的复杂。考虑到大选本身的形式,这个数字给人的感觉也更像是支持率——更像是一个误导。
而主观上,负责解读的人基本都不喜欢特朗普。他们倒不是为了误导读者,美国不是人人都会出门投票,严重低估特朗普反倒会加大他的胜率。但这些人从媒体接收到的信息、从各行各业的专业人士所看到的评论,也都和自己一样反对特朗普。
一个人相信什么,就能组织出怎样的解读,尤其是在差距小的时候。
大选结束后,《纽约时报》执行总编 Baquet 说:“我们需要花更多时间在路上、去更多地方、接触你平时不会接触的人。如果你这媒体正好在纽约,得提醒自己,纽约不代表真实世界。”(特朗普在纽约只拿到三成选票)
题图来源:wikimedia1、wikimedia2、wikimedia3
对于阿迪达斯来说,明星Kanye West到底意味着什么?|2016 大公司数字化④
这个法国人在上海待了 12 年,上海最美马路上的 6 家“网红店”都是他的
今年还有 48 天,没完成年度目标的话,我们帮你想了些办法 | Hack Your Life