通知备用:如果以后读者无法再阅读到本公号的更新,可以去网易搜索同名的网易号。海外的读者也可以下载Telegram , 然后再手机浏览器中打开链接“https://t.me/joinchat/MvXTABj7X6uQxRjnNxaHmg”,点击“ Join Group”加入“北美新药科普历史网”的读者群。
这两天美国首都发生了大规模的聚会游行,要为川普总统讨回公道,示威者指控本次大选有大规模舞弊,把本属于他的胜利给偷走了,所以这个游行的主题就叫“制止偷窃”(Stop the Steal)!
而且这两天的网络空间中,统计学和数据分析也突然火了起来,一个本来没有什么人听说过的本福特定律 (Benford’s law)仿佛忽然成为显学,据说有人用这个定律发现了拜登和民主党团队大规模作弊的证据。
我对于自己不懂的东西一般不说话,如果非要说个一句半句的话,那要先看文献 。十年前专业的政治学期刊发了一篇这个主题的文章《本福特定律和选举舞弊之揭露》(那个年代还没有川普总统和对大选的普遍怀疑)。这篇文章的摘要里的最后一句话是这么说的:
(本福特定律在检测选举舞弊)上的成功率,大概齐和掷硬币猜正反差不多,所以在检测舞弊上,往好了说是有问题,往坏了讲就是完全的误导。
Its “success rate” either way is essentially equivalent to a toss of a coin, thereby rendering it problematic at best as a forensic tool and wholly misleading at worst.
话虽如此,这并不代表统计学和数据分析在鸟瞰选民意愿的大趋势上,就真的无事可做了。
我现在展示的这个简单分析,特意另辟蹊径,避开已经被专业或二把刀数据师傅炒作滥了的几个摇摆州的数据,比如宾州,密歇根,威斯康星,亚利桑那,内华达和乔治亚,而是深耕于十几个根本上不了新闻的,被人遗忘了的州,他们是:怀俄明,西佛吉尼亚,北达科他,俄克拉荷马,艾达华,阿肯色,南达科他,肯塔基,阿拉巴马,田纳西,犹他,密西西比,内布拉斯加,路易斯安娜,蒙大拿,堪萨斯,南卡莱罗纳,阿拉斯加,这18个州。如果是对美国政治地理不熟悉的读者,可能对其中的大部分名字未必熟悉,这是正常的,它们大都是位于美国内陆中西部的一些较不发达的地区,肯定不如纽约,加州,德州,佛罗里达这样的地方有名,它们在近来半个世纪的历史上都是共和党的坚实票仓,大概在开票的半个小时内就把自己的选举人票贡献给了川普总统。选这几个州,有这么几个考虑,第一,它们都是无可争议的红州,如果真的有大规模恶意选举舞弊的话,大概不会在这几个州发生,因为无论怎么折腾都翻不了盘,风险和收益绝对不成比例;第二,现在所有的质疑都是共和党人砸向民主党的,那么在这些共和党绝对掌握天下的地方,他们大概不会听任所谓的民主党“大规模舞弊”肆意发生在眼皮子底下吧。从生物制药的角度来做一个比喻,我们可以用这些深红州的数据作为“阳性对照”,来推测摇摆州这些在放大镜下被反复检验的地方可能发生了什么。下面这个图列出了民主党和共和党候选人这18个深红州中,分别在2016和2020获得了多少支持。除了川普在这两次选举中都大胜之外这样的明显事实外,有心人还能看出一个细微而重大的趋势,那就是:在这18个州中,川普2020只在三个州里(阿肯色,犹他和密西西比)扩大了2016的取胜优势(右边红色),而在其他十五个州的胜利都缩水了(蓝色)。也许有人看到这些差异都比较小,比如川普2020在阿肯色取胜28点,2016年时27点胜出,会质疑这样的数字是否为统计学噪音。其实,单看一个百分点的差异也许意义不大,但是这样的差异如果为随机产生,那么我们应该能看到川普在大约半数的州里扩大了优势,而在剩下一半缩小。而实际情况并非如此。统计学中有一个检测叫McNemar Test(卡方检测的一种),专门用来检测同一个体“集体变脸”趋势的显著性,川普胜利缩水VS扩大的这个15:3 , McNemar检测 P值为0.0047,也就是说,如果红蓝选民在2016和2020对川普的好恶选择大体不变,那么我们看到这个15:3的大幅度分野的概率,在100次里也不到一次。换句话说,川普2020,即使是在红州,他挣来的新支持者也被拉来的仇恨给抵消和反超了,这是一个全国普遍现象。当然,这样此消彼长,在红州里不能改变大局,比如在怀俄明州,也是美国人口最少的州,才80万人口,川普2020胜出了43个点,而他2016则胜出46点,缩水了3点,so what?改变不了该州红彤彤的保守色彩。但是,怀俄明有共和党人,民主党人和中立者,摇摆州也有这样的选民组成。怀俄明的3个百分点的出入,如果放在摇摆州诸如威斯康星,那就是改变天平走向的砝码。希拉里2016在威斯康星输掉了0.7%, 而拜登2020则赢了0.6%。也就是说,拜登在几个摇摆州的险胜,基本符合全国选民意愿的大致流动方向,并非是什么惊天动地的数据“分布异常”。当然,不管是本福特定律还是McNemar检测,都不能作为大选有无舞弊的实锤。但是,政治观察家还真有粗判选举是否公正合法的工具,其中一个就是出口民调( Exit Poll)。在选民投完票后,在门口拦住人家询问他投了谁,然后把出口民调的结果和最终的结果对比,不应该出现太大的出入。迄今为止,我们也没有看到任何出口民调和大选结果严重有出入的报道。同时,出口民调也能揭示国家重要群体政治意向的分布。比如,和4年前比起来,以下是拜登支持率强劲增长的群体:
这大概是拜登在几大摇摆州里的胜利,以及在红州中缩小了差距的根本原因。本文只是提供一个视角,绝对不是为了说服什么人。因为现在是一个信者恒信,不信者恒不信的政治空气。我摆出数据证明:没有舞弊拜登也能拿到这样的成绩,但是肯定有人会说选票机器有问题,在红州也会有作弊的可能;我说拜托,美国的选举是地方事务,投票设备的采购测试都是当地的选举官员拍板,都是党性非常强的人士,他们为什么要选购对自己不利的有问题的器材,更何况机器和软件都要经过测试和QC;然后有人会说是全国系统性的软件被作假篡改,我说拜托,目前民主党中除了拜登胜出外,在参院的选举中大败,在众院小败,在地方立法机构也败,如果有如此神奇的作弊软件助力的话,怎么不帮一把这些失掉了工作的本党议员呢?特别是,参院共和党领袖,肯塔基的参议员Mitch Mcconnel, 以及南卡莱罗纳的参议员Linsey Graham, 这两位都堪称是民主党的眼中钉肉中刺,欲拔之而后快的,却都以两位数的优势连任了,难道作弊软件偏偏对他俩网开一面?然后恒不信者会说,那肯定是又什么其他的作弊招数啦.......我曾写过一篇文章讨论奥卡姆剃刀,说的是事情的真相往往是直白的,而很多引人入胜的阴谋论,则是背负了很多“大胆假设”的框架,负重不堪,漏洞百出。比如4年前被渲染的“加州的几百万非法移民投票”;今年的邮寄投票中成千上万的“死人投票”;大量选票被“丢弃”,某党印刷伪造大量选票;软件的系统性造假,几万某个候选人的选票一过电脑就变成另一党的了.....或者,我们可以用奥卡姆剃刀原则把这些噪音削了剃了:大选是这么个结果,也许就是因为川普总统这四年手法太极端了,抗疫太失败了,所以引发了温和选民的造反,就这么简单而已。做不好就下台,不服就4年后卷土重来,美国200多年的政党轮换史,正是这样的,任你是什么样的统计定律也否认不了。参考资料:
https://www.cambridge.org/core/journals/political-analysis/article/benfords-law-and-the-detection-of-election-fraud/3B1D64E822371C461AF3C61CE91AAF6D
https://www.nytimes.com/interactive/2020/11/03/us/elections/results-president.html
https://www.washingtonpost.com/graphics/2020/elections/exit-polls-changes-2016-2020/
通知备用:如果以后读者无法再阅读到本公号的更新,可以去网易搜索同名的网易号。海外的读者也可以下载Telegram , 然后再手机浏览器中打开链接“https://t.me/joinchat/MvXTABj7X6uQxRjnNxaHmg”,点击“ Join Group”加入“北美新药科普历史网”的读者群。