渡十娘|本福特定律告诉你民主党到底有没有做假?
The following article is from 万精油 Author 万精油
做公众号里的《纽约客》
戳蓝字一键关注 渡十娘
转发也是一种肯定
文字|万精油
编辑|渡十娘
作者简介:万精油,非著名数学家。
互联网的好处是很明显的,信息传递快,交流方便。但随之而来的缺点也是显而易见的,那就是谣言也传的快。而且由于信息太多,大部分人没有时间(或能力)辨别真伪,于是就先入为主了。
这几天关于民主党投票中作弊的消息满天飞。各种视频铁证,许多都非常可笑。这中间有没有真的?我不知道。但我相信法律,如果有真铁证,系统性地作弊,那法律是不会放过的。
在嘈杂的“民主党投票中作弊”的噪音中,有一节“高音”抢入耳来,号称可以用统计理论证明民主党投票中作弊。搬出了本福特定律(Benford's Law)。
一人言市有虎,王不信,二人言市有虎,王存疑,三人言市有虎,王信之。这是战国时的人就懂的道理。不管多荒谬的谣言,传的人多了,就有人信了。有理论支持的谣言,更能忽悠人。这个有本福特支持的信息已经传遍微信,微博等各大中文平台。我们这里就来看一看这个本福特是什么来头。
本福特定律说,在现实产生的数据中,数字1出现的最多,其次是2,3,...,逐渐下降。
“高音”说,拜登的票数不满足本福特定律,5出现最多,所以有假。
下图是我收到的第一张图,有人问我如何解释。我的回答是:选举小区大小差不多,拜登支持率也差不多。如果每个小区大约一千投票人,拜登支持率50%+, 出来的结果就会有很多5打头的。根本原因就是:这些数是有关联的。
于是,有人给我发来下面这张图。说:如果你的说法是对的,如何解释川普的投票数满足,而拜登的不满足。
我的回答是:问的好 (按照美国人的套路,不管什么问题,先来一句"This is a good question")。一个满足,另一个不满足的原因是有一个不是真的。有人为说明自己的观点不惜改动数字。图一与图二都是Michigan的数据。比较一下这两个图,图一里川普的数据也不符合,3明显鼓起(只是程度轻一点)。而图二那个图把3抹平了。信息太多,大家就不注意细节了。
还有人发给我别的图,继续问。我没时间继续回答。不过,后来我收到的一个图比较有趣。发图者说,上面两图的数据都不对,这是他用原始数据自己做的图。我已经不知道该相信哪张图了。为了保险起见,我从他那里要来了原始数据,自己做了一张图(下图)。下图左面红色是川普的数字,右面是拜登的数字。可以看出拜登与川普的数都不满足本福特,只是程度不同而已。
还有人挖出历史数据,说过去30年的选举数都不满足本福特。我没有时间和精力去核对。如果有人核对过原始数据,请在评论区留言。
还有人转给我真正的本福特定律专家的推特。我们来看看专家如何解释。
下图是专家对一个关于用本福特定律证明拜登作弊的推特的评论。他说:我是本福特定律的专家,你在 Netflix看的关于本福特定律的录像就是我做的。如果你想让我给你解释你是如何错的离谱,请吱声。
评论以后,专家继续发推。用大写字母告诉大家:本福特定律对检测投票作弊无用。
专家已经发话了,那些想用本福特定律证明民主党投票中作弊的人可以洗洗睡了。
本来文章可以到此结束了,没想到,我把专家发言的截图发到微博上后,有评论说,靠拿专家头衔压人,没有具体解释,不厚道。我们这里就来简答解释一下。
本福特定律成立的一个基本原因是,对自然产生的数字,任意固定位数,比如三位数,到300以前必须要先有200,到200以前必须要先有100,...。 比如一条街的门牌号码,必须先有100号才会有200号,...。所以,1比2出现的多,2比3出现的多。在进位时,先进到1,别的数只有前面n 个机会,而1有n+1个机会,优势是(n+1)/n。这里的n 是数的位数,而这个位数可以用它的对数直接表现出来。再加一些其他条件,于是就有了本福特公式:
log10(1+1/d)
这里的d 是数字。1,2,..., 9. 可以看出,1的比例最大。log10(2) = 0.301 就是30%,2的对后面的优势要在1分过之后,小一些,3就更小,9最小,不到5%.
说明一下,上面不是证明,只是一种启发式的解释。因为本福特定律对所适应的数有一些要求,所以,没有一般条件下的严格证明。
上面这个公式不只是对十进制适用,对任何进制都适用。有趣的是,在二进制下首位必须是1,而log2(1+1/1) = log2(2) = 1 = 100% 正好验证。
从上面的解释可以看出,本福特定律要能适用,相关数字必须要有许多不同的位数,横跨多个数量级。如果都是同一个数量级的数,那么靠前的数字的优势就显示不出来了。总统选举,按选举区统计。选举区的大小都划分的差不多。比如Michigan 的这个数据,90%以上都是4位或5位,没有了本福特定律所需要的数字优势。如果区的大小差不多,支持率差不多,就会造成某个数字特别多。所以,
结论:本福特定律对选举投票的数字不适用。
上面是关于一般选举数据的结论。具体到Michigan的这个数据,这个数据样本太少,这么小的样本还要分成9分,单从样本量上就不满足本福特定律的要求。
上面说的数量级的限制对首位数影响最大,于是有人抛开首位数,看第二位或三位以及其它位数。对其它位数,本福特公式是
其中,n是第几位,d 是具体数字。据霍金说,文章每多一个公式就会少一半读者。我把这个复杂公式放在最后,希望影响不大。
顺便说一句,我试过第二位数,拜登与川普的第二位数都不满足本福特,但拜登的更接近。但与第一位数一样,不能推出任何结论,所以,虽然我做了第二位数的图,但不想干扰主题,就不附了。有兴趣的读者可以找一些数来验证一下。
你是我的阅读者 我做你的渡十娘
做公众号里的《纽约客》,我们是认真的!— 写在《渡十娘》破万之际
昨日更新:
客厅热文:
热门文章:
十娘专栏:
葛圣洁:《Shock & Rock》
其他:
读完请点"在看"让更多人看到
图片 I 网络
整理 I 编辑 I 渡十娘
清单内容来自 I 万精油
版权归原作者 I 如有侵权 I 请联系删除
生活中
总有些东西值得分享
渡·十·娘
DES
IGN
发现 I 家庭 I 乐趣
想每天与渡十娘亲密接触吗?
喜欢?粉她!
有话想说:
海外:dushiniang999@gmail.com
国内:dushiniang999@126.com