查看原文
其他

渡十娘|本福特定律告诉你民主党到底有没有做假?

渡十娘 2021-01-22

The following article is from 万精油 Author 万精油

做公众号里的《纽约客》

戳蓝字一键关注 渡十娘

转发也是一种肯定


文字|万精油

编辑|渡十娘 




作者简介:万精油,非著名数学家。


互联网的好处是很明显的,信息传递快,交流方便。但随之而来的缺点也是显而易见的,那就是谣言也传的快。而且由于信息太多,大部分人没有时间(或能力)辨别真伪,于是就先入为主了。


这几天关于民主党投票中作弊的消息满天飞。各种视频铁证,许多都非常可笑。这中间有没有真的?我不知道。但我相信法律,如果有真铁证,系统性地作弊,那法律是不会放过的。

在嘈杂的“民主党投票中作弊”的噪音中,有一节“高音”抢入耳来,号称可以用统计理论证明民主党投票中作弊。搬出了本福特定律(Benford's Law)。

一人言市有虎,王不信,二人言市有虎,王存疑,三人言市有虎,王信之。这是战国时的人就懂的道理。不管多荒谬的谣言,传的人多了,就有人信了。有理论支持的谣言,更能忽悠人。这个有本福特支持的信息已经传遍微信,微博等各大中文平台。我们这里就来看一看这个本福特是什么来头。


本福特定律说,在现实产生的数据中,数字1出现的最多,其次是2,3,...,逐渐下降。

“高音”说,拜登的票数不满足本福特定律,5出现最多,所以有假。

下图是我收到的第一张图,有人问我如何解释。我的回答是:选举小区大小差不多,拜登支持率也差不多。如果每个小区大约一千投票人,拜登支持率50%+, 出来的结果就会有很多5打头的。根本原因就是:这些数是有关联的。


于是,有人给我发来下面这张图。说:如果你的说法是对的,如何解释川普的投票数满足,而拜登的不满足。



我的回答是:问的好 (按照美国人的套路,不管什么问题,先来一句"This is a good question")。一个满足,另一个不满足的原因是有一个不是真的。有人为说明自己的观点不惜改动数字。图一与图二都是Michigan的数据。比较一下这两个图,图一里川普的数据也不符合,3明显鼓起(只是程度轻一点)。而图二那个图把3抹平了。信息太多,大家就不注意细节了。

还有人发给我别的图,继续问。我没时间继续回答。不过,后来我收到的一个图比较有趣。发图者说,上面两图的数据都不对,这是他用原始数据自己做的图。我已经不知道该相信哪张图了。为了保险起见,我从他那里要来了原始数据,自己做了一张图(下图)。下图左面红色是川普的数字,右面是拜登的数字。可以看出拜登与川普的数都不满足本福特,只是程度不同而已。


还有人挖出历史数据,说过去30年的选举数都不满足本福特。我没有时间和精力去核对。如果有人核对过原始数据,请在评论区留言。


还有人转给我真正的本福特定律专家的推特。我们来看看专家如何解释。

下图是专家对一个关于用本福特定律证明拜登作弊的推特的评论。他说:我是本福特定律的专家,你在 Netflix看的关于本福特定律的录像就是我做的。如果你想让我给你解释你是如何错的离谱,请吱声。


评论以后,专家继续发推。用大写字母告诉大家:本福特定律对检测投票作弊无用。



专家已经发话了,那些想用本福特定律证明民主党投票中作弊的人可以洗洗睡了。


本来文章可以到此结束了,没想到,我把专家发言的截图发到微博上后,有评论说,靠拿专家头衔压人,没有具体解释,不厚道。我们这里就来简答解释一下。


本福特定律成立的一个基本原因是,对自然产生的数字,任意固定位数,比如三位数,到300以前必须要先有200,到200以前必须要先有100,...。 比如一条街的门牌号码,必须先有100号才会有200号,...。所以,1比2出现的多,2比3出现的多。在进位时,先进到1,别的数只有前面n 个机会,而1有n+1个机会,优势是(n+1)/n。这里的n 是数的位数,而这个位数可以用它的对数直接表现出来。再加一些其他条件,于是就有了本福特公式:


log10(1+1/d)


这里的d 是数字。1,2,..., 9.   可以看出,1的比例最大。log10(2) = 0.301 就是30%,2的对后面的优势要在1分过之后,小一些,3就更小,9最小,不到5%.


说明一下,上面不是证明,只是一种启发式的解释。因为本福特定律对所适应的数有一些要求,所以,没有一般条件下的严格证明。


上面这个公式不只是对十进制适用,对任何进制都适用。有趣的是,在二进制下首位必须是1,而log2(1+1/1) = log2(2) = 1 = 100% 正好验证。


从上面的解释可以看出,本福特定律要能适用,相关数字必须要有许多不同的位数,横跨多个数量级。如果都是同一个数量级的数,那么靠前的数字的优势就显示不出来了。总统选举,按选举区统计。选举区的大小都划分的差不多。比如Michigan 的这个数据,90%以上都是4位或5位,没有了本福特定律所需要的数字优势。如果区的大小差不多,支持率差不多,就会造成某个数字特别多。所以,


结论:本福特定律对选举投票的数字不适用。


上面是关于一般选举数据的结论。具体到Michigan的这个数据,这个数据样本太少,这么小的样本还要分成9分,单从样本量上就不满足本福特定律的要求。


上面说的数量级的限制对首位数影响最大,于是有人抛开首位数,看第二位或三位以及其它位数。对其它位数,本福特公式是



其中,n是第几位,d 是具体数字。据霍金说,文章每多一个公式就会少一半读者。我把这个复杂公式放在最后,希望影响不大。


顺便说一句,我试过第二位数,拜登与川普的第二位数都不满足本福特,但拜登的更接近。但与第一位数一样,不能推出任何结论,所以,虽然我做了第二位数的图,但不想干扰主题,就不附了。有兴趣的读者可以找一些数来验证一下。



你是我的阅读者 我做你的渡十娘


做公众号里的《纽约客》,我们是认真的!— 写在《渡十娘》破万之际


昨日更新:


客厅热文:


热门文章:


十娘专栏:


其他:


读完请点"在看"让更多人看到






图片 I 网络

整理 I 编辑 I 渡十娘

清单内容来自 I 万精油

版权归原作者 I 如有侵权 I 请联系删除



生活中

总有些东西值得分享



·十·娘

DES



IGN


发现 I 家庭 I 乐趣


想每天与渡十娘亲密接触吗?

喜欢?粉她!

有话想说:

海外:dushiniang999@gmail.com

国内:dushiniang999@126.com




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存