图文版:如何识别数据造假?用本福特定律检验一下
去年双十一,仅仅一天,天猫销售额就达到2684亿,不过,网络上有很多人质疑:天猫双11的数据是造假的。因为早在去年4月份,就有人通过趋势分析准确预测了今年的销售额。面对质疑,阿里巴巴高层纷纷回应:我们绝对没有也毫无必要造假。
那么,究竟有没有一种办法来验证天猫的销售额是否有人为修改呢?今天就来给大家介绍一个有趣的定律:本福特定律。
点击视频,了解一下
1首位为1的概率有多大?
我们每天都会面对成千上万的数据,其中有些数据是非人为规定、杂乱无章的。例如世界上所有国家的人口数量、GDP、国土面积,一张报纸上的经济数据,彩票在各个城市的销售额……等等。
数据
如果我问:这些数字首位是1(比如1.25亿,16,1356万这样的数字)的概率有多大?你会如何回答呢?
也许许多人会回答:1/9。因为首位可以是1、2、3、4、5、6、7、8、9,这些数字毫无规律,自然产生,所以首位是1的可能占1/9。或者你还会用一个表格印证自己的想法:在一位数、两位数、三位数…中,首位是1的数字都只有1/9。
不过,如果你真的拿出一张报纸进行统计,你会发现自己错了,除掉电话号码、邮政编码、日期等特定规律的数字以外,首位是1的数字大约占到30%。
2本福特定律
十九世纪,在还没有计算机的时代,科学家们经常要查找对数表进行计算。1881年,天文学家纽康在查找对数表时发现:对数表的前几页总是被人翻的比较烂,而后面的页码几乎是全新的。他隐约的感觉到:自然界中的数字好像不是均匀分布的,许多数字都以1开头,所以对数表的前几页才经常被人查阅到。
西蒙.纽康
1938年,物理学家本福特也发现了这个规律,现在被我们称为本福特定律:
从自然、生活中产生的数据,在十进制中以数字n开头的概率为:
按照这个公式,不同的首位数概率如下:
本福特定律预测的首位数概率分布
首位是1的数据居然比首位是9的数据多出六倍?事实真的是这样吗?
3数据检验
我们需要使用一些数据来验证本福特定律,这些数据必须具有一些特点:
第一:数据产生于生活或者自然中的,而不能是人为规定的,例如新生儿数量、死亡人数就满足这个条件,而电话号码、邮政编码、彩票开奖号码,都不满足这个规律。
第二:数据量要足够大,并且跨越几个量级。例如不同国家国家的人口从几百到几十亿,跨越了7个量级,就符合条件。而成人的身高基本都在1米到2米之间,跨度太小,就不满足这个条件。
好了,现在我们可以进行验证了。首先,我选择我的视频播放量数据来验证本福特定律。我在某个平台上上传了266个科普视频,有些视频比较受欢迎,播放量比较大,比如视频《芯片是怎么回事》有两百多万次播放。也有一些播放情况不太好,只有一两万次播放。我把所有视频的播放次数统计了出来,统计出播放次数首数字为1的(无论是播放量1万多、十几万或者一百多万)、是2、是3…的视频个数,并且计算了它们各自所占的比例,如下所示:
某平台视频播放量首位数比例
如果我们把视频播放量的首位数比例和本福特定律预言的比例放在一起,就会发现:视频播放量基本符合本福特定律。
视频播放量首位数比例与本福特定律对比
我们再来用国家人口验证一下。 我查找了2000年世界上235个国家和地区的人口情况,人口首位数是1的国家有67个,占比28.5%。具体的首位数比例如下:
世界各国人口首位数比例
把实际的频率和本福特定律的预测放在一起,就得到了下图,是不是也非常接近?
各国人口首位数比例与本福特定律对比
我们还可以用类似的方法统计世界上所有国家的GDP数据、领土面积等等,也会获得类似的结果。
各国GDP(美元计)首位数比例
各国领土面积(平方公里计)首位数比例
如果我们认为:无论是视频播放量还是国家人口、领土面积、GDP等,都或多或少是因为人的因素造成的,我们是否能找到与人无关的数据呢?我们再举一例:斐波那契数列。
斐波那契数列的图形化表示
斐波那契数列也叫做兔子数列,前两个数字都是1,后面每个数字都等于前两个数字之和,于是这个数列就是
1、1、2、3、5、8、13、21、34、55、89…
我统计了前154个斐波那契数,它的大小已经从1增长到1031,其中首位数是1的数字有45个,占比29.2%。其余首位数的比例如下:
斐波那契数列首位数比例
是不是非常神奇?
除了斐波那契数列,许多物理、化学常数(例如放射性元素的半衰期)也符合本福特定律的预言。
4用本福特定律发现假账
如果我们掌握了本福特定律,就可以利用这个定律发现财务数据造假,因为造假者人为篡改了数据,就会与本福特定律产生偏差。这里最典型的例子是安然公司。
安然公司倒闭
2001年,美国最大的能源交易商、年收入破千亿美元的安然公司宣布破产,同时传出公司财务造假的传闻。于是,有人用本福特定律对安然公司公布的财务报表进行了检验。下图中左侧是所有上市公司的财务数据与本福特定律的符合情况——简直可以用“精准”二字形容;而右图是安然公司在2000-2001年的财务数据与本福特定律的偏离情况,我们会发现数字1、8、9频率相比本福特定律明显偏大,而数字2、3、4、5、7又明显偏小。这说明:安然公司的确有造假嫌疑。
全体上市公司和安然公司财务数据与本福特定律对比
最终,经过深入细致的调查,美国司法部认定安然公司财务造假,安然公司CEO杰弗里·斯基林被判刑24年并罚款4500万美元;财务欺诈策划者费斯托被判6年徒刑并罚款2380万美元。有89年历史并且位列全球五大会计师事务所的安达信因帮助安然公司造假,被判处妨碍司法公正罪后宣告破产,从此全球五大会计师事务所变成「四大」。
现在,本福特定律已经成为会计师们判断销售数据、财务报表等数据是否造假的依据之一,甚至还有人使用本福特定律来检验选举中是否存在舞弊现象。
对于天猫双十一,我们只需要拿到各个品类的销售数据、各个地区的销售数据、各个时段的销售数据,分别进行本福特定律进行检验,就能知道销售数据是否有造假嫌疑了。
5如何证明本福特定律?
那么,自然界中为什么会有这条神奇的定律呢?我们如何才能证明它?
因为本福特定律并非是严格定律,只在特定条件下成立,所以并不存在一般意义上的证明。或许,我们应该说,我们可以研究:究竟什么样的数据更加符合本福特定律。
在生活中,有许多数据满足这样的特点:单位时间内的增长量正比于存量。
比如,我有100元,存到银行里,年利息3%,明年就会变成103元。如果我有100万,存到银行里,明年就会变成103万,这就是典型的增量正比于存量的情况。
再比如,在相似的经济环境下,人口的自然增长率是比较固定的,所以一个国家的人口越多,每年新增的人口也会越多,这也符合增量正比于存量。
视频播放量又如何呢?许多视频网站都采用数据流推送的方式,一个视频有越多的人观看、点赞、评论、转发,系统就会把这个视频推送给更多的人,于是新增的观看次数也会越多。
视频推荐量和视频播放量
如果用数学语言来描述,增量ΔN与存量N和时间Δt之间满足下面的关系:
这表示:在单位时间内,增量与存量之比是一个常数。如果在最初数据为N0,经过时间t,数据量就会变为
这是一个指数型函数,随着时间的推移,数据会指数长大。而且,指数型函数有一个特点:数据从N1增长到N2的时间与两个数据的比有关:
比如数据从1增长到10所需要花费的时间,与从10增长到100、从100增长到1000所花费的时间都是相同的。
指数增长函数的特点
如果数据满足这个增长率,那么就有很大可能满足本福特定律。比如,假设数据是2位数,从10增长到20的过程首位数都是1,这段增长所需要花的时间为:
同样,数据从20增长到30的阶段首位数是2,时间为:
……
按照这个规律,数据在首位数是n的情况下增长时间为:
在两位数的情况下,数据从10增长到100,首位数就会遍历1、2、3、4、5、6、7、8、9,所需要花费的总时间也可以计算,为:
我们已经知道了这个增长数据保持两位数的时间,还知道在增长过程中,不同首位数的时间。我们会发现,从首位为1增长为首位为2时间最长,因此在进行统计时,这种数据出现的概率最大;而首位数为9的增长时间最短,这种数据出现的概率就小的多。
我们用首位数为n的增长时间占总增长时间的比例代表了首位数为n的概率,于是就会得到公式:
这就是本福特定律。
两位数是这样,三位数、四位数、五位数也同样如此。每一个数据首位数的概率情况如此,那么当大量数据堆积到一起,首位数的频率情况满足本福特定律,就不足为奇了。
有关本福特定律的研究一直在进行中,前几年我有一个学生叫做李聪乔,他现在在北大物理系读书。前几个月,他与老师马伯强、同学丛明舒合写了一篇论文《从拉普拉斯变换看首位数定理》,这篇论文对数据进行拉普拉斯变换,通过变换后的数据特点讨论哪些数据更满足本福特定律,有兴趣的小伙伴不妨下载来看看哦。
扫描二维码获得论文
李永乐老师全新科普专栏《李老师品书:从一到无穷大》已经发布啦!用60期节目解读科普经典。李老师将会带着你沿着伽莫夫的足迹,用每天几分钟的时间了解数学、物理、生物、和宇宙的奥妙。每个购买专栏的小伙伴都能免费附赠一本最新修订版的《从一到无穷大纸质图书》(购买后添加微信mtketang0007获得)更多信息请点击:《李永乐老师品书:从一到无穷大》 扫描下方二维码立刻订阅吧!
美提课堂致力于打造中学理科(数学、物理、化学、生物)精品课程,致力于让优秀的课程服务更多的学生,所有老师均毕业于北大、清华、北师大等著名学府,并拥有国内一流中学十年以上教学经验。目前,网校已经累计开设直播课、专题课、公开课、讲座等数千小时。只需一次点击,让你和名师0距离。快戳这个链接:如何在美提课堂上听课。
客服小姐姐微信: mtketang0007
客服电话:400 155 2135