观点 | 何宝宏:数据会说谎
大数据如同“钻石矿”,要求“除了上帝,任何人都必须用数据说话”。但另一方面,大数据需要人的介入,需要使用人造的算法工具,来开采、提炼、加工和展示。有人的地方就有江湖,就有谎言。
应采样什么数据,是有预设目的的。历史上留存最多数据的“记录”,主要是在天文和人口方面。东方的朝廷和西方的教会都会投巨资观察观测天体,不仅是为了农业生产,更是为了统治的需要。你是上天的儿子,你是上帝的代言人,老爹的脾气秉性你应该最清楚,是吧。统治阶级费劲扒拉地计算地上的人口,可不是为了给你发放养老金,而是为了税收和征兵。
一切历史数据,都是可以任意打扮的小姑娘。古代世俗统治者或精神统治者巨资编纂《永乐大典》《四库全书》《圣经》等时,如何采样是根据是否正统来决定的,保留和传播正统的信息,抑制、篡改或消灭非正统信息。如何定义正统,根据“工作”需要。“焚书”是为了消除信息,“坑儒”是为了消灭信息源,“文字狱”是大数据分析的结果。
受资源和技术条件的限制,很多情况下无法对一个事物做“全息”描述,于是出现了统计采样的实用新型发明。采样和统计,是对事物信息的有损压缩和解压缩。大数据技术的爆发,是因为摩尔定律、云计算和算法等的进步,以降低压缩比为代价,牺牲更多IT资源为代价,换取物体信息的更高清晰度,更多维度。
但技术限制没有消失,只是明显降低了。认为大数据可以把更大数据集就当作全体,是一种妄想。数据本身可能还是不完整的、不正确的或过时的。数据量增大后,可能会让信号更明显,但也可能会让信号更加深藏于噪音中。更多的数据,会让结果中的小数点后多上几位,看起来更加精确。但结果看起来越精确,就越容易诱导人去相信它,但却与正确与否无关,是“精”而不“确”。
算法工具是人设计的。很多大数据算法是不公开,是黑箱操作的,外界无法了解其设计方法和选择过程。对于需要处理的众多输入数据,算法赋予它们的权重有可能是主观的。很可能会由于前面算法的选择,会影响了后续一系列的选择和结果,产生蝴蝶效应。个性化的推荐服务,会缩小而不是扩大用户的选择范围。
给定一组数据,可以通过科学方法得到差异极大的结果。比如平均数和中位数,都可以衡量一组数据的“中间位置”或“中心趋势”。平均数是所有数据之和除以数据个数,中位说是位于中间的那个数据。无论是平均数还是中位数,很多场景下都不代表真实的情况。比如一组工资数据(1000元、2000元、3000元、4000元、100000元),5个人的平均工资数是22000元,中位数是3000元。看到这样的平均工资水平,你又拖后腿了吧?这不科学。
从巫术到科学,就是“关联关系”不断证伪的过程,“因果关系”不断发现的过程。在一个足够大的数据集里,算法可以“发现”任意多的关联关系,只要你愿意。大数据可能会把巧合当作关联关系,把关联关系当作因果关系。“发改委打飞机”“萧敬腾唤雨”“丁蟹效应”,把现实中有N多的巧合,被调侃成关联关系。熊大和熊二被搬出金融街,光头强赢了。
大数据有可能对数据存在偏见。网上一个笑话,科学家把一只螃蟹放地上,冲着它大吼“走”,螃蟹跑了。然后再拔掉一条左腿,继续冲着它大吼“走”,螃蟹纹丝不动,经过多年反复证明:螃蟹的耳朵在左腿上。CPI是猪而不是房价说了算,就是数据权重带来的价格统计失真,即使数据本身没“失贞”。各省GDP之和,总是高于全国的GDP,不是数学出了问题。
香农提出了“比特”的概念,奠定了信息的计量单位,开创了信息时代。大数据不仅会开创一个新的时代,还会加深数字鸿沟,产生新的偏见和歧视,产生新的不公。世界上最远的距离,是你在沟这边发微信给我,一个甜美的女声告诉你,“您呼叫的用户没有手机”,而我在沟那边正骑着毛驴给你送鸡毛信呢。
用可视化方法,很容易欺骗我们的眼睛和大脑。人的决策并非都是理性的,不仅存在着直觉的偏差,而且还存在着对框架效应,经常会在不同的时候对同一问题,做出不同的甚至是相互矛盾的选择。不仅要看算法处理的结果,还要看人的“眼商”。
数据不会说谎,但人会说谎。数据不会说谎,但人是非理性的。数据不会说谎,但会存在偏见。数据不会说谎,但有些数据没有发出声音。数据不会说谎,但算法可能会有歧视或偏见。相信数据不会说谎,就像要相信用计算机给人算命,更科学一些那样。
上帝从来就没有用数据说过话,上帝一直就默不作声。但哥白尼开始用数据说话,让上帝换了住处;达尔文开始用数据说话,让上帝不再偏爱人类。弗洛伊德通过“不科学”的精神分析,让上帝住在我们心里都玄了。
上帝死了,数据永生。