读书分享 | 大数据时代,你的思维跟上了吗?
今日看点
《大数据时代》是国外大数据研究的先河之作,作者维克托·迈尔·舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。在新的时代浪潮中,大数据为我们带来了哪些方面的变革?在这样的变革下,文化产业又应如何顺势而为?
一、作者简介
维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger),“十余年潜心研究数据科学的技术权威”,“最早洞见大数据时代发展趋势的数据科学家之一”,“最受人尊敬的权威发言人之一”。说起《大数据时代》的作者维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger),常见这三个荣誉标签。他曾先后任教于世界最著名的几大互联网研究重镇,现任牛津大学网络学院互联网治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中网络监管项目负责人,曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任,并担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。
维克托·迈尔·舍恩伯格学术成果斐然。有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上,同时他也是哈佛大学出版社、麻省理工出版社、通信政策期刊等多家出版机构的特约评论员。他也是备受众多世界知名企业信赖的信息权威与顾问,咨询客户包括微软、惠普和IBM等全球顶级企业,而他自己早在1986年与1995年就担任两家软件公司的总裁兼CEO。此外,他也是众多机构和国家政府高层的信息政策智囊,是世界经济论坛、马歇尔计划基金会等重要机构的咨询顾问,并先后担任新加坡商务部高层、文莱国防部高层、科威特商务部高层、迪拜及中东政府高层的咨询顾问。
二、书籍简介
《大数据时代》被广泛认为是开国外大数据系统研究的先河之作。作者高屋建瓴,通过丰富翔实的实例、经验、包括历史事件中萃取普适性的观念,论述了大数据所带来的思维、商业、管理这三大方面的变革。
在第二部分“大数据时代的商业变革”中,作者首先对数字化和数据化进行概念区分,指出在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了,行业并不会消失,但是他们必须与数据表达的信息进行博弈。作者列举了丰富的例证介绍文字、方位、沟通变成数据所带来的巨大商业价值。例如,社交网络平台将我们日常生活的无形元素提取出来,再转化为可作新用途的数据。Twitter通过创新,让人们能轻易记录以及分享他们零散的想法,从而使情绪数据化得以实现。此外,作者介绍了大数据公司的三种类型——大数据掌控公司、大数据技术公司以及大数据思维公司和人,从行业角度论述了三类公司优长与局限,以及它们之间的合作与竞争。
第三部分“大数据时代的管理变革”则介绍了让数据主宰一切所带来的隐忧,我们时刻被暴露在“第三只眼”之下,例如亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博、微信等则在后台编织着我们的社会关系网,我们的各项隐私被反复贩卖与利用。最后作者提出应对数据进行掌控,施行责任与自由并举的信息管理,从而引发新一次管理规范的变革。
三、核心观点与思考
《大数据时代》最核心且最受人们关注的便是第一部分“大数据时代的思维变革”。思维变革包括三大方面:大数据大在全体数据,大数据不追求精确性,大数据不讲因果而讲相关关系。
1
更多:不是随机样本,而是全体数据
在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。大数据为当今社会带来了一种独有的新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得巨大价值的产品和服务,或深刻的洞见。这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界。
这样的观点对传统意义上的统计学构成了冲击。作者认为:“随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。”如今我们已经拥有足够强大的数据搜集和数据处理能力,样本不再是万分之一,而转变成了“样本=全部”。传统意义上的统计学中的随机抽样方法中有一条极其明智的真理:“采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。”可以说,“样本分析”奠定了绝大多数科学研究的基础。而大数据时代,全数据分析的模式将全面替代“样本分析方式”。
2
更杂:不是精确性,而是混杂性
“执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的,如果不能接受混乱,剩下的95%的非结构化数据都无法被利用。”
研究数据如此之多,以至于我们不再热衷于追求精确度。当然,我们也不是完全放弃了精确度,只是不再沉迷于此。大数据时代的另一种思维就是“不是精确性,而是混杂性”。 对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。而在大数据的采集里,允许不精确的出现已经成为一个新的亮点,而非缺点。从谷歌翻译系统中可以看到,它收集了上万亿的语料库,来自未经过滤的网页内容,可能会含有不准确的用法、语病,未必每一条语料库都非常“精确”,然而这个语料库是布朗语料库的几百万倍大,这样的庞大规模优势完全掩盖了它的缺点,也就是“大数据的简单算法,比小数据的复杂算法,更加有效”。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。大数据时代要求我们重新审视精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要的信息。快速获取一个大概的轮廓和发展脉络,要比严格精确性要重要的多。就像印象派的画风一样,近看每一笔都感觉是混乱的,但是退后一步你就会发现是一幅伟大的作品。
3
更好:不是因果关系,而是相关关系
正是因为上文论及的两个转变,从而促成第三个转变,即我们不再热衷于寻找因果关系。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。这是作者本人及许多读者认为最有价值、最重大的发现,而实际上却也是最受争议的一个观点。本书译者周涛教授在序言里也表示:如果放弃对因果关系的分析,是人类的堕落。
作者认为,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。通过给我们找到一个现象的良好的关键物,相关关系可以帮助我们捕捉现在和预测未来。例如,沃尔玛知道尿布和啤酒、手电筒与pop-tarts蛋挞的销量具有正相关性,就足够做出将两个物品摆放在一起销售的决策了。它并不需要去分析原因,因为只要知道这件事情“正在发生”或者“即将发生”,企业就完全能够做出正确的决定。
作者举出的另一个例证中说道,谷歌分析搜索关键字来确定哪里可能发生了流行病,并认为这就是利用了相关性而不是因果性。然而笔者认为,事实上,在投入巨大的机器资源进行分析之前,分析师已经预计了得病的症状可能会导致人们去网上进行哪些相关搜索。也就是说,在谷歌精准投放机器资源前,谷歌已经对事情发生原因的可能性进行了预判,并对搜索数据进行了筛选。因此不需要知道“为什么”似乎有过于绝对之嫌。
4
大数据时代里的文化产业
近年来,智能商务、云计算、物联网、虚拟现实、人工智能等新技术风驰电掣般进入我们的生活。大数据、新科技正极大地改变着文化的内容生产、传播方式、消费方式。
《大数据时代》还提出的一个核心观念是:“大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性 。”大数据进入应用的动机在于以它自身的优势使生产者洞悉市场的变化。当大数据在文化场内的急速扩张而使得行动者的习性被大数据化时,文化也从生产的初期被大数据化,此时大数据时代的来临就是关注消费时代的来临。
在这样的时代中,大数据不仅能丰富文化产品的内容,而且促进了产业管理与运营模式的更新,使生产者能够更好的把握市场的需求。万达影院建立了庞大的会员相关数据库,作为公司的核心资产,腾讯视频也有着大量的用户数据资源积累,并开始尝试使用HADOOP等相关技术对这些数据库进行数据分析和挖掘,以此来激发新的文化创意,或者作为获取更有商业价值的文化创意的标准。
四、总结
通读全书后,我们最后再回答大数据是什么这一问题。作者给出的答案是:大数据是一种资源,也是一种工具,它告知信息但不解释信息,它指导人们去理解,但有时也会引起误解,这取决于是否被正确使用。大数据是耀眼的,我们必须避免被它的光芒诱惑,并善于发现它固有的瑕疵。例如,大数据在改变传统的思维、商业和管理的同时所带来的巨大安全隐患。《连线》(Wired)杂志创始主编凯文·凯利曾预言:“未来我们信息的获取是以我们的信息的透明为前提的,但是谁知道这些数据会不会被犯罪分子利用。”此外,大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应到怀有谦恭之心,铭记人性之本。
END
美 编 | 洪欣言
推荐阅读
读书分享 | 在本土与全球之间双向运行的美国文化,如何影响世界?
读书分享 | 表面光鲜,背后心酸,消费主义不仅掏空你的钱包,还有你的大脑
读书分享 | 了解现实的中国,《江村经济》是跨越时光的一扇窗