关于大数据，我们为什么应该重视质疑的声音？

Original 2017-05-03 黛娜/凯特 腾云

我们已经越来越离不开大数据了。从社交、购物、医疗、基层治理到学术研究，大数据已无处不在，与人类的日常行为紧密绑定在一起。而正因如此，那些对于大数据的质疑声才更应该受到重视。

2012年，微软研究院高级研究员、纽约大学研究助理教授、哈佛大学伯克曼互联网与社会研究中心研究员黛娜·博伊德，和悉尼新南威尔士大学副教授、微软新英格兰研究院首席研究员凯特·克劳福德一起发表了《大数据的关键问题》一文，彼时正值大数据兴起的时间节点。

5年过去了，尽管大数据已发生了翻天覆地的变化，但回首本文提到的6条批判性观点，仍可发现其现实意义。

大数据创造了一种新的知识体系，但也削弱了其他探究人类行为的方法的地位。
大数据强化了定量科学和客观方法的地位，但事实上，人们对大数据的处理和使用仍然是主观性的，通过大数据量化的结果也未必更符合客观事实。
大数据≠好数据，有时“小数据”反倒是最好的选择。
离开了实际语境的大数据没有意义。
大数据的获取不一定合乎伦理。
对大数据的垄断或造成新的“数字鸿沟”。

以下是文章全文，由腾云编译。

大

并不是大数据的决定性标志。实际上，许多所谓大数据中包含的数据还没有此前世界上的某些数据集大，例如：人口普查数据，它一定大于现在Twitter中某一话题下的推文总和。大数据更多是指一种能够对大量数据集进行搜索、整合和交叉引用的能力，而这种能力，建立在技术性、分析性和神话性三者的相互影响之上：

技术性：通过最大化的计算能力和算法精确度对大数据集进行收集、分析、连接和比较；
分析性：借助大数据识别各种模型，对经济、社会、技术和法律等领域作出实际判断；
神话性：广泛相信大数据能够提供更高形式的智识，能够产生以前不可能出现的深刻见解，带着真理、客观和精确的光环。

但实际上，大数据也引发了不少争议，可以说是希望与恐惧并存：一方面，大数据是一种解决各类社会问题的有效方式，能够为许多领域提供新的见解，诸如癌症研究、恐怖主义和气候变化；另一方面，大数据也可能成为“帮凶”，可能侵犯隐私、限制个人自由。

因此，随着数据收集和分析的自动化程度越来越高，我们应该怎样看待大数据的兴起？这是一个非常重要的问题。希望以下6条关于大数据的批判性思考能引发人们更多的讨论。

大数据改变了知识的定义

大数据创造了一种新的知识体系，告诉我们如何理解人际关系和社会。同时，大数据也改变了我们对“研究”的传统认知，这在认识论和伦理学层面的影响是深远的。

大数据不仅重新构造了知识体系、研究过程，以及人们如何与信息、自然和现实建立良好关系，还在客体、认知方法和社会生活定义的新版图上有了里程碑式的突破，我们能够以前所未有的精准度对人们的行为和足迹进行追踪——在有了足够的数据之后，数字自己就会说话了。

但是，在这些巨大成就的背后，其他用于探知人类行为的方法却都消失在了数字的洪流之中。

我们发现，当计算机和大数据近乎被人们奉为了一种“神学”，大量知识和信息的稳定性在缺乏足够管束的情况下也惨遭破坏。Twitter和Facebook是典型的例子，因其归档和搜索功能的体验很差，所以人们无法或很难获取更早前的数据，研究者只能将精力集中在当下或刚刚发生的事件，比如，追踪人们对某次选举、电视剧大结局或者自然灾害的反应，除此之外他们能做的并不太多。

大数据的客观性和精确性

有误导结果的可能

大数据强化了定量科学和客观方法的地位，使更多的社会空间可以被可量化。但事实上，人们对大数据的处理和使用仍然是主观性的，通过大数据量化的结果也未必更符合客观事实。

首先，不是所有的数字都是中性的。人们基于自身的主观性，并通过主观的观察做出了大数据“客观性”的判断。但事实上，所有的研究者都是数据的诠释者，一个模型可能在数学上很可靠，一个实验可能看起来很合理，但一旦研究者去寻求它们到底意味着什么，主观诠释的过程就开始了。

其次，决定测量对象的设计层面的决策也是来源于主观诠释。例如社交媒体数据就有一个“数据清理”的步骤，这个过程也充满主观性。

除此之外，还有数据错误的问题。大数据的网络来源经常是不可靠的，很有可能出现中断和丢失。一个数据集可能有几百万个数据，但这并不意味着它是随机的或者有代表性的。对一个数据集进行统计性判断时，需要知道数据从何而来，也需要知道并且解释数据的弱点。

再者，研究者必须有能力诠释数据出现的偏差。但我们需要认识到一点：一个人的身份和价值观会影响他的分析。我们经常可以通过大数据看到实际并不存在的模型，这种模型被做出来的原因仅仅是因为数据能提供辐射所有方向的联系，比如，数据挖掘技术能够显示标准普尔500指数和孟加拉国的黄油生产之间的强相关性，这就是伪相关。

大数据≠好数据

一直以来，虽然社会学研究者都会用系统的数据搜集和分析方法来让他们的研究变得更严谨，但大数据本身就意味着有大量数据的呈现，这看似便捷，却不能说明大数据就是使研究变得严谨的“好数据”。

以Twitter的数据为例，因为它的数据容易获得，学者便会用这些数据去检验大量的理论模型（例如情绪规律、媒体参与、政治暴动以及社交互动等）。然而，哪怕这些数据已经覆盖到了数以百万计的用户群体，它依然有其局限性。

首先，Twitter用户既不代表“所有人”，也不能用来类比“大众”，它只是“大众”当中的一个特别的子集。毕竟并不是每个人都拥有一个账户，一些用户甚至同时拥有好几个账号，而一些账号也可能是好几个人在同时运营，甚至还会有一些机器自动生成的“水军”。另一方面，研究者也很难去界定一个账号是否活跃——有的用户会频繁发状态，而有的用户只是习惯性“潜水”。数据表明，大概有40%的Twitter用户是只浏览状态而不发推文的“潜水”者。

其次，大数据也不能和全数据类比等同。因为如果不考虑数据集样本的具体情况的话，考虑数据的规模是没有意义的。比如，如果Twitter从主流声音中屏蔽并清除了色情和垃圾推文，那么，当一个学者在研究推文的局部频率时得到的数据就是不准确的。这时，不管他获得的数据规模有多大，这些样本都会因为从一开始就不完整而丧失代表性。

再者，当数据源不明确的时候，样本的分析也会变得很困难。例如，Twitter需要通过API抓取用户数据，其中又包括不同类型的Firehose、Gardenhose和Spritzer等应用程序端口，它们抓取数据的规则都不一样。如果搞不清楚数据源，研究者很难评估他们正在分析的数据的质量。研究者在面对多个大数据集的时候需要从不同数据源中整合数据，这也很有挑战性。

最后，数据并不是越“大”越好，有些个案分析也很有价值。识别“小数据”的价值变得越来越重要，在某些情况下，“小”即是最好。

当语境被剥离后

大数据将失去它的意义

过去，社会学家和人类学家通过问卷调查、访谈、观察以及对照实验来搜集关于人类关系的数据，他们用这些数据去描述人类的“个人网络”——个人会发展并去维系的一系列关系。这些个人联系的评估是根据一系列长时间发展起来的量化标准形成的。

当社交网站兴起后，成千上万的研究者投身于社交媒体中去分析其中的用户和信息，希望从中得出一些关于社交网络的新发现，这些社交网络上的大数据甚至还能通过图形和图表可视化呈现人与人的关系。

这些数据都对研究者有很大的价值，但它们都不等同于个人的真实社交关系。为什么？

因为这些社交网络的大数据分析是建立在用户联系的紧密程度上的，这很微妙，毕竟不是一种联系，不一定和另一种联系等价，联系的频率也不一定就能表明关系的紧密程度，而且，两个没有联系的人也不能说明他们不存在关系。

所以，数据不是万能的。不仅需要我们去分析其抽象含义，还要保留它的语境，同时要辨证地进行理解。尤其当数据被简化用以套入模型中时，它的语境尤其难以被评估和保留。因此，如何在大数据中处理语境问题是一个持续的挑战。

大数据容易获取

却不一定合乎伦理

曾经有团队搜集了1700份基于Facebook大学生用户的个人资料做研究，并把这些已经做了匿名处理的数据共享给其他研究者，没想到，其中部分本该匿名的数据被他人再次实名化，结果侵犯了那些不知情的大学生用户群体的隐私泄露。

这个案例不仅上了头条，还给学者们出了难题：社交媒体中所谓的“大众”数据的边界究竟在哪？是否能在未经允许情况下就简单粗暴地进行收集？有没有更符合伦理的方法提供给研究者去选择数据源？

其实，上世纪70年代就已经有伦理审查委员会（IRBs）和其他伦理审查机构了，它们专门负责审查与人有关的课题研究的伦理性。尽管这些机构在评估和执行的时候遇到了不少问题(Schrag 2010)，但它依然能够激励研究者在调研时更辨证地思考道德伦理问题，这也正是这些机构存在的价值。

虽然要求研究者向每一个发推文的用户去获得其“知情同意”是不合理的，公开的内容并不意味着就能被其他人任意使用，一些用户很有可能是不愿意将他的个人数据用在其他地方。很多用户没有意识到会有如此多的服务器和算法在搜集、储存着他们的数据以留作日后使用，而研究者也从来不是用户发推文时会考虑的一类群体——用户没有义务在发状态时候考虑这么多。

所以，研究者要不断扪心自问：在搜集和使用公开数据的时候是否满足道德伦理要求。

大数据造成了新的“数字鸿沟”

从历史上看，搜集数据是很难的，费钱又费资源，而大数据的好处就在于它能够较为容易地获取海量数据，但这样也造成了新的“数字鸿沟”。

一方面，鉴于只有大公司有权获取真正海量的社会数据——尤其是交易数据——所以数据的使用权限其实是被限制的：一些公司会限制数据外流，而其他一些则是有偿提供数据使用权，还有一些会主动提供小部分数据给大学的研究院。这样就造成一个学术圈中的不平等：有钱的研究者或机构可以比其他人占有更大的数据优势。

另一方面，大数据储备程度的差距也是因大学系统的特点而不断扩大的：顶尖的、资源丰富的大学能够买到更多使用数据的权限，他们的学生也是最有可能和大企业打交道甚至在其中工作的。而边缘的大学就很少有机会拿到“数据通行证”。

因此，在评估大数据的未来时，我们都需要考虑到这种冷峻的因素。

此外，俗话说，“负责提问的人决定着哪些问题可以被问”，因为在某种程度上，编程者比那些能提供有价值观点的计算机专家和社会学家都更有话语权，他们同时也是那些决定大数据该怎么被使用且哪些人才能参与其中的游戏规则的人，且现阶段具有计算机技术的研究员往往是男性，所以掌握话语权的群体是不均衡的。

无论何时，当不平等被明确地写入程序中的时候，它们都在制造有等级差异的结构。虽然学术界也达成了共识，承认制度性不平等的存在，但他们同时也要审视自身在研究中是否具有客观性。

本文原载于《信息、通讯与社会》，2012年，第15卷，第662-679页。

// 往期回顾 //

北大中文系邵燕君：为萌、中二病、爱豆等网络词汇立法

只有硅谷AI专家才能写成的科幻小说

GQ何瑫：从鹿晗、MC天佑、帝吧看网络亚文化

为什么不必对中国企业的创新能力感到悲观？

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间