Big Data, New Epistemologies and Paradigm Shifts作者:罗伯·基钦(Rob Kitchin,爱尔兰国立大学梅努斯学院社会科学研究院/MUSSI)引用:Kitchin R. Big Data, new epistemologies and paradigm shifts. Big Data & Society. April 2014.
科学革命之前,往往是测量(measurement)的革命。
大数据使我们对研究的思考方式发生了重大转变。大数据在认识论和伦理学层面带来了深刻的变化。它重塑了知识构成、研究过程、处理信息的方式、现实的性质及分类等关键问题。大数据为对象、认知方法和社会生活的定义开辟了新的疆域。
与许多涌现的概念一样,“大数据”的定义和使用也五花八门,有的人说大数据由庞大到无法装入Excel电子表格或存储在一台机器上的数据集组成,有的人评估“大数据”更复杂的本体论地位,阐明其固有的特征。2013年,我基于大量文献将“大数据”描述为:- 种类繁多的数据,有结构化的数据也有非结构化的数据。
- 具有关系性,包含共同的字段,使不同的数据集能够结合在一起。
- 灵活,具有扩展性(可以很容易地增加新的字段)和可扩展性(可以迅速扩大规模)的特点。
换句话说,大数据不是简单地用量(volume)来表示的。事实上,业界、政府和学术界长期以来一直在生产大量的数据集,比如国家人口普查。然而,鉴于生成、处理、分析和存储这些数据集的成本和困难,这些数据以严格控制的方式产生,该方式是限制数据范围、时间性和规模的抽样技术。为了使汇编普查数据的工作易于管理,人口普查每五年或十年产生一次,只问30至40个问题,产出的数据通常只有相当粗略的分辨率(例如,地方区域或县,而不是个人和家庭)。此外,用于生成这些数据的方法也相当不灵活(例如,一旦设定并实施普查,就不可能调整或增加/删除问题)。人口普查力求详尽,对生活在一个国家的所有人进行统计,而大多数调查和其他形式的数据生成都是抽样,力求对人口进行“代表”。相比之下,大数据的特点是持续生成(being generated continuously),在范围上力求详尽和细化,在生产上力求灵活和可扩展。产生这种数据的例子包括数字闭路电视、零售业的记录、数字设备(如手机)、数字网络中的交易和互动记录(如电子邮件或网上银行)、网站或应用程序导航的点击流数据记录、嵌入物体或环境的传感器的测量、机器可读物体的扫描(如旅行证或条形码)、社交媒体的发布等等(Kitchin,2014)。上面这些都产生了大量的、动态的、多样化的、精细的关系型数据流。2012年,沃尔玛每小时就能产生超过2.5PB的数据,涉及100多万客户的交易。Facebook每天要处理25亿条内容(链接、评论等)、27亿次“点赞”和3亿张上传的照片。处理和分析这些数据与处理每10年一次的人口普查或几百名受访者的调查完全不同。虽然这种大数据的产生在某些领域(如遥感、天气预报和金融市场)已经存在了一段时间,但是无处不在的计算、广泛的互联网运作以及新的数据库设计和存储解决方案,已经为一些技术的日常生成和分析创造了一个临界点,尤其是为应对丰富数据而设计的新形式的数据分析。传统上,数据分析技术被设计来分析稀薄、静态、直白、低关联性的数据集,这些数据集经过科学抽样并遵守严格的假设(如独立性、静止性和正态性),并且在生成和分析过程中要考虑特定问题。分析大数据所面临的挑战是如何应对丰富性、详尽性和多样性、及时性和动态性、混乱性和不确定性、以及高度关联性,并且所产生的大部分数据并没有考虑到具体的问题或者是其他活动的副产品。这样的挑战直到前些年还过于复杂,难以实施,但由于出现了高效率的计算和分析技术,这样的挑战已经成为可能。这些新技术植根于有关人工智能和专家系统的研究,这些研究试图让机器学习可以通过计算的、自动的数学方式挖掘和检测,建立预测模型并优化结果。此外,不同的模型各有优劣,而且通常很难预判哪种类型的模型及其各种版本在任何给定的数据集上表现最好,因此可以采用合集方法来建立多种解决方案。在这里,我们可以把数百种不同的算法应用于数据集,以确定最佳或综合的模型或解释,这种方法与传统方法完全不同,也就是说完全不同于分析师根据他们的技术知识和数据来选择适当的方法。换言之,大数据分析为理解世界提供了一种全新的认识论方法。新的数据分析方法不是通过分析相关数据来检验理论,而是寻求获得“源于数据”的洞察。大数据生产的爆炸性增长,以及新认识论的发展使许多人认为,一场数据革命正在进行。这场革命对知识的生产方式、业务开展和治理都有深远的影响。在知识生产方面,有人认为大数据为跨学科的新研究范式提供了可能性。正如库恩(Kuhn)指出,范式构成了对世界进行研究和知识综合的公认方式,这种方式在任何一个时间段内都为某一学科的大部分研究者所共有。库恩认为,会周期性地出现一种新的思维方式,来挑战公认的理论和方法。例如,达尔文的进化论从根本上改变了生物科学中的概念思维,同时也挑战了虔诚的创世论学说。吉姆·格雷(Jim Gray)通过四个广泛的范式描绘了科学的演变(下表)。与库恩的主张不同的是,范式转变的发生是因为科学的主导模式无法解释特定的现象或回答关键问题,因此需要提出新的想法,格雷的转变建立在数据形式的进步和新分析方法的发展之上。因此他提出,科学正在进入第四范式,其基础是大数据和新分析方法的日益普及。范式
| 性质
| 形式
| 时间
|
第一范式
| 实验科学
| 经验主义;描述自然现象
| 前文艺复兴时代
|
第二范式
| 理论科学
| 建模,一般化
| 前计算机时代
|
第三范式
| 计算科学
| 复杂现象的模拟
| 前大数据时代
|
第四范式
| 探索科学
| 数据密集型;统计探索和数据挖掘 | 今时今日
|
库恩的论点受到了很多批评,因为在一些学术领域,几乎没有证据表明范式在运作,特别是在一些社会科学领域,那里有一系列不同的哲学方法(如人类地理学、社会学)。尽管在自然科学领域有明确的科学方法,有更多认识论上的统一,以假设测试为基础来证明或证伪理论。此外,范式的描述对学科的发展产生了过分清晰和线性的故事,使科学在实践中展开的混乱的、经过测试的和多元的方式变得平滑。然而,尽管范式的概念是有问题的,但它在构建当前有关大数据发展及其序列的辩论中是有用的,因为许多有关知识生产的主张认为,一种根本上不同的认识论正在形成。也就是说,一种向新范式的过渡正在进行。然而,这种新的认识论所采取的形式是有争议的。本文的其余部分批判性地考察了科学中新兴的第四范式的发展及其形式,并探讨了数据革命在多大程度上导致了人文和社会科学中的替代认识论以及研究实践的变化。
吉姆·格雷设想科学的第四个范式是数据密集型的,是既定科学方法的全新延伸,而其他人则认为大数据开创了一个经验主义的新时代,在这个时代,数据量伴随着能够揭示其内在真相的技术,使得数据能够不受理论的影响,自己就能说话。经验主义的观点在学术界之外获得了信任,特别是在商业之内,但其观点也在数据科学和其他科学的新领域中扎根。与此相反,一种新的数据驱动科学模式正在学术界的传统学科中出现。在本节中,我们对这两种方法的认识论主张进行了批判性研究,并注意到商业和学术界的不同驱动力和愿望,前者专注于利用数据分析来确定新产品、市场和机会,而不是推进知识本身,后者则专注于如何最好地理解世界,并确定对现象和过程的解释。理论的终结:经验主义重生
对于诸如《连线》(Wired)杂志前主编克里斯·安德森(Chris Anderson)这样的评论家来说,大数据、新的数据分析和组合方法标志着“理论的终结”和知识生产新时代的到来。安德森在一篇颇具煽动性的文章中认为,“数据洪流使科学方法变得过时”,大数据中包含的模式和关系本质上产生了关于复杂现象的有意义的、有洞察力的知识。他认为,从本质上讲,大数据促成了一种经验主义的知识生产模式:现在有了一个更好的方法。不计其数的字节数让我们可以说:“相关性已经足够了。”我们能分析数据,而不需要对它可能显示的内容进行假设。我们可以把数字扔进世界上有史以来最大的计算集群,让统计算法找到科学无法找到的模式。相关性取代了因果关系,即使没有连贯的模型、统一的理论或真正机械性的解释,科学也能取得进展。没有理由坚持我们的老路。
科学家们不再需要做出有根据的猜测,构建假设和模型,并用基于数据的实验和例子来检验它们。相反,他们可以挖掘完整的数据集,寻找揭示效果的模式,产生科学结论,而无需进一步的实验。
因此,戴奇(Dyche)认为:“挖掘大数据揭示了我们未知的关系和模式。”斯德特曼(Steadman)同样认为:收集信息的大数据方法使分析人员能够获得关于世界性事务的全部决议。过于仔细地观察某一部分数据,不会有任何损失。试图从太广泛的角度来了解一个情况,而失去了细微的细节,也不会有任何损失。分析师甚至不必再费心提出一个假设。
用来说明这种立场的例子通常来自于市场营销和零售业。例如,戴奇详细介绍了一个零售连锁店的案例,该店分析了12年的购买交易,以寻找最终进入购物者购物篮的产品之间可能存在的未被注意的关系。发现某些商品之间的关联性导致了新产品的投放,并在第一个月的试验中使每个购物车的收入增加了16%。没有假设说产品A经常与产品H一起购买,然后进行测试。数据被简单地查询,以发现存在哪些以前可能没有注意到的关系。同样,亚马逊的推荐系统在不了解书籍和阅读的文化和惯例的情况下,为购物者可能感兴趣的其他商品提供建议。它只是确定了顾客的购买模式,以确定如果A君喜欢X书,鉴于他们自己和其他人的消费模式,他们也可能会喜欢Y书。虽然可能需要解释为什么数据中存在关联,为什么它们可能是有意义的,但这种解释在很大程度上是不必要的。因此,西格尔(Siegel)对预测性分析的看法是:“我们通常不知道因果关系,我们通常也不一定关心。我们目标更多的是预测而不是理解世界。预测胜过解释。”一些数据分析软件正是以这种观念为卖点。例如,数据挖掘和可视化软件Ayasdi声称能够:不需要问问题,就能自动获得洞察力(无论多么复杂)。Ayasdi的客户终于可以了解到他们原本不知道要问的问题的答案。简单地说,Ayasdi是“数字的意外发现”(digital serendipity)。
Ayasdi
数据挖掘中的人为因素和偏见。与其等待被问到问题或被引导到特定的现有数据上,系统将不定向地发现人类控制者可能想不到去寻找的模式。
在经验主义认识论中,有一套强大而有吸引力的思想在起作用,它与现代科学中占统治地位的演绎法相悖:- 通过不可知论的数据分析,数据可以不受人类偏见或框架的影响而自己说话,大数据中的任何模式和关系都具有内在的意义和真实性。
- 意义超越了背景或特定领域的知识,因此,任何能够读懂统计数字或数据可视化的人都可以对其进行解释。
这些因素共同表明,一种新的科学模式正在形成,其中的操作方式是纯粹归纳性的。虽然这种经验主义的认识论很有吸引力,但就其表述的四个观点而言,它是建立在错误的思维之上的。首先,尽管大数据可能试图做到详尽无遗,捕获整个领域并提供全面的解决方案,但它既是一种表征,也是一种样本,由所使用的技术和平台、所采用的数据本体和监管环境所决定,而且它受到抽样偏见的影响。事实上,所有数据都提供了世界的独到观点。这些数据从某些有利的角度,使用特定的工具提供观点,而不是从全知全能的上帝视角提供观点。因此,数据不只是中立的。数据不是以中立和客观的方式从世界中抽象出来的基本要素。数据是在一个复杂的组合中产生的,并在这种复杂的组合中积极地塑造其构成。第二,大数据不是凭空产生的,也仍然受到“哲学的规范力量”的影响。与此相反,系统被设计用来捕捉某些类型的数据,所使用的分析方法和算法是基于科学推理的,并通过科学测试进行了完善。因此,在数据中识别模式的归纳策略并不是在科学真空中发生的,而是由以前的发现、理论和训练所构成的。新分析方法可能会呈现出无需提问就能自动发现见解的假象。第三,数据的产生不可能脱离理论,它们也不可能脱离人类的偏见或框架而为自己说话。正如古尔德(Gould)指出:“无生命的数据永远不能为自己说话,我们总是把一些概念框架带到调查、分析和解释的任务中,这些框架要么是直观的、不成形的,要么是严格的、结构化的。”对数据的理解总是有框架的。即使这个过程是自动化的,用于处理数据的算法也被赋予了特定的价值,并在一个特定的科学方法中被赋予了背景。此外,在一个数据集中发现的模式并不具有内在的意义。数据集内的变量之间的相关性可能是随机的,没有或很少有因果关系,将其解释为这样可能会产生严重的生态谬误。在大数据的情况下,这种情况会更加严重,因为经验主义的立场似乎促进了数据挖掘的做法。第四,数据可以自己说话的想法表明,任何对统计有合理理解的人都应该能够在没有背景或特定领域知识的情况下解释它们。这是一些数据科学家、计算机科学家以及其他科学家(如物理学家)的自负。他们已经开始积极实践社会科学和人文科学研究。例如,一些物理学家已经将注意力转向了城市,他们采用大数据分析法来模拟社会和空间过程,并确定支撑城市形成和功能的所谓规律。这些研究往往故意忽略了几个世纪以来的社会科学学术研究,包括近一个世纪的定量分析和模型建立。其结果是对城市的分析是还原主义的、功能主义的,忽视了文化、政治、政策、政府和资本的影响。科学界人士也有类似的担忧。例如,斯特拉瑟(Strasser)指出,在生物科学中,对生物学有着非常狭隘和特殊理解方式的生物信息学家正在要求占据曾经由临床医生和实验及分子生物学家占据的位置。简言之,虽然数据可以不受背景和特定领域的专业知识的影响而被解释,但这种认识论逻辑上的解释很可能贫瘠而无益,因为它缺乏更广泛的辩论和知识的嵌入。这些谬误的概念已经获得了一些支持,尤其是在商业圈内,因为它们拥有一个方便的叙述,以知识为导向的企业(如数据经纪人、数据分析供应商、软件供应商、咨询公司)在销售他们服务时的愿望。在经验主义的框架内,数据分析提供了有洞察力的、客观的和有利可图的知识的可能性。在这个意义上,尽管所采用的数据科学技术对实践者来说可能具有真正的重要性,但新的经验主义的表述作为一种话语修辞手段,旨在简化更复杂的认识论方法,并说服供应商相信大数据分析的效用和价值。
和新形势的经验主义比起来,数据驱动的科学寻求坚持科学方法的信条,但更愿意使用归纳、归纳和演绎的混合方法来推进对一个现象的理解。它不同于传统的实验性演绎设计,因为它试图产生“从数据中诞生”而不是“从理论中诞生”的假设和见解。换句话说,它试图在研究设计中纳入一种归纳模式,尽管通过归纳进行解释并不是预期的终点(与经验主义方法一样)。相反,它在采用演绎法之前形成了一种新的假设生成模式。归纳的过程也不是凭空产生的,而是在一个高度发展的理论领域中被定位和背景化。这个过程是有指导意义的,即现有的理论被用来指导知识的发现过程,而不是简单地希望在一个数据集中识别所有的关系,并假设它们在某些方面是有意义的。因此,如何生成或重新利用数据是由某些假设来指导的,这些假设由理论和实践知识以及经验来支撑,即技术及其配置是否能捕获或产生适当和有用的研究材料。数据不是通过各种可能的手段产生的,也不使用每一种可用的技术或每一种抽样框架。相反,数据产生和再利用的策略是经过深思熟虑的,以获取某些类型的数据,而不是其他数据。基于某些标准,注意力集中在那些似乎提供了最有可能或最有效的前进方式,而非测试所揭示的每一个关系是否真实。事实上,数据集中的许多假定关系很快就会被领域专家认为是微不足道或荒谬的,而其他关系则被认为值得更多关注。这种关于数据生成和分析方法的决策基于归纳推理。归纳是皮尔斯(C. S. Peirce,1839–1914)提出的一种逻辑推理模式。它寻求一个具有理性和逻辑意义的结论,但其主张并不确定。例如,它并不试图推断什么是产生数据的最佳方式,而是在已经知道的关于这种数据生产的情况下,确定一种有逻辑意义的方法。归纳法在科学中非常常见,特别是在制定假设时——尽管这种使用并没有被广泛承认。数据中所揭示的任何关系都不是凭空产生的,也不是简单地为自身说话。归纳的过程(从数据中产生的洞见)是有背景的。这些见解不是研究的终点,也不被编排和推理成一种理论。相反,这些洞见为假设的提出和对其有效性的演绎测试提供了基础。换句话说,数据驱动的科学是传统科学方法的重组版本,提供了一种建立理论的新方法。然而,认识论上的变化是显著的。
一些人认为,数据驱动的科学将成为大数据时代科学方法的新范式,不过不会终结经验主义和理论,因为数据赞成的认识论适合提取传统“知识驱动的科学”所不能产生的额外的、有价值的见解。知识驱动的科学,使用直接的演绎方法,在稀缺的数据和薄弱的计算条件下,对于理解和解释世界有着特殊的效用。然而,技术和方法论的进步意味着有可能对数据进行更丰富的分析,应用新的数据分析方法,并能够以迄今为止前所未见的方式将大量的、分散的数据连接在一起,产生新的有价值的数据,以新的和令人兴奋的方式识别和处理问题。有鉴于此,继续使用这种方法是没有意义的。此外,数据驱动科学的倡导者认为,它更适合于探索、提取价值,去理解大量的、相互关联的数据集,促进跨学科的研究,结合领域的专业知识(因为它较少受到起始理论框架的限制),它指向整个复杂系统的更全面和广泛的模型和理论,而不只是成为这些模型和理论的元素。例如,有人认为,数据驱动的科学将改变我们对环境系统的理解,来源多样的、实时的、高分辨率的数据被整合到一起(如气象站、卫星和航空图像、气象雷达、溪流观测和测量站、公民观测、地面和空中激光雷达、水质采样、气体测量、土壤核心)。以此,大数据提供变化中的非常详细的环境模型(而不受制于凝滞的时空节点),并确定现象和过程之间的具体关系,产生新的假设和理论,然后可以进一步验证其真实性。大数据还有助于识别、进一步理解不同环境领域——如大气层(空气)、生物圈(生态系统)、水圈(水系统)、岩石圈(地球的岩石外壳)和土壤(土壤)之间的联系点,并有助于将理论整合到一个更全面的理论组合中。这将使人们更好地理解工作中的各种相互关联的过程以及与人类系统的相互联系,并可用于指导预测长期趋势和可能的适应战略的模型和模拟。虽然大数据实证主义和数据驱动的科学认识论似乎将改变自然科学、生命科学、物理科学和工程科学的研究方法,但它们在人文和社会科学中的发展轨迹却不那么确定。这些领域的学者在各自的哲学基础上有很大的差异,只有一些学者采用了科学中常见的认识论。通常,那些使用科学方法来解释和模拟社会现象的学者会借鉴实证主义的思想(尽管他们可能不会采用这样的标签)。这类工作倾向于关注实际的、量化的信息——可以稳健测量的、经验性的、可观察的现象(如数量、距离、成本和时间),而不是人类生活中更无形的方面,如信仰或意识形态。实证主义方法在经济学、政治学、人文地理学和社会学中有很好的地位基础,但在人文学科中却不怎么样。然而,在上述这些学科中,在过去的半个世纪里,也出现了一个强大的趋势,那就是后实证主义的方法,特别是在人文地理学和社会学。对于社会科学中的实证主义学者来说,大数据提供了一个重要的机会,可以开发更复杂、更广泛、更精细的人类生活模型。尽管人们对社会和经济大数据的获取(其中大部分是由私人利益产生的)和数据质量等问题有所顾虑,但是大数据为“从数据稀缺到数据丰富的社会研究,从静态快照到动态展开,从粗略的聚合到高分辨率,从相对简单的模型到更复杂、精密的模拟“都提供了可能性。计算社会科学新时代的潜力是存在的,它所产生的研究具有更大的广度、深度、规模和时间性,而且与现有的社会科学研究相比,是内在的纵向研究。此外,数据的多样性、无穷尽性、高分辨率和高度的相互关系性,加上强大的计算和新数据分析能力,一并解决了迄今为止对实证主义学术研究的一些批评,特别是那些还原主义和普遍主义的批评,提供了更精细、敏感和细微的分析。现在,数据可以思考背景和连续性,并用来完善和扩展对社会和空间世界的理论理解。此外,鉴于数据的广泛性,我们也有可能在各种环境和情况下检验这种理论的真实性了。在这种情况下,人们认为关于个人、社群、社会和环境的知识在制定政策和解决人类面临的各种问题方面将变得更有见地、也更有用。对于后实证主义学者来说,大数据既提供了机遇也带来了挑战。机遇是各种模拟和非结构化数据的激增、数字化和相互联系,其中涉及大部分是新的数据(如社交媒体),而且大部分是以前难以获取的数据(如历史上数以百万计的书籍、文件、报纸、照片、艺术作品、物质性对象等)。在过去的几十年里,许多组织已经将历史上的数据转化为数字形式,同时提供了新的数据整理、管理和分析工具,用以处理大量的数据对象。因此,与其专注于少数小说或照片,或几个艺术家和他们的作品,不如在大量的相关作品中进行搜索和关联。或者,与其专注于少数网站、聊天室、视频或在线报纸,不如研究成千上万的此类媒体。这些机会通过新兴的数字人文学科领域得到了最广泛的研究。最初,数字人文学科包括策划和分析生来就是“数字”(digital)的数据,以及数字化和归档项目,这些项目试图将模拟文本和物质对象转化为数字形式,可以被组织和搜索,并接受基本形式的总体性、自动化或指导性分析,如内容摘要可视化。随后,数字人文的倡导者分成了两个阵营。第一阵营认为,新的数字人文技术(计数、绘图、制图和遥测读数)为学科带来了方法论上的严谨性和客观性,而迄今为止,这些学科的重点和方法是不系统的和随机的。相比之下,第二类人认为,新技术不是取代传统方法或为人文学术提供经验主义或实证主义的方法,而是补充和增强现有的人文学科方法,促进传统形式的解释和理论建设,并使更广泛的研究能够回答那些没有“计算”(computation)就几乎无法回答的问题。数字人文学科并没有受到普遍欢迎,反对者认为将计算机作为“解读机器”是对传统细读方法的挑战和破坏。卡勒(Culler)指出,细读“关注意义如何产生或传达,关注什么样的文学修辞策略和技巧被用来实现阅读效果”。这是计算机做不到的。他担心的是,数字人文学科的方法促进了不涉及实际阅读的文学研究。同样,特朗佩纳(Trumpener)认为:“统计学驱动的文学史模式似乎需要一只非个人化的无形之手。”她认为,任何看清全局的尝试都需要有广泛的知识、对流派和文学制度如何运作的、敏锐的历史化意识和精辟的解释工具。同样,马尔什(Marche)认为,文学这样的文化艺术事实不能被当作单纯的数据对待。一篇文章不是简单的字母和单词的顺序,它有背景,传达着意义和品质。算法在捕捉和破译意义或背景方面非常差,而且它把“所有的文学作品都当作是一样的”。对小说和报纸文章的算法分析必然让还原主义无能为力。它将文本转化为数据的过程消除了差异本身。它消除了品味。它使批评失去了所有精华的部分。它移除了作品的接受史。
艺术的价值,一部戏或一幅画的品质,都是无法衡量的。你可以把各种数据放进机器里——日期、颜色、图像、票房收入,但都无法解释艺术品是什么,它意味着什么,以及它为什么强大。这需要人,而不是机器。那么,对许多人来说,数字人文学科正在培养薄弱的、表面的分析,而不是深刻的、透彻的洞见。它的技术手段过于简化和粗糙,为了规模、广度、自动化、描述性模式而牺牲了复杂性、特殊性、背景、深度和批判性,并给人以解释不需要深刻背景知识的印象。同样的论点也可以针对商业社会科学提出来。例如,一个城市的推特语言地图可能揭示了不同种族社群的地理集中模式,但重要的问题是谁构成了这种集中,它们为什么存在,形成和再生产的过程是什么,它们的社会和经济后果是什么?确定模式是一回事,解释模式是另一回事。这需要社会理论和深刻的背景知识。因此,模式不是终点,而是额外分析的起点,这几乎肯定需要其他数据集。正如早期对定量和实证主义社会科学的批评一样,计算社会科学被后实证主义者认为是机械的、原子化的和狭隘的,它把不同的个人和复杂的、多维的社会结构简化为单纯的数据点。此外,这种分析充满了社会决定论的假设,如蓬特兰(Pentland)所举的例子:“你是什么样的人在很大程度上由你的社会环境决定,所以如果我能看到你的一些行为,我就能推断出其他的行为,只要把你和你人群中的人进行比较。”相比之下,人们认为人类社会过于复杂、偶然和混乱,无法用公式和法则来归纳,定量模型对战争、种族灭绝、家庭暴力和种族主义等现象的见解不深,对其他人类系统(如经济)的洞察力也很有限,没有充分考虑到政治、意识形态、社会结构和文化的作用。人们不以理性的、预先确定的方式行事。相反,生活中充满了矛盾、悖论和不可预测的事件。社会如何组织和运作在不同时空上都不相同,不存在最佳或理想的形式,也不存在普遍的特征。事实上,整个地球上的个人、文化和生活方式存在着难以置信的多样性。将这种复杂性简化为抽象的主体,充斥着单一的模式,对我们创造知识的方式来说是一种象征性暴力。此外,实证主义方法故意忽略了人类生活的形而上学方面(与意义、信仰、经验有关)和规范性问题(关于事物“应何”而不是“如何”的伦理和道德困境)。换句话说,实证主义方法只关注某些类型的问题,他们试图以一种简化的方式来回答这些问题,似乎忽略了人和生活的丰富意义。这并不是说定量方法没有用。它们显然是有用的。只是说,定量方法应该认识到它们在理解人类生活方面的局限性,并以其他方法加以补充。因此,布鲁克斯(Brooks)认为,大数据分析与社会相互斗争(人们不是理性的,也不会以可预测的方式行事;人类系统是非常复杂的,具有矛盾和矛盾的关系)。大数据分析还与背景相互斗争(缺乏社会、政治、经济和历史背景)。布鲁克斯还认为,大数据由更多的虚假关联组成,难以解决大问题(尤其是社会和经济问题),跟风识别趋势,但不一定是重要的趋势。而且,大数据模糊了数据生产者和分析者及其目标的价值观。换句话说,尽管大数据分析可能会提供一些见解,但我们需要认识到,它们的范围是有限的,会产生特定种类的知识,并且仍然需要与其他信息(无论是现有的理论、政策文件、小数据研究,还是历史记录)相联系。除了认识论和方法论方法之外,问题还在于,很多大数据和分析似乎是在没有考虑特定问题的情况下生成的,或者不由特定的问题驱动。驱动重点的是数据集内容。推特地理标签的数据并不提供一个城市中语言群体的地理集中度以及驱动这种空间的相关过程的答案。因此,我们也许不应该惊讶于它只提供了一个表面的快照(尽管很有趣),但不是对特定地区的种族、语言、集聚和隔离的地理环境的深入洞见。大多数数字人文主义者承认细读的价值。人文学科和社会科学在这方面的区别在于,数字人文中所使用的统计数字主要是描述性的(识别和绘制模式)。相比之下,计算性社会科学采用的是科学方法,用推理统计来补充描述性统计,以寻求识别关联和因果关系。换句话说,它们的认识论目的是产生复杂的统计模型来解释、模拟和预测人类生活。这与后实证主义的方法更难调和。因此,宣传的重点在于方法和模型的效用和价值,而不是对更广泛的数据集进行补充性分析。毫无疑问,大数据和新数据分析的发展为重新构建科学、社会科学和人文学科认识论提供了可能性,而且这种重构已经在各学科中积极展开。大数据和新的数据分析使人们能够采用新的方法来生成和分析数据,从而有可能以新的方式提出和回答问题。大数据不寻求从受范围、时间和规模限制的数据集中提取见解,而是提供了处理和分析庞大、动态和多样数据集的反面问题——解决方案是开发新形式的数据管理和分析技术、依赖机器学习和新可视化模式。在科学方面,对大数据的获取和新的研究方法导致一些人宣称新的、“第四范式”的出现,这种范式植根于数据密集型的探索,挑战着既定的科学演绎方法。眼下,虽然大数据显然是一种颠覆性的创新,为科学提供了一种新方法的可能性,但这种方法的形式还没有确定。大数据有两条潜在的方法路径,它们具有不同的认识论。一种是经验主义,其中数据可以不受理论的影响。另一种是数据驱动的科学,通过融合归纳、归纳和演绎的各个方面,彻底修改现有的科学方法。鉴于经验主义的弱点,数据驱动的方法似乎会最终会胜出。并且随着时间的推移,随着大数据的普及和新数据分析技术的发展,数据驱动的科学将对既定的知识驱动的科学方法提出有力挑战。为了配合这种转变,数据驱动的科学哲学基础(认识论的信条、原则和方法),需要通过努力和辩论为新范式提供一个强大的理论框架。鉴于人文学科和社会科学的哲学基础的多样性,情况要复杂一些,大数据和新分析方法不太可能导致新学科范式的建立。相反,大数据将增强可用于分析的数据集,并促成新的方法和技术,但不会完全取代传统的小数据研究。这一方面出于哲学立场,另一方面也是因为不太可能产生可以用来回答特定问题的大数据。因此,我们有必要进行更有针对性的研究。尽管如此,大数据为社会科学家和人文学者提供了许多机会,其中最重要的是大量非常丰富的社会、文化、经济、政治和历史数据。它也带来了一些挑战,包括分析和理解这些数据的技能不足,以及创造一种能够实现后实证主义形式的、计算性社会科学的认识论方法路径。