Henry E. Brady, 2019, The Challenge of Big Data and Data Science, Annual Review of Political Science Vol. 22:297-323.Big data and data science are transforming the world in ways that spawn new concerns for social scientists, such as the impacts of the internet on citizens and the media, the repercussions of smart cities, the possibilities of cyber-warfare and cyber-terrorism, the implications of precision medicine, and the consequences of artificial intelligence and automation. Along with these changes in society, powerful new data science methods support research using administrative, internet, textual, and sensor-audio-video data. Burgeoning data and innovative methods facilitate answering previously hard-to-tackle questions about society by offering new ways to form concepts from data, to do descriptive inference, to make causal inferences, and to generate predictions. They also pose challenges as social scientists must grasp the meaning of concepts and predictions generated by convoluted algorithms, weigh the relative value of prediction versus causal inference, and cope with ethical challenges as their methods, such as algorithms for mobilizing voters or determining bail, are adopted by policy makers.
社会科学家必须认真研究当前信息传播的急剧变化,这种变化与19世纪交通运输的惊人变化相似。这些变化创造了新的贸易网络、新的移民机会、市郊通勤者的新型城市以及对世界的新理解,对政治、经济和社会产生了巨大影响。信息技术最根本的创新来自于从模拟设备到数字设备的转变,这些变化带来了:(a)广泛的数字数据,其中无数事件现在被数字记录; (b)广泛的联系,即认定事件和人员,使他们能够相互联系; (c)普遍联网,使人们融入相互作用的用户社区,成为网络中的节点; (d)无处不在的电脑创作,电脑创造的新信息成为社会系统及其文化的一部分。政治学家引领了研究这些变化的道路。Harold laswell和Karl Deutsch是早期研究交流及其对社会影响的学生。1983年, Thielde sola Pool研究了美国大众媒体和点对点媒体从1960年到1977年的词汇产生情况。政治学家和其他人的后续研究(Lyman& V arian 2003,Bohn& Short 2012)侧重于信息的数量或存量、流量或速度、信息的种类。他们还以数字字节而不是文字来测量信息,因此这些测量结果反映了图像的扩散,图像每秒传输的字节数比文字或语音传输的字节数多得多(Bohn& Short 2012)。Hilbert& López(2011年)发现,从1986年到2007年,世界人均字节存储容量每40个月翻一番。四个显著的趋势,导致了大数据革命:广泛的数字数据化、广泛的连通性、网络化和计算机创作。首先,关于社会事件的数据激增,数字通信正在取代模拟通信。这种广泛的数字数据化(Cukier& Mayer Schoenberger,2013年)以计算机易于存储和处理的格式创建数据。其次,存在广泛的连通性,因为原则上,点对点通信比广播更容易跟踪。数据化和连通性意味着曾经短暂的事件现在可以被识别和研究。网络化,这对社会科学家来说尤其重要。然而,一旦通信被归类为人与人之间的通信或从一个来源到多个来源的大众通信,现代通信就涉及结合了这两种模式特征的中介社交网络。最后,尽管传统上信息的交流涉及以最相似的方式发送信息,即使信息在传输过程中被转换,但越来越多的信息是由计算机编写的。计算机使用程序产生新的输出,以新颖的方式组合输入。
3. 大数据和数据科学的定义
3.1 大数据
规模、复杂性和技术挑战为大数据提供了一个定义(国家研究委员会2013),但它们似乎不足以预示我们的数据环境发生巨变,因为数据集规模和计算机能力之间的竞争可以追溯到计算的出现。美国国家标准与技术研究所(National Institute of Standards and T Technology)提出,“从根本上说,大数据范式是数据系统架构的一种转变,从具有垂直扩展功能的单片系统(即向现有机器添加更大的功率,如更快的处理器或磁盘)进入一个并行的“水平扩展”系统(即向可用集合中添加更多机器,以处理数量、种类和速度),该系统并行使用松散耦合的一组资源”(NIST 2015)。但统计学家David Donoho (2017年)认为,“吸引如此多媒体关注的新技能,并不是能够更好地解决数据推断实际问题的技能;它们是应对大规模集群计算的组织构件的技能。”除了庞大的数据量,大数据革命真正与众不同的特点是记录、连接、联网和创造信息的新技术。NIST定义的“数据分散”也可能不仅仅是一套处理大型计算问题的技术,但计算和互联网的未来形态仍不清楚。因此,大数据革命的真正影响与其说是数据量,不如说是认知环境的变化(Lugmayr,2016年,Neumann 2016年,Schroeder 2018年),这需要新的视角来处理数据化、连通性、网络化和计算机创作。这些现象源于新技术的发明,包括数据科学中的创新方法。
3.2 数据科学
大数据的伴生理念——数据科学,与其说依赖于数据的规模,不如说依赖于在数据激增并迫切需要分析的时代,如何发现新知识。2001年,统计学家William S. Cleveland提出了一项计划,通过为“数据计算”(Cleveland 2001)提供更多资源,“扩大统计空间技术工作的主要领域”,并将这一新领域称为“数据科学”。2007年,计算机科学家Jim Gray在向国家研究委员会计算机科学和电信委员会发表演讲时,主张将“数据驱动科学”作为一种新的科学范式,利用大量数据进行科学发现。Gray(2009年)提出“需要工具来帮助科学家捕获数据、整理数据,然后将其可视化”,目标是“将所有科学数据与所有文献统一起来,创造一个数据与文献互操作的世界。”从这些想法出发,NIST(2015)将数据科学描述为“通过发现或假设制定和假设检验的过程,直接从数据中提取可操作的知识。” Conway (2013)将数据科学置于三个领域的交汇处: 计算机编程能力,数学和统计知识,以及在某一研究领域的专业知识。统计学家David Donoho(2017年)认为,“当今大众媒体对数据科学的比喻甚至经不起基本的审查”,但在Tukey工作的基础上,“有一个坚实的理由可以创造一些被称为‘数据科学’的实体”,提出数据科学应该包括六项活动,本文在其中又增加了一项。表1中,还添加了一些例子:表1 数据科学的七项活动
在2015年的一份报告中,NIST调查了51个大数据使用案例,涉及政府和商业运营、国防、医疗和生命科学、社交媒体、天文和物理、地球和环境科学以及能源。每个领域都涉及产生或分析许多tb级的数据,其中大约三分之一涉及pb级的数据(NIST 2015,)——有时每年pb级。科学家们现在正在以惊人的速度生成数据,研究涉及从亚原子到宇宙的每一个物理尺度。其中一些数据集可能对政治科学家有用,例如用于研究政治心理学数据(Theodoridis & Nelson 2012)或用于研究气候变化对政治影响的卫星传感器数据(Hsiang et al. 2013)。社会科学家也从许多新的数据来源中受益。在过去的30年里,数据的数量和种类都有了巨大的增长,尤其是由于行政数据、互联网数据、文本数据和传感器音视频数据。
一些与谷歌、Facebook或超大数据集合作的政治科学家可能必须了解大数据体系结构以及处理大数据集的新分散方法,如Hadoop、Hive、NoSQL和Spark(V arian 2014,Oussous et al.2018)。相反,政治科学家可能会更好地专注于数据清理、数据管理、可再生科学、数据生命周期管理和数据可视化的新软件。数据清理占用了研究的大部分时间,数据准备是乏味和耗时的。可复制科学旨在使第二位研究者能够“在仅给出一组文件和书面说明的情况下,重新创建项目得到最终报告结果,包括关键定量结果、表格和数字”。Kitzes等人(2017年)通过31个不同科学领域(包括社会科学)的案例研究证明了再现性,重点是数据采集、数据处理和数据分析。
7. 政治学家提出的新问题
7.1 数据科学从何而来?
数据科学方法主要来源于计算机科学、统计学和图书馆与信息科学,其中一些来源于生物学家对人脑神经元之间的连接进行建模的努力,以及认知科学家开发人工智能的工作。数据科学如此受欢迎的一个原因是,机器学习的一个变种,称为深度学习,已经成功地完成了困难的模式识别任务,如语音和图像识别、自然语言处理和生物信息学(LeCun et al. 2015)。
关于大数据和数据科学相关道德问题中,一个有争议的问题是算法不公正的可能性(Noble 2018),特别是在刑事司法领域。许多作家(Harcourt 2007、Mbadiwe 2018、Williams et al.2018)担心,用于分配保释金、判决判刑或将囚犯关押在不同级别的拘留所的算法依赖于非因果性的预测,这些预测再现了刻板印象,加剧了种族偏见。其结果将是加强现有形式的歧视。但问题并不容易,而且“在改善公共安全和满足算法公平的普遍理念之间存在着紧张关系”(Corbett Davies2017年)。就另一个领域而言,政治竞选算法试图动员那些能够被带到投票站的选民,但这通常意味着代表性不足的选民变得更加代表性不足,因为动员他们的成本更高(Brady et al.1999)。Athey(2018)指出,预测算法不仅不公平,而且可能是可操作的。例如,如果有人知道,当人们在某些商店购物时,信用分数会提高,他们可能会在这些商店购物以提高分数。政治学家必须研究这些伦理问题的政治和规范含义,并在设计算法时予以考虑。