查看原文
其他

计算社会科学与研究范式之争:理论的终结?

苏毓淞 刘江锐 政治学人 2021-04-24


作者简介

苏毓淞,清华大学政治学系教授;

刘江锐,清华大学政治学系博士研究生。

计算社会科学的兴起与发展,缘于大数据的涌现为计算机科学在社会科学研究中施展能力提供了空间。计算社会科学重启了其数据驱动性和社会科学的理论指导性之间的研究范式之争:当不断涌现的大数据就可以直观地解释人类社会行为时,我们还需要理论吗?本文认为,计算社会科学的兴起提供了两种范式交融从而更高效、科学地探讨社会科学研究议题的重要机遇。本文在强调计算社会科学必然带来的跨学科融合的前景与问题的基础上,指出计算社会科学通过对数据观念、研究设计、模型选择和推论原则等方面的实质性影响,调整了社会科学研究中依赖理论的思维定势,拓展了认知复杂多变的世界的工具箱,为追求科学预测和优化因果推断创造了更多的可能性。

一、前言

大数据的涌现掀起了各个学科迭进式的波动;大数据分析倚重的计算机科学渗入了其他学科,形成一个协同发展的趋势。相较于生物和物理等其他学科领域,数据驱动的社会科学则要出现得晚一些。2009年,以大卫·拉泽尔为首的十五位学者联合署名在著名期刊《科学》上发表了题为《计算社会科学》的文章,标志着“计算社会科学”这一新型交叉学科的诞生。文章最重要的观点就是:人类各样的行为在电子化时代都留下了记录,这些数据中蕴含的关于个人和群体行为的规律足以改变我们对个人生活、组织机构乃至整个社会的认知。随着计算能力的发展到足以应对传统定量社会科学研究难以分析的大量人类社会数据,计算社会科学就应运而生。 


自《计算社会科学》发表以来,越来越多的科学家进入社会科学领域,关于社会网络分析和大数据的文章在顶级科学期刊和计算机科学会议中纷纷崭露头角,各项科研经费也开始向对大数据研究领域倾斜。国内外顶级学术机构也纷纷通过支持计算社会科学发展的方式呈现这一学术前沿现象。


然而,从学科发展的历史来看,大数据的涌现仅仅是重启了计算社会科学,而非创造了新的学科。2009年前就有学者提出“计算社会科学” 一词,基于数据进行推论的计算社会科学研究,也不是21世纪才有的新现象。直至近十年计算能力的大幅跨越和数据的大量出现成为一个现象级的领域后,拉泽尔等人相当于趁势重启并重新定义了计算社会科学:对来自数字环境数据的计算分析,界定了人类一直在努力用计算和数据理解社会行为的新阶段。因此,我们现在熟知的计算社会科学概念是对计算社会科学的大数据解释,它是指我们可以获得足够的大数据以直接还原复杂的社会运行规律。大数据重新定义的计算社会科学对社会科学最显著的影响是引发了社会科学研究方法范式之争。争辩主要围绕着究竟社会科学研究应该固守理论指导研究范式,还是应该转向数据驱动研究范式?本文将从三个面向递进式说明我们的主张,两个范式的关系并非互斥而是互补:首先,说明在大数据重启计算社会科学的过程中计算机科学和社会科学两个学科融合产生的影响;其次,在这次学科融合中,计算机科学的导入如何引发社会科学研究范式之争;最后,在沿袭既往两组研究范式对话的背景下,计算社会科学的发展如何提高了数据驱动和理论指导产生交集的可能性。


二、计算社会科学与研究范式之争:重启与融合 

计算社会科学这一提法本身可能造成学科理解上的误会。从字面上来看,既可以理解为“计算式”社会科学,强调以定量算法为研究方法的社会科学研究,也可以理解为计算机科学与社会科学的集合。无论何者,它都揭示了一个需要学科交叉实现知识积累的领域。而计算社会科学概念背后的学科交融性就直接地体现了数据驱动和理论驱动研究范式的碰撞。我们似乎可以容易理解计算机科学在科学分析上的工具性价值,有数据则大有可为,然而,社会科学尽管长期努力通过“假设—验证—结论”的基本程序(基于理论提供的假设是其出发点)来证明自己的“科学性”,鉴于社会科学长期以来以有限的工具应对研究对象的复杂性,解释力或多或少被质疑、被争议在社会科学发展历史中绝不鲜见。因此,有必要认知社会科学在大数据所带来的计算社会科学背景下接近“硬科学”的可能性。学界既有的一些相关概念可以帮助我们更好地理解计算社会科学。比如社会计算,这个相近的概念有三个向度的内涵:第一,计算可以促进对社会世界的理解,人们的线上和线下行为留下的数字痕迹可以被收集用以分析,甚至发现有意义的模型;第二,社会本身就是在自我计算中演化,计算也可以作为呈现着的社会中各种互动的逻辑的一种比喻;第三,社会和计算是相互统一、相互促进的,用基于社会的方法和理念指导计算,也可以用计算的方法去理解社会。社会计算基于社会系统本身的复杂特质。它假定复杂社会系统有一系列自组织行为、演进、自己计算方案和自适应系统过程,有多种紧密耦合于一起的组成部分,有很多可以计算的现象,比如集体理解(理念)和行动。所有的社会行动都关乎复杂计算(比如动物的集群行动,人在社会网络中的活动和选择、更新对彼此的评价,都是一系列过程中计算的结果)。通过深度的计算机学习,可以观察出社会中各类计算过程的模型,观察到更复杂的网络,发现创造性(亦或是颠覆性)的科学内容,探索未知领域的“邻近可能性”,推动创新。类似地,计算社会科学是用计算机生成一些没有计算机便不能接触到的数据、模式并检验一些假设,它也会用到社会计算使用的工具,以计算更好地理解社会,它蕴涵着基于计算能力对研究设计、方法和理论标准的改变。


然而,虽然大量学术文章和机构开始出现,但很少有研究关注到激励计算社会科学发展的“大”问题——比如金融系统的系统性风险、如何分析复杂组织、传染病和社会运动等的动态。这些都是社会科学本身关心的、对理解世界和促进世界发展有极大裨益但社会科学表现并不十分好的重要议题。邓肯·沃茨指出,解决复杂社会问题的分析往往需要互补应用多种研究路径——统计模型和模拟、社会和经济理论、实验室实验、调查、民族志田野调查、历史和档案分析,以及实践经验,而现实是,任何一个研究人员对这其中很多路径都难以全面熟悉。社会科学对人类社会发展的贡献之所以不像自然科学这么明显和高效,与社会科学本身的特质有很大关系。


社会科学所面临的理论问题的复杂性、获取相关观测数据的困难,以及实验性地操纵大型社会组织的难点,使得社会科学研究的进展相对于物理、工程和生物科学等学科来说比较缓慢。社会科学关心的社会现象更多地是指个人在群体、团体、组织、市场、阶级甚至整个社会中活动的集合,这所有要素通过信息和网络彼此互动并随着时间而变化。比如公司稳定的属性和文化不会因为某个特定员工的变化而改变。但是,即使各种成员和背景一直保持一致,股市或者政治制度也可能会在一瞬间意外崩溃。再比如,一个政府的决定可能主要取决于少数政治精英的个人利益,而在其他情况下,这些少数精英的行为可能受到他们所在政治文化的强烈约束。而且,在许多社会科学家所关心的问题中,个人、公司、政府、社会团体等的行动都可能起重要作用。这些不同类型的参与者不仅有不同的规模(企业由个人组成,市场由企业和个人组成),而且还可能以重要的方式相互作用,所以这类问题需要同时考虑跨多个规模的事件、参与者和动力。并且,在很多情况下要收集数亿甚至数万亿的观测数据去了解各种动态模式和特征也很困难。再者,由于仅从观察数据很难推断因果机制,进而还需要进行实验研究。但是实验设计也会遭遇各种困难。例如,要观测一个具有特定结构的组织的表现,这类实验设计显然不可能在物理实验室中实现。也就是说,社会现实中很多现象的因果分配是很困难的一件事,甚至长期以来整个社会科学的知识积累都是为实现更好地识别因果机制的缓慢发展过程。鉴于社会现象不可避免地具有多尺度性、复杂性和突发性,诸多理论难以充分地解释现实的社会行为和变化也就不足为奇。


幸运的是,社会数据革命和计算能力发展的汇合及时地给社会科学更加接近“硬科学”提供了机遇。数据的爆炸式增长及其对学者们驾驭数据的能力的要求不是以社会科学学者的意志为转移的。过去几十年的计算革命不仅极大地提高了计算机本身的效率,而且大大提高了现在可以分析的社会数据的规模和范围,塑造着一个促进社会科学更加计算化的领域,进而有可能彻底改变传统的社会科学,让社会科学发挥出“硬科学”级别的作用。然而,事在人为,我们可以想象,在大数据和计算能力带动社会科学的背景下,一些计算机科学家从事社会科学相关研究并不一定出于“应该做”的冲动,能够处理关于人类行为的大数据并不一定意味着对于社会科学的研究问题有洞察力和问题意识,而仅仅是出于他们的技术能力。社会科学家依然要扮演重要的角色,计算科学家和社会科学家之间应该而且会因为研究需要不得不加强联系。


在计算社会科学这个概念中,“社会科学”这个词强调的就是把社会科学的理论带入计算过程(从数据挖掘到构建模型等)中,理论指导计算,计算证实、证伪或启发理论。在社会科学家对各种社会科学议题的理论积淀和了解深度之外,如果研究对象是人们日常生活中的真实数据,学者还必须考虑到隐私、公平性、责任性、透明度、偏见、包容性等。计算机科学家不一定像社会科学家那样接受过更多相关内容的学术训练。以经济学、社会学、政治学等元科学为大类的社会科学经历了多年的发展,已逐渐演进到学科之间互相促进、合作共赢的阶段。学科的划分使得知识专业化,而知识的真正增长需要对现实世界的日益精准的认知及反思。当学者有意识地用复杂的、综合的、跨领域的视角看待现实世界时,才能尽可能立体地看到世界的多面性。所以,计算社会科学的发展不仅需要一个社群让社会科学家与计算机科学家对话,也要使社会科学相互之间对话;既要打破外部的阻碍,也要破除内部的阻碍,互相协助推动科学研究深化。


三、计算社会科学的价值

计算社会科学由大数据和丰富的算法共同驱动而出现、发展,并基于二者呈现其价值,包含着对复杂的、典型的、大规模的(有时是模拟的)人类行为数据的计算方法的开发和应用。它在科学研究发展脉络中的前身包括对空间数据的研究、社会网络以及对文本和图像的编码。传统的定性或定量社会科学关注的是一个个的案例和一列列的变量,通常假设观察对象之间的独立性,而计算社会科学的分析对象则包括语言、位置和运动、网络、图像和视频,应用统计模型捕捉数据中的各种依赖关系。


分析大数据,比如针对线上行为的分析,就需要对相关行为的数据化。而人工智能的发展为学术研究提供着日益升级的算法、模型等科学分析工具包,意味着可以使用自然语言处理、机器学习、机器视觉、信号分析等人工智能方式,实现对网络、文本、图片、音频、视频、社会行为轨迹等海量资料的数据化生成、结构化处理和计算。在社会分析中涉及高维度建模时,需要对数据降维,从而就需要用到诸如深度学习、LASSO、随机森林、集成学习等模型或算法方案,使数据编码工作更便捷,使大量的离散数据可以更高效地被分析。比如运用机器学习对《人民日报》1951年至2018年的文本(社会科学中有大量类似的非结构化文本数据)分析预测中国的政策变化,还有根据多年的大量新闻文本分析《新闻联播》的宣传模式,这些是人类自身的阅读能力无法在短期可以完成的工作。高性能计算还意味着,可以使用并行计算方式和云存储解决方案,开展大规模的模拟和网络分析,这可能会改变科学思考的方式,推进“贝叶斯革命”,甚至颠覆既有理论认为对的解释。


作为计算社会科学要素的大数据,像所有数据都会受到的质疑一样:(大)数据可靠吗?不可否认,数据不可能完全可靠,人们对数据大小的衡量标准也会变化。新获得的大数据可能证伪之前已被一些数据所证明的结论,而未来可能更全面的数据会继续推翻之前大数据提供的结论。但是如果选择相信数据不会说谎,是选择相信数据在一定情况下的实证价值,这对大数据而言亦如是。有时候大数据提供的解释并不有效,比如可能依然在一些情况下要处理数据的代表性等系列问题。因此使用大数据意味着同时要使用匹配的使用说明。当关心罕见但有很大影响力的议题时,比如病毒事件引发集体行动、社会网络中意见的传播、新颖的行为和表达方式如何在系统中得到扩大,小数据相当于没有数据,比如在社交媒体和手机上的数据便是如此,仅仅少部分或者一个人的数据对于分析重要的社会现象没有帮助。


进一步而言,计算社会科学带来了哪些实质性的转变?


计算社会科学会改变学者们把收集和分析数据看成两个分离过程的思维定势。学者们可能告别在总体中选取部分的随机抽样等方式收集数据的过程,可以接触到其他被传统抽样方式忽略的部分。大数据本身就是机会,而这种机会是因为数据本身有了新特点——“所见即所得”,亦即马修·萨尔加尼克所谓之“发现的数据”和“设计的数据”之间的区别。社会科学家一般习惯于使用为研究目的通过抽样等方式而收集的数据,即“设计的数据”。“发现的数据”,即大数据常常是各种自然的社会活动呈现的数据。计算社会科学中的研究更多使用“发现的数据”或者不是最初为研究目的而创建的数据来完成。使用推特、微博和微信等社交媒体来源的面板数据的方式在挑战调查研究中已经确立的概率抽样方法,后者在过去几十年里一直占据着主导地位,而新的方法有可能在开创调查研究方法的新时代。比如,有研究通过分析数百万册亚马逊图书的消费者购买记录这类人类自发活动产生的“发现的数据”,分析购买不同学科书籍与不同政治意识形态倾向(保守或自由)之间的联系。研究发现自由倾向的人偏好基础科学的图书,而保守倾向的人更偏好应用科学的图书等类型化特征。计算社会科学的新颖之处就在于,它蕴含着由世界的根本变化所驱动的从模拟世界到数字世界的根本性转变。 


它还可能改变学者一般认为实验设计是算法设计的观念。在实验设计中,研究可能不再受时空限制,可以获得优化后的样本,从而在方法论上升级人类认知世界的方式。比如可以利用网络来创建“虚拟实验室”,用于搭建宏观社会科学实验的受控环境,将心理学实验室中已经建立的行为实验模型,放到网上并进行放大。以往类似研究依赖于志愿者,但该领域的一个重要发展是利用众包网站(亚马逊的Mechanical Turk)招募被试者,这与行为科学中从大学生群体中招募被试者的长期传统类似。众包虚拟实验室的重要进展是解决了同步性问题,确保N个实验对象同时到达并在实验期间保持参与,从而实现了网络化实验设计。另一个优点是,设计、启动和执行实验的时间比历史上可行的时间短得多,而且成本更低。最后,通过缩小假设检验周期(分析一组实验结果和运行下一组实验之间的延迟),从数年或数月到数天甚至数小时,众包虚拟实验室实验可以极大地扩展可研究条件的范围。在这种情况下,实验室实验和实地实验之间的界限就变得模糊起来了。


理论在分析过程中的角色被弱化。在小数据时代,学者们常常通过花很多人力、物力、财力做调查、焦点小组等形式获取小数据,而常用的定量方法通过检验由各种各样假设支撑的各种理论来最大化基于小数据对现实的洞察力和解释力。换句话说,在模型使用方面,在分析小数据时就需要强模型用以保证分析的合理性,即需要有很多假设的模型来保证所获的小数据可以提供理论性很强的解释。然而,在计算社会科学的背景下,大数据是学者们的关键分析对象,学者们往往通过减少假设、削弱理论、直接增加新解释或者新理论来追求最贴近现实、最广泛的研究发现,也可以基于大数据归纳出扎根理论,在一组数据中发现一些模式并用之检验其他数据中的模式。也就是说,大数据鼓励使用弱模型,它客观上提供了更广的模型选择空间,更重要的是,给出更多关于相关性的启示,从而更好地为预测提供支持。从让研究思考得更广泛、去发掘分析社会行为方式更多的可能性的角度而言,固定的、预先设定的假设在小数据时代有很强的意义,但在大数据面前就没有意义了。


在学术分析遵循的推论原则上,以往推论时往往遵循“必要非充分条件”,人们采取干预的方式来发现因果机制,解释某些因素很重要或者就是原因,这种方式带来的解释往往是局部的,或者至少其解释范围的扩大很有难度。社会科学为证明其科学性,尤其重视解释中的因果推断。但实际上,对因果机制的追求也会造成一些混乱情况。如果想解释所有情况,不可能依赖一个机制。每一个动态、动力和过程都可能改变所有情况。例如关于集体行动动因的两种解释路径存在的冲突:有学者假设观察同伴行为的顺序不会改变他们从每个同伴推断而来的信息;另有学者非常明确地假设顺序是至关重要的:关键参与者i从前一个参与者j采取行为X推断出的信息取决于是否有第三个参与者k已经采取了相同的行为。两种解释似乎都适用于解释人的行为,但这却造成了混乱的标准,不是一个等式,而是两个相互竞争的等式共存。现在则转变为“充分非必要条件”原则,这一新标准鼓励学者用数据建模来解释更深程度的现象。如果关心“充分”程度和更广泛地解释社会现象,新的转变会是从发掘因果机制到发现、预测。在因果推断中,常用一些变量解释另一些变量,现在转变为发掘更直观的相关性。如果只关心因果推断,那实际只关心如何最小化模型中的偏差;如果关心预测,则是平衡地去减少误差和方差。既然可以基于大数据进行“充分”解释,那就有了从“必要”的角度进入被分析对象中发掘因果机制的更大空间。一些政治和公共政策分析已经基于“充分”的大数据在选举舞弊、民意调查、政府回应性和治理能力等方面开展有益探索。因此,计算社会科学探寻相关性时绝不是要逃避对因果机制的追求,既有的因果分析路径是基于人们可以获得的模型认知和解释世界,应该跳出思维定势,放下对大数据的戒备心态,积极利用大数据去探索未知的情况,去发现一些对发掘因果机制有价值的理论假设。换句话说,通过大数据挖掘相关性,不是忽略因果推断,而是不断推进发掘因果机制的可能。 


缘于新兴大数据提供的机遇且基于数据驱动的研究范式,计算社会科学正在引发数据观念、研究设计、模型选择和推论原则等方面的实质性影响,然而,从知识积累的角度而言,我们期待一个具有合成特征的计算社会科学。从如今流行的计算社会科学概念来说,它是近10余年的新兴领域,更是一种追求更加直接地认知客观社会世界的理念,它允许包含既可以相互竞争的又可以相互结合的解释来帮助人类理解复杂的世界。如果需要充分地解释现象,则必须要问一些符合世界复杂程度的问题,并组合不同的解释以形成解释的数据库。对于大数据的研究越来越和政策、商业、服务等相关,越来越和“充分”度有关,它在慢慢调整社会科学标准,扩大社会科学理论发展空间,以促成更好的社会科学。更新的社会科学研究设计要纳入多学科思维和方法,而好的计算社会科学不能只是人类社会行为数据和计算机科学的融合,而一定是社会科学和计算机科学的融合,如此计算社会科学才能发挥它的价值。在计算社会科学时代,当思考社会科学问题时,解释和预测可能同样重要,这意味着也要探索新的计算机技术如何挖掘因果机制,而不仅仅是预测。目前,传统上更容易进行数据挖掘和预测性分析的人工智能技术也被学者用以更好地进行因果推断。总之,如托马斯·库恩所谓之科学革命中的范式转移是一个多阶段的甚至是反复的过程,所有的转变都是过程。计算社会科学正持续带来社会科学解释和预测能力的阶段性转变,它最终会带来多大深度和广度的巨变值得期待。


四、走出研究范式之争 

大数据的涌现带来了计算社会科学的发展以及相关新的研究方法融入到社会科学研究之中,带来研究范式的变革,这是冲击也是重启。此次学科融合带来的以数据驱动为主的研究范式,似乎给社会科学以理论指导为主的研究范式敲响丧钟。数据驱动和理论驱动在定量研究中总是存在一定的张力,计算社会科学下大数据甚至会将这种张力扩大化,因为大数据不可避免地被怀疑只是数量级别大,而数据质量并不高,单纯通过对文本、图像、视频数据的分析无法探讨重要的时空变量、人口学变量、制度环境变量等之间的因果关系,最终甚至可能导致理论建构上的乏力。不过,我们更应认识到,计算社会科学冲击社会科学研究所带来的范式转换可以被视为上帝之手(大数据研究)与研究者视角(传统研究)的再次竞合。而这样的竞合,并非空前未见;过去有类似的对话,例如非参数模型(预测导向)与参数模型(理论驱动)的交锋、贝叶斯学派(弱模型)和频率学派(强模型)的争论。这次的竞合可以视为过去方法论对话的延续与再启动。不同以往的是,过去的争论是在小数据的基础上不同方法的选择,此次的竞合则是在大数据的基础上探索方法融合的可能性。 


首先,“大”数据为预测模型结果的可信度提供了有力支撑,而以理论为导向的社会科学研究则为研究者在“浩瀚”数据海中提供了探索的路径;其次,以大数据为基础的数据挖掘研究可以发现变量间多样互联的可能性,让社会科学研究理论的触手可以跳脱理论极简化的框架。这种大数据、理论与预测算法的三角对话集合了跨学科的信息,增加了学科之间的对话和结合,打破了学科之间的严格边界。计算社会科学发展带来的这次争论看似重启过去理论指导与数据驱动研究范式之间的相互倾轧,实际上提供了社会科学研究者在分析路径或是研究方法上更多的选择空间。相信未来在理论与数据驱动的混合研究方法下,计算社会科学会探索更多新颖议题,验证、修正和发展更多既有的社会科学理论。 


不过,从发展视角来看,我们也需要意识到,一切科学进步都需要更好的客观科学发展条件和资源的支持。只有当资源优化配置到计算社会科学时,当学术资源与知识需求合理协调时,计算社会科学才有可能最大限度地呈现其价值。计算社会科学领域在过去十年里突飞猛进,成千上万的论文使用了过去研究无法使用甚至无法想象的观测数据、实验设计和大规模模拟,以求更加直接、更大限度地认知客观世界。世界各地支持计算社会科学的机构、跨学科研讨会和暑期学校也有了实质性的增长。但该领域在一些重要方面也存在不足,许多要素——包括教学方法、数据基础设施和数据共享机制,乃至相应的健全的研究伦理、法律、管理指导——仍处于萌芽状态,需要学者们的积极协调和学术资源的重组。


推荐语

大数据兴起后,计算科学与社会科学碰撞融合产生了计算社会科学。本文有助于读者更好地理解何为计算社会科学,并阐述了计算社会科学对传统社会科学研究方法的影响。计算社会科学并非对社会科学研究的简单冲击,同样也提供了变革与重启的机遇,要走出范式方法之争,走向方法、学科的融合。(政治学人编辑部)


责任编辑:张潇丹  

一审:王智睿  二审:杨明  终审:吉先生

文章来源:《复旦学报(社会科学版)》2021年第2期

相关阅读:

大数据与小数据:社会科学研究方法的探讨

论计算社会科学的缘起、发展与创新范式


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存