查看原文
其他

数据驱动社会科学研究转型的方向、路径与方法——关于“大数据与社会科学研究转型”主题的笔谈

黄欣卓 公共管理共同体 2022-08-24


当代中国正在经历历史上最为广泛而深刻的社会变革和实践创新,社会结构快速变化、社会组织形态不断更迭,全球范围内各种类型社会形态不断地快速连接和交流。社会科学研究同时面临大数据技术环境和高度信息化社会环境的双重现实背景,原本在工业化时代建立起来的社会科学研究范式受到学科分立、有限数据质量、方法对立等问题的困抗,很难适应新的研究环境。 除此之外,大数据的快速发展在数据科学技术与方法这一主题层面取得了进展。在机遇和挑战并存的背景下,必须从更高层面的基础理论创新出发,以应对社会科学研究的转型。


为了深人探讨大数据对社会科学研究转型的重大影响,《公共管理学报》组织了一批活跃在社会科学领域从事大数据研究的专家学者,以笔谈的形式对当前国内外学者热烈讨论的相关问题展开学术交流。本文以数据驱动社会科学研究范式转型的方向与路径、新理论与新方法为研究视角,提炼、汇聚专家学者笔谈中的主要观点,为推动数据驱动社会科学研究转型的创新发展贡献学术真知。


文章来源:《公共管理学报》2019年02期,编辑时有删改,详细内容请参照原文。


作者简介: 黄欣卓(1979-)女,哈尔滨工业大学经济与管理学院副教授、《公共管理学报》编辑,研究方向:政府管理、科研管理、教育管理。

嘉宾介绍


米加宁(哈尔滨工业大学)

胡键(上海社会科学院)

梁玉成(中山大学)

徐磊(北京理工大学)

王国成(中国社会科学院)

章昌平(桂林理工大学)

樊博(上海交通大学)

张小劲(清华大学)

孙涛(南开大学)

王健(哈尔滨工业大学)

杨竞雷(北京大数据研究院)

郑磊(复旦大学)

段月姣(南开大学)

张连增(南开大学)

陈国青(清华大学)

孟小峰(中国人民大学)

边燕杰、缪晓雷(西安交通大学)

蔡萌(西安交通大学)

罗家德(清华大学)

罗俊(武汉大学)

吴超(浙江大学)

孟天广(清华大学)

张楠(清华大学)

陈华珊(中国社会科学院)

何元(北京邮电大学)



1.数据驱动社会科学研究范式转型的方向



大数据为社会科学研究提供了更高的数据起点和更广阔的方法论视角,为社会科学研究范式转换创设了基础条件,对社会科学研究和预知社会科学产生了革命性的影响。厘清大数据作用于社会科学研究的本质、剖析大数据引致社会科学研究转型的深层原因,有助于研究者更好地把握大数据技术与方法的本质特征和社会科学研究范式更迭的内核,这在社会科学研究发展进程中十分关键。


米加宁(哈尔滨工业大学):

传统社会科学(比如经济学和管理学)做了很多极有意义的数学解析工作,并且已经建构了各种模型。然而仍存在的核心问题是用简单的数量关系来应对复杂的社会问题,以及无法解决现有的理论世界与真实世界的不可通约性。5G时代可以更方便、有效地获取大数据,可以历史地、连续地、跨域地对之进行分析,这些数据还能够催生和训练更复杂、更智能、更兼容、多样性的算法。同时,随着穿戴计算和脑机穿越技术的突破,个体差异化生命全程的数据或计算也正在展开。再加之,基于自适应原理的社会仿真技术的进化,原来对社会问题可计算性、可解释性和可演示构成障碍的技术鸿沟就可能被跨越。


胡键(上海社会科学院):

相对于自然科学而言,广义的社会科学在纵向的历史变迁中。大致可以分为四个类型:质化社会科学、量化社会科学、计算社会科学和大数据条件下的算法社会科学。质化社会科学注重研究对象的性质,研究者在有限材料基础上对研究对象做出包含价值判断的质化判断。量化社会科学是随着科学主义的兴起,社会科学研究逐渐受到科学主义思想的影响而引人的。量化社会科学研究的对象在于数据的临界点在哪里——也就是数据在什么时候发生质变,以及在质变发生后研究对象所呈现出的特征或演变规律。近十多年来,大数据技术迅速渗透到人们的日常生活,对社会科学研究也产生了深刻的影响。大数据融人社会科学研究的重要结果即产生了计算社会科学,此时社会科学的功能主要在于“计算”——依然是基于传统统计方法获得的数据的计算,依然是对单维度数据的分析。计算社会科学因数据的复杂性而必须借助于数理模型、模拟、回归等分析方法来进行数据分析。


梁玉成(中山大学):

大数据技术的优势在于可以从模型、变量两个方面优化传统的社会科学。在传统社会科学研究中,数据是稀缺的,因此追求解释能力高的强模型才能体现数据的价值。而在处理大量的、内容丰富的大数据时,对模型的要求有所降低,从传统实证的有监督学习转换到无监督学习,从追求-一个解释能力高的强模型到通过许多解释能力低的“弱”模型去整合成一个新的模型。另外,在传统的社会科学实证研究中,研究模型比较单一,对于模型之间的泛化能力注意得很少。大数据技术(比如机器学习的方法)则非常注意模型的泛化能力。因此,大数据不仅优化了社会科学研究模型,还促进了很多新的研究范式的出现。例如在变量选择方面,大数据的惩罚函数,可以帮助我们突破原有的只依靠理论选元的方法,在海量数据、上千个变量中选择控制变量或工具变量,以帮助我们能够在实证研究中建立更可靠的因果关系。


徐磊(北京理工大学):

社会科学正在发生历史性转折,人类的生活架构于可以随时随地获取、传输和处理数据的网络之上,认知社会的数据基础发生了根本变化。与此对应,社会网络理论和计算技术的发展,使得大数据可以得到有意义的解析。新的研究范式渐渐显露,一系列新的问题(如现象呈现和理论解释的关系、社会科学能否进行仿真实验、研究范式的理念基础等等)需要进一步研究和讨论。


王国成(中国社会科学院):

大数据驱动社会科学转型的深层次原因,实际上是人类认识自然和社会的方式(即感知、思考、决策、行动等方面)发生了根本性转变。一直以来,社会科学研究与自然科学研究有一个很明显的区别,其既是研究对象又是研究主体,二者密不可分,具有内生化的特点。人的社会实践活动原本没有学科之分,而在探索知识的过程中才出现了区分,但终归是要重新融合在一起的。大数据反映的就是人文与科技的融合,是对人的行为、偏好的详细记录。


因此,大数据引发的社会科学范式转变是根本性的,从人的活动本身,以人的行为为基点,促进社会科学的发展,并最终回到人的发展之根本。只有聚焦和深化微观行为分析,才能更好地利用科技与人文融合的大数据,即不仅要重视如何用数据,还应该知道数据是如何来的。为大数据注人人文灵魂、关注主体行为的微观结构,才能更好地适应复杂的人文社会经济研究,促进社会科学创新发展。


章昌平(桂林理工大学):

不同科研范式对研究人员的核心能力与基本素养要求是不一样的。数据素养是大数据驱动的社会科学第四科研范式下社会科学研究人员的核心能力,也是信息社会中科研人员的基础学习能力的范畴,是应对快速变化环境和大数据时代的重要技能,更是终身学习的核心。社会科学研究人员的数据素养更多地倾向于作为技术干预或专业技能的实践模式,是指具备对数据的确认、获取、评估、净化、分析及可视化(展示或应用)的能力。其基本要素由数据意识、数据能力和数据伦理三个部分构成,涉及获取智力资源分配的基础能力、信息社会教育培养的核心素养、应对新信息环境的基本技能、终身学习和社会化学习的核心、知识融合基础等。目前,社会科学研究人员在数据素养方面存在数据意识薄弱、数据能力不足、数据伦理带来的极大挑战以及数据素养培养支撑缺乏等问题。


建立“三生命周期”(科研人员职业生涯、科研项目过程、数据生命周期)相结合的培养路径、数据素养模型构建与核心能力分析、数据管理与算法支撑的嵌人发展与加强人才培养、课程开发等对策建议,可以提高社会科学研究人员的数据素养,适应第四研究范式给研究者带来的挑战。


因此,大数据引发的社会科学范式转变是根本性的,从人的活动本身,以人的行为为基点,促进社会科学的发展,并最终回到人的发展之根本。只有聚焦和深化微观行为分析,才能更好地利用科技与人文融合的大数据,即不仅要重视如何用数据,还应该知道数据是如何来的。为大数据注人人文灵魂、关注主体行为的微观结构,才能更好地适应复杂的人文社会经济研究,促进社会科学创新发展。



2.数据驱动社会科学研究转型的路径




由于社会科学涉及学科、领域众多,研究范式争议不断,必然导致数据驱动社会科学研究转型路径的多样性。同时,由于大数据技术与方法的存续时间有限,现有研究成果主要集中于大数据在社会科学不同领域的研究应用。本次笔谈中,部分专家学者从数据驱动社会科学研究转型路径的微观视角出发,对国家治理、社会治理、政府治理、区域治理、公共管理、金融监管、保险产业等不同研究方向的社会科学转型路径进行具体分析。


樊博(上海交通大学):

在社会科学研究领域,由于“万物皆智能”、“万物皆联网”引发了“万物皆数据”,出现了“计量一切”的趋势。公共管理学科是一个平台学科,经济学、政治学、社会学、法学和管理学都是这个学科的重要基础,学科交叉有助于揭示公共事务本质规律。万物互联产生的大数据为公共管理的跨学科研究提供了数据基础和实证素材。大数据环境能够实现社会公共事务全生命周期的“全景式’数据采集,避免了纯学科角度研究公共事务的“盲人摸象”的弊端。


张小劲(清华大学):

大数据为开放政府提供了广阔的分析视角和实践空间,也将引领公共部门决策从信息时代、知识时代向智能时代迈进,使决策各个环节的合作、任务之间的对接更精确,以降低整个国家和社会的运行成本。


在数据驱动的政府治理这一语境下,回应政府这一政治学的经典议题理应得到更充分的发掘和扩展。大数据及其相关技术为实现面向全社会民众诉求的“全面把握、快速分析和精准回应”的政府治理理念提供了技术基础。数据驱动的政府治理不仅体现为对新技术新手段的开放性包容,也应体现为对中华民族传统价值观的创新性拓展。所以,中国的政府部门应当充分利用大数据技术革新的时代机遇,以及中国大数据人才、技术和产业迅猛发展的本土优势,以全面提升基于“互联网+”的政府治理能力,推进政府决策能力、吸纳能力、整合能力、濡化能力和传统政府能力。


孙涛(南开大学):

大数据本质上是对现实世界的多维度描述。但大数据不同于传统的统计数据,其蕴含的关联信息异常复杂,如何运用数据科学更科学有效地汲取信息,亟待方法论层面的探讨。


以数据驱动的城市管理决策为例,至少有四个思考维度:( 1 )Microscope(微观思维):例如,如何基于医疗服务设施的空间分布,构建更高效的医联体,在社区层面实现对有限医疗资源的合理共享。(2)Mixed(复合思维):单一类型的数据集(数据沙盒)并不容易产生价值,而将多个相关的数据集放在一起(数据蜂巢)进行分析,则可能发现潜藏的知识。(3)Meaning(语义思维):大数据不同于传统的数据,更多呈现为“数字”,其含义也不明确,需要根据现实需求和决策环境进行挖掘。例如,可以通过微博的大数据和天气状况的历史记录,探究空气质量与公众情绪的关联。(4)Multidimension(多向度思维):很多社会现象(如“城市病”)很难验证单向度的因果关系,可以采用多向度的分析、阐释和交叉比对,更有可能逼近对社会现象背后逻辑的揭示。


王健(哈尔滨工业大学):

面向大数据时代,大数据技术的发展是解决目前公共管理模式现存问题以及引导未来发展方向的关键。我们提出了大数据驱动公共管理决策的创新模式,以“公共管理问题提出-问题分析策略生成方案评价”为逻辑框架,遵循大数据思维下“真实世界数据策略”逻辑链,通过分析包括公共管理部门社会公众、企事业单位等多主体参与下的策略形成机理,形成包含各领域公共问题融合分析、决策机制设计和具体行动方案的公共管理决策框架,从而实现公共管理问题分析的精准化、策略设计的精准化和方案评价的精准化。


大数据驱动公共管理决策创新理论体系包含四个部分:(1)基于质性研究和数据科学的公共治理案例汇集、整合与分析,形成完善的公共治理问题库和问题目录索引; (2)构建公共管理大数据资源池和知识图谱,实现多样化结构数据和非结构化数据的融合共享及集成,快速响应数据需求并进行关联分析,构建公共治理问题与多领域融合集成数据的精准关系;(3)基于案例推理论框架,借助人工神经网络和机器学习等人工智能科学方法,设计基于案例推理的智能化精准策略;(4)基于主体建模的公共管理方案量化评价体系,突破传统统计计量和定性分析方法无法准确描述复杂社会系统动态变化的瓶颈,通过探索方案运行机制实现方案实施前其应用效果的科学预判,为公共管理部门]的精准决策提供依据。


杨竞雷(北京大数据研究院):

大数据不仅是一场技术和产业革命,同时将带来国家治理的深刻变革。基于数据驱动的决策方法,政府将更加有效率、更加开放、更加负责。首先,大数据能够帮助各级政府全面了解和准确掌握各类信息,综合研判经济、社会发展趋势,提高公共决策的效率和质量。其次,大数据可助力政府打破同级部门]间和上下级部门间存在的数据壁垒,实现资源共享和便捷化、智能化管理,进而推动政府简政放权和职能转变,更好发挥政府在国家经济社会发展中的作用。最后,大数据能够助力政府从市场需求角度出发,通过对大数据的分析和运用,准确判别各类市场主体的真实需求,提供系统化、智能化、精细化、个性化服务。通过共享工商、税务。质监、安监等部门收集的企业数据信息,并用云计算等技术对共享数据进行综合研判,来优化、细化治理行为的每一个环节和流程,实现对市场信息的统一、高效监管。


大数据正有力推动着国家治理体系和治理能力走向现代化,并日益成为社会管理的驱动力、政府治理的'幕僚高参”。从建立健全大数据辅助科学决策和社会治理的机制,到保障国家数据安全,打破信息壁垒、推动信息共享,再到利用大数据平台形成社会治理合力,有力提升治理科学化、精准化、高效化水平,增强社会治理和服务经济发展的能力。


郑磊(复旦大学):

大数据时代,把政府数据开放出来,让研究者和创新创业者也可以使用,从而形成一个开放的数据生态体系十分必要。政府推动数据开放首先要制定相关政策和机制。首先是数据开放政策,即政府数据开放管理办法,比如什么应:该开放,什么不该开放;什么应该免费,什么可以收费;相关各方有什么样的责任和义务等等;数据开放可分为三种级别:一种是国家保护的不可开放的数据,种是普遍开放数据,还有一种是有条件开放的数据,开放数据需要对数据分类,也需要对数据的利用者进行分类,然后进行分级分类的开放,处理好数据开放和数据保护之间的关系。其次是数据开放机制,比如审核机制、激励机制、考核机制等等。同时,在开放数据前,政府还要进行内部的数据治理,对数据进行标准化,提升数据质量和价值,避免数据误导研究者和开发者。


此外,政府还要防范数据利用过程中的风险。既要考虑能不能开放,还要考虑应不应该开放,不能让数据利用与公共价值发生矛盾冲突。需要明确界定数据采集、开放和利用的边界,该开放的数据与不该开放的数据要明确区分开来,将应该开放的数据更好地开放出来,供研究者和开发者使用,不应该开放的数据则要更好地保护起来。还要考虑数据利用过程中是否严重侵犯隐私、引发歧视,比如:“数据杀熟”等造成的不公平现象。关于数据开放和利用,还有很多问题值得深人研究。


段月姣(南开大学):

在跨入互联网、大数据、人工智能的融合时代,金融监管部门的决策方式更应:从大数据着手,通过对混杂大数据的总体把控、动态相关分析,得到准确甚至于精准的有效信息,从而达到精准施策的目标。丰富的数据来源、先进有效的分析手段,都将成为中央银行及监管部门进行决策分析、防范化解金融风险、维护金融稳定的坚实基础和有效手段。因此,通过寻求全部可得的“大数据”,结合机器学习对传统金融理论以及风险前瞻性监管进行分析测度,并在此基础上提出一套新的科学监管体系,实现系统性风险的早识别、早发现、早预警、早处置,是我国金融监管发展的第一要务。


大数据时代新型风险“智能”识别方法的创造与提出是至关重要的。首先,监管部门可基于自身的大数据监控平台,初步实现对全体量数据的实时动态分析,结合关联关系与因果关系,从而更为准确地把控系统性风险的传染路径与传导机制,及时制定有效的风险防控措施;其次,通过数据降维的应用,使得分析结果不受限于少量劣质数据的影响,并且可视化在二维平面上;第三,通过机器学习算法与传统金融理论相融合,实现系统性风险的广泛识别,有效合理反映我国系统性风险冲击的强度与速度。


张连增(南开大学):

对数据加以分析,发现内在规律,在此基础上用来指导决策,这是在很多领域中面临的普遍问题。这类问题在很多情形下可归为预测建模。预测建模在保险中的应用非常典型,已经广泛应用于保险产品定价、准备金评估及产品管理等方面。传统的预测建模是在数学与统计基础上发展起来的。在大数据时代,借助于机器学习和深度学习算法已发展出各种预测建模技术。例如机器学习方法已经出现在非寿险定价的研究中,最新的前沿之一是远程信息处理系统的车险定价分析,其目的是通过分析远程信息处理系统采集的与车险有关的驾驶行为数据,帮助保险公司确定保费。驾驶行为数据(包括车速操作方式、路线、里程、每天使用次数等)属于高频数据,在处理这类数据时,首先利用降维方法,提取驾驶行为因子,为车险精准定价提供理论依据,促进车险产品创新。更进一步,以人工智能为标志的保险科技广:泛应用于保险业务经营,大幅度提高保险公司的竞争力,提升工作效率,降低保险经营管理成本,强化风险管理,最终提升了保险行业的价值。


基于机器学习的预测建模高度依赖大量数据,为了更有效利用海量数据,发挥数据的价值,保险行业的数据汇集和共享已成为一个突出的问题。对保险监管部门而言,对保险数据汇集并分析,更有利于发现内在的规律和问题,既能促使保险监管技术和管理水平的提高,也能促进保险监管部出台科学的监管政策。




3.数据驱动社会科学研究的新理论与新方法


大数据技术与方法对社会科学研究转型的作用具体体现在研究方法的改进和研究理论的创新。通过与社会科学不同学科领域、原有社会科学研究理论和方法的交叉融合,数据驱动社会科学研究的新方法不断完善、成熟,时空数据、社会网络分析、人工智能、社会计算等方法为社会科学研究提供了更多样的选择。更进一步地,由于大数据技术与方法和社会科学理论之间存在着相互促进共生发展的关系,大数据及其分析技术有望推动社会科学理论的发展,创造新的理论和研究体系。


陈国青(清华大学):

大数据问题包含三个特征:第--是粒度缩放,即科学问题要素的数据化问题。数据能否反映科学问题要素,且这种反映的程度能否自由的汇聚和分解。第二是跨界关联,即大数据的外部性所导致的跨界关联。当研究一个问题时,研究者必须打破该研究问题的传统视角和边界,通过运用外界要素引人外界视角来解决科学问题。第三是全局视图,即大数据的新型集中性特质。


大数据时代的管理决策将带给决策者三个方面的思考:发生了什么(涉及业务状态、数据粒度、全局视图等问题)?为什么发生(涉及业务联系、数据轨迹、关联因果等问题)?将发生什么(涉及业务走向、数据动态、趋势判断等问题)?大数据给社会科学研究范式所带来的转变,主要是由模型驱动向大数据驱动范式的转变。当前,国际上顶尖的研究通常采用的是两种范式的融合——融合范式,先通过数据驱动找出或者缩小它的变量空间,再用模型驱动发现他们更进一步的关系。


孟小峰(中国人民大学):

当下已经从云计算和大数据时代迈向了一个新的时代——万物互联的智能时代。5G的出现必将带来构筑社会的新手段和描述社会的新能力,也会造就社会科学研究的新范式。社会科学的量化无法挖掘出普世规律来描述和解释整个个体行为,原因是没有积累可以足够描述个体的数据和基础,而自然科学根据典型的现象数据分析,即可以得出整个自然界的普世的规律,这是本质上的不同。万物互联的智能时代,整个社会现象和社会行为能力的描述将发生改变,而构筑智能社会的核心技术在于社会计算。社会计算的根本任务就是借助信息技术的使用,测量个体的行为数据,构建计算模型,发现社会动态,进而分析人类行为。其最终目的是建立-套方法体系,帮助人类预测和解释社会现象。在社会计算进一步促进交叉学科发展基础之上,社会科学有可能创立新的范式,即第五范式。


将来,数据使用也不可像现阶段这样不加限制,而必须是在有约束条件限制的情况下使用,这种约束必须有赖于一。个技术的有效的支撑。因此在未来的研究中还有很多管理科学者需要考虑的问题,比如学者怎么解决决策的可解释性和隐私之间的矛盾,通常学者为了保证决策的可解释性,就是要保证数据的正确性,但是隐私又必然造成数据准确性的降低。其次要平衡决策过程中出现的自动决策和人工决策,使得它们能够协调一致来还原一个现实的问题。


边燕杰、缪晓雷(西安交通大学):

相对于传统数据,社会网络大数据中的个体网数据可以测量行动者的网络规模和网络异质性,可以测量行动者的相互认知和关系互动,也可以获取历史数据形成长久可靠的追踪数据。


相较于个人与他人建立的稳定人际社会的“个体网”,“整体网”就是根据某种群体边界(如小组、班级、学校、公司),测量边界内部成员之间的相互联系,从而得到该群体人际联系的结构全貌。大数据技术应用于整体网的研究具有很多优势:一是范围大时间长、动态信息捕捉能力强。因为通过大数据技术可以获得历史数据、时序数据、即时行为数据等等,可以反映整体网复杂系统的动态全貌。二是数据拥有丰富的人际关系的动态内容(包括行动者的电子足迹、文本数据、音频数据,甚至基因数据),借此建立话题模型、提取语义框架,可以将数据结构化之后进一步分析具有理论和现实意义的议题。三是具有预测能力,大数据能够建构出可以推论的预测模型,也可以指导数据挖掘的方向,而不拘泥于传统的研究中对于现实的解释以及理论假设的验证。


蔡萌(西安交通大学):

大数据的分析处理方法可以粗略地分为三类:一是统计方法;二是人工智能方法;三是网络科学方法。目前,社会学发展的一个重要趋势就是重视社会互动关系结构,网络是关系数据的天然建模工具。因此,网络科学是大数据和社会学的一个重要结合点,为关系社会学的研究提供了有力的支持。


随着现代自然科学技术的发展,数据的可获得性增强,可容纳的因素更多,传统实证分析的模型也更为精确。一方面有助于对传统社会科学理论的检验,另一方面则促进了社会科学新理论的发展。社会网络理论和方法在实证分析中的应用,沿着“行动者的属性→行动者的社会关系→联系人的属性→联系人的社会关系”逐层扩展。通过引入人际互动的结构观点,无论在经济、管理还是社会学领域均发现,除了行动者自身的属性特征外,其所处的社会网络位置特征对于其行动及后果也会产生影响。然而,行动者通过网络关系可以触及并利用的资源并不只包括联系人的属性特征,还应包括其关系特征,即联系人的关系资本——联系人的关系也具有传导性。同时,人际互动是社会网络研究的基础,其构成往往是多种关系的叠加而非单一关系的作用。真实社会系统中的个体往往具有各种不同的社会关系,如果能够突破数据获取和分析上的难点,研究者就可以更全面地了解网络类型,并充分考虑网络关系类型的差异,给出人际互动的完整描述,并进一步揭示结构差异带来的影响及内在机制。


罗家德(清华大学):

计算社会科学把社会科学理论带人大数据分析之中,互补共进、相得益彰。一方面,社会科学理论对大数据分析的贡献在于提供了丰富的新议题,指明了可以研究的新方向。同时,在理论指导下用定性、定量方法收集到的“事实”可以作为数据挖掘的扎根真相,提高挖掘成果的准确率;另一方面,大数据提供了验证理论的资料,数据挖掘结果可以启发出新理论的建构。而被验证的理论则可以指导预测模型的建立,发现推论的边界,从而在边界之内预测模型可以预测更多的新“事实”。在计算社会科学的研究方法中,数据挖掘、建构理论以及预测模型的三角闭环十分关键,如此周而反复,使理论不断修正,也使推论扩展到更广阔的领域中。无论是大数据还是结构化数据的数据挖掘、社会科学理论与调查方法以及无论因果机制还是系统动态模拟的预测模型,三者之间的对话才能完成一个具有推论性质的大数据研究。单单数据挖掘只是整个研究闭环的~个起步,作短期实用性的预测可以,但不足以建构理论,只有理论的演绎才可以进行推论。


换言之,大数据本身与数据挖掘无法进行推论,其所得到的结果只能在有限的时空中作应用型的预测。而理论的演绎帮助研究者进行了更广阔的推论,在动态推进的三角对话中,扩展了大数据分析的方向,也不断地修正了社会科学的理论,得到预测模型,推论出更广领域中的现象。


罗俊(武汉大学):

计算社会科学是基于复杂适应系统理论,为应对社会系统的复杂性而在研究方法上的一次创新。复杂适应系统理论指出了社会系统复杂性的根源,即人作为社会系统最重要的组成要素,是适应性主体,是同质性与异质性的统--。由众多具有异质性的适应性主体组成的社会系统,其动态演变过程具有高度的复杂性和不确定性。面对这样的研究对象,传统的社会科学研究方法面临困境,社会模拟研究方法应运而生。然而,社会模拟方法依然存在诸多缺陷,其中之一是这种方法适合发展理论而难以精确预测,因为模型初始参数的设置及主体之间互动规则的设定具有较强主观性。


今天,越来越多的个人行为与社会活动向网络空间“迁移”,人类的很多行为与互动在网络空间中被实时记录为计算机数据,为社会科学研究提供了新的资源。运用大规模数据推动社会科学研究,赋予了计算社会科学新的内涵,同时也为社会模拟研究提供了新的契机——将数据密集型知识发现与社会模拟结合起来。目前,国内学术界已经开启了一系列研究并取得了一定成果,但是复杂社会系统研究的技术实现仍然任重道远。


吴超(浙江大学):

人工智能经过60多年的发展和积淀,随着机器学习、 互联网、大数据、云计算和物联网等技术的不断发展,人工智能正引发可产生链式反应的科学突破,催生一批颠覆性技术、培育经济发展新动能、塑造新型产业体系,加速新一轮科技革命和产业变革。


然而目前人工智能算法的实现基本是基于中心化的计算框架,特别是机器学习的方法。这种计算框架造成了以下几方面的问题:(1)隐私保护问题,数据收集作为开发创新及个性化、情境化应用的关键环节,需要建立一个能支持多赢的隐私保护机制。(2)数据定价和激励问题,大数据的非排他性(甚至是利他性)、聚合后数据的价值提升、同种异源数据的不同价值等特点,加上不同使用者对相同数据的不同保留价格,造成了目前数据定价问题。(3)建模成本问题,目前集中式的建模需要很高成本,急需低门槛的建模环境。以上三个问题,是机器学习乃至人工智能在进人实用阶段之前所面临的关键问题。因此,研究和设计一套基于隐私保护、促进数据交易降低建模成本的分布式机器学习算法框架就显得非常重要,我们正在利用区块链、联合学习。同态加密等技术设计一个分布式机器学习的环境,并研究其在一些典型应用场景的实现。


孟天广(清华大学):

大数据时代的到来,为社会科学与计算科学的跨学科融合、社会科学方法论创新准备了基础条件。立基于海量数据的积累、多期样化数据分析学的发展,“计算社会科学"应运而生。以研究人类社会的结构运行行为和关系,这对于构建中国特色社会科学具有极其重要的意义。传统上,人们认为大数据方法强调数据驱动、相关分析而非探究因果关系。然而,因果关系”被视为社会科学研究的“圣杯”,社会科学迫切需要生产兼具描述性(相关性)与因果性、解释性与预测性的理论和知识体系。探究因果关系有助于通过科学研究促进知识积累,为改善社会提供知识库。社会科学的前沿发展正在经历探究社会现象背后之因果关系的变革,而这一变革源自于人类社会对社会科学知识生产之内容、质量和价值的重新定义。


伴随着大数据方法在社会科学领域应用的逐步深人,大数据方法正日益走出探索性或相关性分析的限制,逐步形成若干利用大数据方法开展因果推论的方法路径。(1 )将大数据方法与传统计量分析相结合,也就是测量模型和结构模型的结合。大数据方法帮助研究者基于海量非结构化数据测量抽象概念,而计量分析解决研究者关于概念(变量)间因果关系的检验或解释。(2)大数据方法与小数据分析的有效结合,大数据方法在总体层面描述社会现象的特征、变化趋势和相关关系,然后从大数据中随机抽取小数据开展深度(结构化)调查,以小数据分析探究因果关系。(3)大数据方法与实验分析的融合,即观察性和实验性研究的融合。一方面,大数据方法扮演观察性研究的功能,通过海量数据采集和挖掘,获得对研究对象的状态特征或模式的描述性理解,进而设计实验以检验变量间因果关系,从而提升研究的广度和深度;另一方面,将大数据方法直接应用于实验设计,拓展实验设计及操作化干预(原因)、随机化分配干预、测量(结果)和识别干预效应的工具箱。(4)大数据与模拟仿真方法的结合。大数据技术为开展大规模模拟提供了超级计算能力,利用机器学习高效、实时地挖掘真实世界数据,为仿真模拟和参数优化等提供了新技术。同时,计算社会科学为模拟研究提供了跨学科知识,机器学习的应用丰富了数学建模、参数优化和模拟演化等一系列研究方法。


张楠(清华大学):

在目前的管理学大数据研究中,从数据驱动视角的研究主要展现方法可能带来的管理可能性。因此,在方法论层面对计算机科学领域的数据处理方法采取“拿来主义”,得到一些新颖的结果,拓宽研究的视界;而从管理和决策的视角来看,光有可能性是不够的,更大的价值应在于研究是否能够切中管理者在管理实践中关注的问题。两种视角间存在的真空地带,即算法结果与有价值管理知识间的“中间层”。这一“中间层”需要有一套逐渐完善的方法论以及方法评价体系,从而解决“拿来主义”的方法的适用性问题,以及在这些方法之上如何形成管理学贡献的问题。


在适用性方面,是不是所有的分析对象都适合用某种方法进行分析?分析方法使用范围有无边界?社会科学领域的大数据分析需要通过回应上述问题实现真正的研究范式跃迁。具体算法之上的管理学贡献是相对复杂的问题,也因具体方法与应用场景而异。以目前广泛应用的概率主题建模方法为例,现在看来,算法结果的利用至少可以有两个方向:一是描述现象,即通过分析描述主题概率分布所反映的行为或特征演化;二是刻画规律,即解释上述演化背后的影响机制。总之,在“中间层”进行方法论的探索是非常重要的。大数据分析只有在领域环境中进行深耕,与领域知识进行更好的结合才能真正开花结果,产生突破性知识贡献。


陈华珊(中国社会科学院):

与基于抽样调查问卷数据的传统量化研究相比,基于大数据的量化社会科学研究表现为两个鲜明的特点,即在时间与空间两个维度对传统量化分析方法进行了革命与创新。首先,就空间维度来说,社交媒体、公共交通、通讯数据中所蕴含的空间信息极大地扩展了传统GIS的范畴,很多零散的数据一旦做成GIS地图,很多空间特征就会一目了然,这对城市规划、城市治理等社会科学研究领域具有极大的价值。其次,在时间维度上,智能设备所记录的数据每时每刻记录人们的一举一动,构成一个连续的观测系统。这类新型的、在时间上连续的大规模数据形态也对测量及分析模型产生了挑战。另外,大数据使对于个体的离散状态的变化分析成为可能。将个体的不同状态纳人考量之中,这种“序列"分析不仅仅是针对一个特定状态发生的概率(事件史模型)而言,而是将诸多状态所构成的序列视为前提条件来考察其可能的路径,诸如生命史、生活史等研究。因此,网络分析将诸多非线性的、结构的因素纳入考量之中。


大数据扩展了社会网络分析的数据来源,使得社会网络分析的规模尺度加大、网络类型多样,并开始考虑复合型网络关系、嵌套型网络关系和动态网络关系下的社会结构效应。因此,大数据也对网络关系的测量提出了挑战,如何基于观测数据来建构和测度网络关系成了一个核心内容。这方面计算机学家贡献了诸多模型,深度学习技术的应用也有较多例子。


何元(北京邮电大学);

当前,大数据技术及方法的发展日新月异,并在社会科学领域引发了一系列的行业创新。时空大数据所具有的位置属性(尤其是三维空间的属性),对于社会科学领域些研究问题具有重要价值。在面对包括时空大数据在内的海量数据时,社会科学研究亟待建立一个统一且标准化的大数据产品,便于领域专家与大数据分析人员的交流与合作。


大数据的主要优势是可以通过分析多种数据结构的历史数据对未来进行预测。以空气质量预测为例:一方面,传统预测方法多基于统计方法,因此无法融合多来源数据;另一方面,传统预测方法建立在强假设基础之上,因此无法对复杂的空气污染问题进行精准的预测。而基于深度学习的大数据预测模型,则可以融合多种数据结构,如天气预报数据、空气质量指数。图片数据、交通数据、甚至是居民行为和感知数据,通过训练海量历史数据,挖掘、捕捉数据之间的联系,提高预测的准确性,为空气治理提供更为精准目标。



4.结语

大数据正在对社会科学的认知体系产生结构性的影响,并在社会科学研究的不同领域积累了一定数量的案例和经验。大数据对社会科学转型的重大影响已经显现,社会科学正在形成新的研究范式和与之匹配的本体论、认识论和方法论,创造出不断发展的新工具、新方法。


从科学研究整体进展来看,尽管大数据及其技术的兴起与存续时间还比较短,其对科学研究尤其是社会科学研究究竟能带来什么样的改变还需要持续、系统地观察与总结。但是,从现有研究成果的丰富性和实践领域的大力推进来看,大数据对社会科学研究的影响是全方位的,正在使其成为社会科学各领域学者热烈追逐的研究主题,这些正是关于社会科学研究转型的讨论持续发酵的强有力的支持。随着大数据技术与方法的不断发展,对于数据驱动社会科学研究转型的方向、 路径与方法的研究也处于不断的“量的积累、质的飞跃”的循环之中。我们期待学术界呈现更广泛、更丰富、更深入的学术成果,推动和创造社会科学研究更多的可能性。


本期编辑 / 赵焱鑫 单连新 


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存