查看原文
其他

作为政治学博士生,如何学习计算社会科学?| 学科发展

编者按

随着《研究生教育学科专业简介及其学位基本要求(试行版)》公布,计算政治学正式成为政治学第10个二级学科。在《基本要求》中,计算政治学被定义为是政治学与计算科学的交叉学科,以政治学、计算科学、数据科学及相关社会科学为学科基础。计算政治学基于唯物辩证法的方法论,综合运用量化、质性和规范研究方法,运用大数据挖掘与分析技术、更贴近复杂现实世界的仿真模拟与实验方法,来研究政治活动及其发展规律。


计算政治学在国内的发展方兴未艾,但作为其根学科的计算社会科学已经被国外学者提出并论述多年,也逐渐开始培养以计算社会科学为专业的博士生。计算社会科学专业博士毕业后往往除了前往学术界进行学术研究之外,还受到公共部门和私营部门的广泛欢迎。


那么,作为政治学研究者的我们,应当如何去积极拥抱和学习计算社会科学(计算政治学)的这一潮流?我们所掌握的研究工具箱又应该进行怎样的更新?基于此,我们编译本文,希望提供一份关于CSS培训的易读指南。

作为政治学博士生,

如何学习计算社会科学?

(原标题为:《培养计算社会科学博士生以胜任学术界和非学术界职业(Training Computational Social Science PhD Students for Academic and Non-Academic Careers)》,现标题为译者所拟)


作者:

Aniket Kesari, Fordham University

Jae Yeon Kim, Code for America

Sono Shah, Pew Research Center

Taylor Brown, Meta

Tiago Ventura, Georgetown University

Tina Law, City University of New York Graduate Center


译者:

焦磊,山东大学


引文格式(MLA):

Kesari, Aniket, et al. “Training Computational Social Science PhD Students for Academic and Non-Academic Careers.” PS: Political Science & Politics, vol. 57, no. 1, 2023, pp. 101–06.

内容提要

具备数据科学技能的社会科学家越来越多地在学术界和非学术组织中担任计算社会科学家的职位。然而,由于计算社会科学(CSS)对于社会科学领域而言仍相对较新,许多博士生可能会感觉它如同隐藏课程一般。为了支持社会科学博士生,本文基于先前文献及我们在学术界、公共部门和私营部门组织中的集体工作经验,提供了一份关于CSS培训的易读指南。我们认为,学生应在传统社会科学训练(如研究设计与领域专业知识)的基础上,通过关注以下三个核心领域来补充CSS训练:(1)学习数据科学技能;(2)构建运用数据科学解答社会科学问题的作品集;(3)与计算社会科学家建立联系。最后,我们为院系和专业协会提出了实用建议,以更好地支持博士生。

“我们认为,有效的CSS培训首要且关键的是从两个社会科学研究博士项目已经重点关注的领域开始强化训练:研究设计和领域专业知识。”


“构建一个成功作品集的一种思考方式是将其设想为一系列“可交付成果”,这些成果能够证明个人理解CSS(计算社会科学)的工作流程。”


“对于计算社会科学家而言,建立人脉关系在寻找合作伙伴和工作机会方面同样具有重要价值;然而,在CSS领域中,人脉网络的作用略有不同,因为跨学科和行业领域的连接机会更为广泛。”


引言


随着越来越多的社会科学家在研究生阶段获得了数据科学的培训和实践经验,有越来越多的人在学术界和非学术组织中担任计算社会科学家的职位。我们定义计算社会科学(computational social science, CSS)为一个结合了社会科学与数据科学领域的领域,通过运用新颖的数字及数字化数据以及计算方法来深化对人类行为的社会科学理解(Edelmannet al. 2020;Salganik 2019)。计算社会科学家区别于一般社会科学家和数据科学家之处在于他们能够将研究设计、领域专业知识与计算方法相结合,以产生关于人类行为的科学知识(Grimmer 2015)。


当前,计算社会科学家活跃在各个学术部门、专业学院、非营利组织(如Code for America、皮尤研究中心的数据实验室和城市研究所);科技公司(如Meta、X、谷歌、亚马逊和微软);国际组织(如世界银行和联合国全球脉搏实验室)以及政府机构(如美国联邦储备系统、人口普查局和评估科学办公室)。然而,对于许多社会科学博士生来说,如何成为一名计算社会科学家仍像是一个“隐藏课程”(Barham and Wood 2022;Calarco 2020)。由于这一领域尚处于起步阶段,大多数社会科学博士项目尚未提供系统的训练或专门的指导来帮助学生规划作为计算社会科学家的职业道路。此外,不同机构之间的培训和扶持资源获取仍然不平等,跨机构活动如会议和研讨会,在发言者和参与者方面,在种族和性别代表性上仍然缺乏实质性的平衡。


为了开启有关如何使计算社会科学家的培训、职业化和支持更加系统化和包容性的对话,本文明确阐述了针对社会科学领域博士生导航CSS的非正式知识。我们提供了这份指南,借鉴了先前研究提供的在数字时代创新政治学研究生训练的建设性指导方针(Barham and Wood 2022;Grimmer 2015;Grimmer, Roberts and  Stewart 2021),同时也基于我们在学术界、公共部门和私营部门组织工作的集体经验。我们将CSS职业化过程分解为三个核心领域:(1)学习数据科学技能,(2)构建CSS作品集,以及(3)与计算社会科学家建立联系。对于每个领域,我们都识别并详细阐述了针对学术和非学术就业市场的核心能力和额外实用技能(表1)。


表1 计算社会科学职业化过程

(点击图片查看高清大图)


学习数据科学技能


我们主张,有效的CSS培训首先且最重要的是要建立在两个社会科学博士项目已经关注的领域上的扎实训练:研究设计和领域专业知识。在此基础上,对CSS感兴趣的社会科学博士生还应专注于学习一组特定的数据科学技能,包括编程能力、数据管理、协作研究技巧、机器学习范式以及应对大规模数据和计算方法特有的伦理问题的能力。


(一)研究设计和领域专业知识

为了进行CSS研究,社会科学博士生首先必须学会如何有效地设计并执行研究方案,并发展和应用领域知识专长。计算社会科学学者期望利用其博士阶段的训练来主导并全程实施研究项目。例如,在非学术机构中,计算社会科学学者常常与工程师和用户体验(UX)设计师团队合作,在这些团队中他们主要负责研究设计部分的工作。无论在学术还是非学术环境中,计算社会科学学者都被期待在特定的实质性主题和方法论领域拥有专长,而非所有计算方法,比如自然语言处理和公众意见分析等领域。我们强调研究设计和领域专业知识是为了突出说明CSS培训不应替代而应补充传统的社会科学博士课程教育。


(二)编程流畅度

编程能力,即使用开源数据科学常用编程语言(如R和Python)编写代码来收集、管理和分析数据的能力,是CSS研究的基础。社会科学博士项目通常会在统计学课程中提供一些关于如何使用商业点击式软件(如SPSS和Stata)进行定量分析的培训。然而,CSS学生应该优先学习编程语言,原因有三(Kim and Ng 2022)。首先,一些核心计算方法(例如机器学习和自然语言处理)目前依赖于在Python和R中开发和维护的程序包。其次,许多大规模数字和数字化数据来源(例如推文和Facebook帖子)只能通过应用程序接口(APIs)访问,而这些API可以通过R和Python轻松查询。第三,由于Python和R已经成为计算社会科学家的通用语言,掌握一门编程语言将使学生能够参与到学术及非学术组织中的研究项目合作,并对领域内广泛使用的软件和其他工具的发展和维护做出贡献。


(三)数据管理

CSS研究涉及大量数据,因此需要强大的数据管理技能。尤其需要擅长处理大规模、复杂且通常是非结构化数据的研究人员。许多学生可能已经熟悉电子表格软件(如Excel)的基本操作,甚至在进行汇总、聚合和数据操纵以执行基本计算和可视化方面有所实践。这些知识可以很容易地迁移到R和Python中的“DataFrame”使用上。随着研究的深入,学生们可能会发现自己需要处理更大规模的数据集。在许多情况下,这涉及到利用云计算资源(例如亚马逊网络服务、微软Azure和谷歌BigQuery)存储数据或进行分析,并学习如何使用结构化查询语言(SQL)查询和管理关系型数据库。事实上,许多非学术组织将他们的数据存储在大型关系型数据库中,这就使得像SQL这样的语言的熟练程度对于在这些环境中工作是必要的。


除了对数据结构的熟悉,对开展CSS研究感兴趣的学生应该尽早培养良好的计算习惯,包括制定清晰的数据分析和编码流程,以及为数据和代码的任何更改建立记录程序。这些良好习惯能够简化个体或团队持续的工作,并通过使数据易于其他未来用户理解,最大化数据集的价值。同时,学习版本控制也是确保在长期项目或涉及多个合作者的项目中数据不易丢失或破坏的关键。


(四)协作研究技能

CSS研究是一种协作努力,尤其是在非学术机构中。在协作研究环境中,熟悉诸如git和GitHub之类的版本控制系统至关重要。我们将在第三部分对此进行详细阐述。


(五)机器学习范式

大多数社会科学博士课程通过统计学和因果推断的方式提供定量研究训练。虽然CSS研究确实运用了这些范式,但它还大量依赖于当前大多数社会科学博士项目并未教授的机器学习范式。机器学习有许多不同的方法论,具有特定的应用场景,例如用于因果推断(Athey 2015; Varian 2016)、文本分析(Grimmer, Roberts  and Stewart 2021; Grimmer and Stewart 2013)以及测量(Lundberg, Johnson and Stewart 2021)。能够应用机器学习范式并熟练地处理机器学习与更传统的定量社会科学范式(如推断统计和因果推断)之间的关系,是计算社会科学家的一项重要技能,也是使他们区别于社会科学家和数据科学家的关键所在。


(六)研究伦理

计算社会科学家能够并且应当在CSS研究的伦理问题上发挥重要作用,特别是在与机器学习和人工智能相关的问题上(Noble 2018)。随着CSS研究中计算工具和数据收集技术的快速发展,在这些进步可能对社会造成何种影响方面,公众和学术界的讨论往往滞后。例如,像ChatGPT这样的大型语言模型的最新发展引发了从抄袭到数据权益再到开源代码安全等一系列伦理问题的关注(Bender et al.2021)。计算社会科学家具备能力和责任,将他们的研究伦理训练应用于前瞻性地预见与其工作相关的伦理关切,特别是在其研究可能影响到弱势群体时。


(七)学习资源

社会科学博士生如何学习进行CSS研究所需的数据科学技能?理想情况下,他们可以通过课程学习和研究项目来获得编程能力以及其他数据科学技能。鉴于目前很少有社会科学系设有正式的CSS课程体系,我们建议学生通过补充其他院系提供的编程、数据结构、机器学习以及感兴趣的其他计算方法等课程来充实自己的课程内容,或者寻找能够指导独立研究的教师资源。对于那些在本校无法获取数据科学培训的学生来说,外部的CSS培训机会正在逐渐增多。例如,”CSS暑期学院”https://sicss.io)是免费的,并在全球各地每年举行。每个地点都会为参与者提供为期两周的关于各种CSS主题的培训。由于暑期学院注重CSS主题的广泛性,因此特别适合处于早期阶段的博士生参与。参与者需通过竞争性的申请流程选拔产生。有兴趣的学生应在早春时节准备好并提交包括个人简历(CV)、兴趣声明和写作样本在内的申请材料。


当学生掌握了编程技能并对自己的研究兴趣有所了解后,可以进一步寻求针对特定主题的外部培训。例如,政治与社会研究大学间联合会定期提供关于CSS主题的短期课程,如机器学习、网络分析和基于代理的建模等。此外,学生还可以继续利用诸如Data Carpentry(https://datacarpentry.org)等组织提供的免费在线教程和资源,以及由R-Ladies(https://rladies.org)等团体组织的免费面对面研讨会和聚会活动来不断磨练其数据科学技能。



构建CSS作品集


CSS作品集与数据科学作品集类似,包括项目和成果(Robinson and Nolis 2020),是数据科学教育(Nolan and Stoudt 2021)和职业生涯建设(Craiget al. 2018)的重要组成部分。准备作品集对于追求非学术性职业尤为关键,因为在这些职业中,出版物并非唯一且远非最重要的业绩指标。学生无需参加与CSS相关的所有课程;在某一时刻,建立能够证明其应用知识的作品集将更好地利用他们的时间和精力。构建成功作品集的一种方法是将其想象成一系列“可交付成果”,这些成果证明了自己了解CSS流程。


首先讨论CSS作品集与简历(CV)的不同之处是有帮助的。首先,CSS作品集通过突出非出版成果(包括开源软件开发、交互式地图和仪表板)来更广泛地定义成果,这些成果是强大编程和公众参与技能的指标。其次,CSS作品集侧重于流程,而不仅仅是成果。特别是,一个强大的CSS作品集将证明研究人员能够编写可阅读和可重复的代码——这是非学术研究环境中高度重视的技能,因为在这些环境中,代码通常需要快速且高效地重现。


如何创建和分享有效的CSS作品集?研究生应该熟悉如git这样的版本控制工具,并经常使用如GitHub这样的开源编码平台。Git是一个用于管理和跟踪代码库更改的工具,从而允许用户对其工作的不同版本进行控制。GitHub是建立在git之上的一个在线平台,提供了用于协作、跟踪和托管代码存储库的额外功能。后者对于开发和共享CSS作品集尤其重要。最初有一定的学习曲线,因为这些工具要求熟悉命令行工具。然而,如果研究生能够在整个博士课程期间开发和分享多样化和广泛的作品集,那么回报将是巨大的。


有了这些技能,研究生可以通过在GitHub上公开访问存储库来共享CSS研究项目。存储库应该不仅展示技术技能,还应该说明某个主题上的实质性知识。为此,自述(readme)文件为概述研究项目的理论和实证动机提供了有用的空间。还值得注意的是,研究项目在通过存储库共享之前不需要完全完成;事实上,开源存储库的目的是展示和分享自己的工作及其价值,即使项目尚未完全成熟。研究生还可以通过在个人网站上发布博客文章和教程的形式,撰写简短的研究笔记来分享自己的工作。



与计算社会科学家建立联系


对于任何社会科学家来说,建立人际网络对于开发合作研究项目和了解工作机会都是有益的(Kim, Lebovits, and Shugars, 2022)。对于计算社会科学家而言,人际网络同样在寻找合作者和工作方面具有极高的价值;然而,在CSS领域中,它的工作方式略有不同,因为建立联系的机会跨越了更多学科和行业之间的界限。


(一)CSS会议

社会科学博士项目通常会培养并鼓励学生参加各自学科内的旗舰学术会议。然而,CSS博士生可以从参与更广泛的会议中受益。有许多跨学科会议专注于CSS主题,在这些会议上,研究生可以与其他学者见面,同时分享自己的研究成果并获得反馈。热门的CSS会议包括:国际计算社会科学大会、计算机学会人机交互系统大会、国际网络与社交媒体大会、文本数据大会、网络科学协会大会、国际社会网络大会、政治与计算社会科学大会以及计算机学会公平性、可问责性和透明度大会等。


CSS会议在运作方式上大多类似于其他学术会议,但也有其独特之处,主要体现在以下三个方面:(1)除了学术界人士外,参与者还来自产业界;(2)采用匿名评审流程来选择论文,并且有时将论文作为会议论文集的一部分进行发表;(3)组织参与度极高的海报展示环节。这些CSS会议的独特特点为学生提供了绝佳的机会,让他们能够了解不同学科和行业中的研究趋势和职业化规范。此外,CSS会议也是学生们结识同行并与之建立联系的理想场所(Kim, Lebovits and Shugars, 2022),其中许多人可能正在寻找跨学科合作伙伴,或者能提供有关私营和公共部门实习的有益信息。


除了不断增加的CSS专门会议之外,许多学科会议近年来也增设了关注CSS议题的预会议。例如,美国政治科学协会的政治网络分会组织了名为PolNet的年度活动,其中包括研讨会和专题讨论会。近年来,美国社会学协会也在其年会之前组织了计算社会学预会议。


(二)实习机会

社会科学博士生在暑期通常会忙于准备项目关键阶段和进行研究工作。对于CSS(计算社会科学)博士生来说,这些时间段可能特别适合通过实习来进一步提升技能,并通过职业探索为未来做好准备。尽管长期以来,实习一直是信息科学与计算机科学本科教育及博士培养过程中的常见组成部分,但对于CSS博士生而言,暑期实习也日益成为其研究生经历的重要部分。尤其是在博士项目的早期参与实习,可以帮助学生了解自己是否希望继续留在学术界,还是追求私营或公共部门的职业发展。


如今,许多组织都为CSS博士生提供实习机会。包括Meta、X、谷歌、亚马逊以及微软研究院在内的众多科技公司和社会媒体公司都有各自的实习项目。一些公共机构和非营利组织同样设有实习计划,比如公民数字奖学金和数据科学为公益奖学金等。此外,对于使用混合方法或定性方法的社会科学博士生来说,在私营和公共部门也有实习和就业机会,他们在进行访谈和焦点小组研究方面的技能备受看重,例如在用户体验(UX)研究和社区导向型研究中。


实习的结构、时长、驻地要求和薪酬各不相同,但通常都会为学生提供在应用环境中,特别是在团队协作背景下进行研究的机会。学生应了解到实习竞争激烈,需要至少花费几周时间申请并为多轮面试做准备。面试通常会涉及研究设计能力、统计方法和编程技能的评估。我们鼓励学生联系前实习生,了解他们的面试经验和实习经历。私营企业的实习招聘通常在秋季进行,大部分实习会在整个夏季进行。然而,许多公司全年都提供实习岗位,所以学生应该根据自己的学术日程安排提出合适的时间要求。公共部门实习申请的截止日期相对分散,往往更接近实习开始日期。


(三)在线网络工具

CSS博士生还可以利用在线工具与其他学者建立联系。例如,LinkedIn是一个实用的平台,可以帮助他们与在私营或公共部门从事相似主题研究的CSS(计算社会科学)研究人员建立联系。如果学生有兴趣与非营利组织和智库中的CSS研究人员建立联系,LinkedIn可能特别有用,因为相比产业界的研究人员,这些非学术机构的研究人员参加CSS会议的可能性相对较小。当前,用于连接计算社会科学家的其他有用平台包括Slack和X等。有许多团体和组织,如Black in AI、Women in Machine Learning以及R-Ladies等,CSS博士生可以在其中找到归属感并建立起自己的社群。总体而言,我们鼓励研究生主动接触CSS领域的学者,特别是那些在非学术机构工作的学者,因为他们通常能提供对其所在组织目标、需求及优先事项的重要见解。



结论


CSS为社会科学家创造了众多新的职业发展机会。本文分享了一些建议和资源,为博士生提供了一份指南,帮助他们在学术界和非学术界的新兴职业道路上导航。我们鼓励对计算社会科学职业感兴趣的社会科学博士生通过以下途径来拓展其研究设计能力和领域专业知识:(1)学习数据科学技能;(2)建立CSS作品集;(3)与计算社会科学家建立联系。


随着CSS领域的持续发展,各院系及专业协会可能需要在支持研究生方面扮演更加协调和积极的角色。当前,我们借鉴了近期关于社会科学博士培养和就业安置的研究(Berdahl, Malloy, and Young 2020),建议院系考虑采纳以下变化以更好地支持对CSS感兴趣的博士生。值得注意的是,这些相同的改变也很有可能吸引并留住CSS领域的师资力量:

  • 在博士训练初期向学生提供非学术职业机会的信息,包括实习机会

  • 将数据科学技能培养融入现有课程体系(例如,在初级统计学课程中整合R或Python)

  • 开设新的关于计算方法和数据管理的课程

  • 发现其他院系中的相关数据科学课程,并认可所修学分

  • 发现其他院系中可参与论文答辩委员会的相关数据科学师资

  • 提供替代选项,让学生可以用实习经历或高级CSS培训来满足项目要求(如一个学科考试要求)

  • 支持现任教师进行CSS培训

  • 雇佣更多CSS专业的教员,并从产业界和非营利组织招聘计算社会科学家担任教员或访问学者职位

  • 更新发表标准,日益重视CSS会议论文、期刊以及合作CSS项目工作的价值


揭示隐藏的课程体系是迈向普及CSS教育和助力所有自视为计算社会科学家的学生实现目标的重要步骤。我们并不声称拥有定义什么是计算社会科学家或CSS课程体系的最终答案,相反,我们希望这份指南能够激发关于这一领域长期发展的关键且必要的讨论。


(因篇幅限制,参考文献从略)


〇 编辑、排版:焦磊

〇 审校:郭瑞涵  大兰

继续滑动看下一个
比较中的政治研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存