Science综述:计算社会科学十年,反思与展望
导语
2009年2月6日,David Lazer、Alex Pentland为首的15位学者在Science上发表题为“计算社会科学”的观点文章,标志着这一交叉领域的诞生。时隔十年,2020年8月28日,David Lazer、Alex Pentland,、Duncan Watts领衔的15位学者在Science的政策论坛专栏发表文章,反思计算社会科学领域研究的发展现状,包括:数据分享、研究伦理以及激励机制,同时提出五条建议:加强协作、完善新型数据基础设施、注重伦理和法律以及社会影响、重组大学组织结构,解决实际问题。
集智俱乐部「社会计算」系列读书会已经启动招募,多位专家牵头,从计算科学与复杂科学等跨学科视角,探讨社会、经济等领域的问题。读书会为期10-12周,每周四晚举办,5月27日正式开始。详情见文末。
D. Lazer等 | 作者
苟泽鹏 | 译者
吴雨桐 | 审校
邓一雪 | 编辑
论文题目:Computational social science: Obstacles and opportunities论文地址:https://science.sciencemag.org/content/369/6507/1060
过去十年,计算社会科学 (Computational Social Science,CSS) 蓬勃发展,研究人员利用观察数据、实验设计和大规模仿真 (large-scale simulation) 发表了海量论文,这在之前是难以想象的。这些研究极大地提高了人们对社会不平等、传染病传播等重要社会现象的认知。学院中支持计算社会科学的机构也大幅增加,全球范围内跨学科、跨数据源的会议,研讨会,与暑期学校数量激增。但在一些重要方面计算社会科学尚有一些不足,许多制度性结构仍处于萌芽状态,包括研究伦理、教学法以及数据基础设施等方面。我们提出了解决这些不足的方法,特别针对增强大学组织与该领域的智力需求之间的协调性。
我们将计算社会科学定义为对复杂的、通常是大规模人类行为 (有时是仿真的) 数据计算方法的开发和应用[1]。该领域的知识前身包括对空间数据、社交网络、以及人类对文本与图像编程的研究。传统定量社会科学横向研究案例、纵向研究变量,且通常假设观察值之间具有独立性,而计算社会科学关注的则涵盖了语言、位置与运动、网络、图像以及视频多种内容,并应用统计模型来获取数据中的多重依赖性。一个由社会科学家、计算机科学家、统计物理学家和其他领域的研究人员组成的松散的智力群体可以在计算社会科学这一领域联合起来。
1. 高校的失调
1. 高校的失调
科研评估工作,如分配研究资金的英国“研究卓越框架” (Research Excellence Framework) ,通常也都侧重于单一学科内部,这就意味着多学科研究可能得不到认可和奖励。同样地,大学晋升制度也并不重视多学科学者。大学里的计算研究基础设施往往不能很好地支持大规模以及敏感数据集的分析,这些工作对数据安全性、大量研究人员访问以及计算能力都有要求。这些问题在学术界已经得到了一定程度上的解决(例如基因组数据的使用),但在计算社会科学领域中,相关解决办法仍未付诸实践。
2. 不适当的数据共享范式
2. 不适当的数据共享范式
然而,私营企业的价值取向与政府不同,我们可以料想到,相关的研究进展会更少。政府机构手中的数据是为公众托管的,而企业持有的数据通常被视为重要的专利资产。对政府机构的利益相关者而言,共享数据所固有的公共责任可能被视为一种积极因素,但对私营企业的股东来说,情况就并非如此了。这样一来,研究人员从私营企业获得研究数据的可能性不大。即使能够拿到数据,通常也是利用一个拼凑而成的系统,该系统中某些数据是通过公共应用程序接口 (APIs) 获取的;或者通过研究人员在与有关企业的合作过程中获得,这种情况下往往需要在该企业工作;还有一些是通过个人关系与一次性安排获得。一般而言这些数据受到保密协议的约束、且可能存在潜在的利益冲突。研究人员获取数据的另一种选择是,购买专门为市场研究收集的专利数据 (如Comscore、Nielsen等) ,这种方法有时并不公开透明,且其定价之高也令人望而却步。
首先,许多企业在持续减少可从其平台抓取的数据[5]。这样做有时是有充分理由的,例如:监管法规(欧盟通用数据保护法规 (GDPR))、公司丑闻 (Cambridge Analytica and Facebook) 等,但这样带来的不利影响,就是阻塞了有潜在价值的研究途径。私人与研究人员之间的合作是完全自愿的,这样数据的可获得性很容易受到私人的任意性和不可预测变化的影响,使得这种获取数据的方法在本质上并不可靠,还会导致科学研究存在潜在偏差。
3. 不足的研究规范
3. 不足的研究规范
尽管之前就曾呼吁制定此类指导,且研究中已出现重大失误,破坏了公众的信任,但计算社会科学领域始终未能充分阐明收集和分析人的数字数据的明确原则和机制,以及如何最大限度地减少对人伤害的可能性。极少有大学提供技术、法律法规或道德方面的指导来适当控制和管理敏感数据,机构审查委员会仍没有普遍适应和一致应对由数字追踪数据的带来的独特伦理挑战。最近美国修改的关于研究对象为“人”的课题 (human subjects research) 伦理的共同规则 (Common Rule),也并没有完全解决这些问题。 例如,网络世界里,我们分享个人信息的同时,其实也提供了与自己有相关联系的人的信息,我们该如何处理这一问题呢?围绕 “同意”的挑战,凸显了管理敏感数据安全,与重塑机构审查程序和道德规范的重要性。然而,很少有大学会整合基础设施和监督程序,来最大限度地降低安全漏洞的风险。
剑桥分析公司以及其他类似的事件,引发了一场围绕数据主权的激烈讨论。隐私权倡导者和企业之间的战线已经拉开,前者试图尽量减少对所有个人数据的收集和分析,而后者则想要以向消费者提供价值为基础,来证明其数据收集策略的合理性。
4. 建 议
4. 建 议
对于上述问题,我们提出了五个方面的建议。
加强协作
与Facebook相关的大选实例凸显了研究人员与企业之间潜在的对抗性作用。当代计算社会科学领域的一个核心问题 (如下所述) 是特定的社会技术系统,以何种方式,在社会中发挥积极和消极的作用。如果企业认为透明地研究和预测这些问题符合自己的长远利益,那么研究人员与企业之间紧张的对抗关系可能会得到部分(但不完全)地缓解。然而,即使在最乐观的情况下,研究产生的见解中的公众利益与企业利益之间也将存在分歧。 从更广泛的角度而言,学术界需要为专业实践提供精心制定的指导方针。企业对研究过程能有什么控制权?显然,企业对论文内容拥有否决权显然是不可接受的,但任何数据共享协议的现实是,研究人员与企业之间有协商的调查领域。还有很多问题,诸如被提供用于复制的数据有哪些要求、研究人员对访问公司内部数据管理和策划流程的需求是什么等等。
完善新型数据基础设施
注重伦理、法律与社会影响
重组大学组织结构
解决实际问题
参考文献
[1] D. Lazer et al., Science 323, 721 (2009).
[2] R.Chetty,N.Hendren,P.Kline,E.Saez,Q.J.Econ.129, 1553 (2014).
[3] J. J. Abowd, J. Haltiwanger, J. Lane, Am. Econ. Rev. 94, 224 (2004).
[4] A.Reamer,J.Lane,ARoadmaptoaNationwideData Infrastructure for Evidence-Based Policymaking (2018); https://journals.sagepub.com/doi/ abs/10.1177/0002716217740116.
[5] D.Freelon,Polit.Commun.35,665(2018).
[6] M.J.Salganik,BitbyBit:SocialResearchintheDigital Age (Princeton Univ. Press, 2017).
[7] K.Munger,Soc.MediaSoc5,205630511985929(2019).
[8] Social Science Research Council, To Secure Knowledge: Social Science Partnerships for the Common Good (2018); www.ssrc.org/to-secure-knowledge/.
[9] IEAG,UN,“AWorldthatCounts—MobilisingtheData Revolution for Sustainable Development.” Independent Expert Advisory Group on a Data Revolution for Sustainable Development (2014).
[10] G.King,N.Persily,“ANewModelforIndustry-Academic Partnerships” (Working Paper, 2018); http://j.mp/2q1IQpH.
[11] A.Hannáketal.,inProceedingsofthe22nd International Conference on World Wide Web (ACM Press, New York, 2013), pp. 527–538.
[12] I.Rahwanetal.,Nature568,477(2019).
[13] Z.Obermeyer,B.Powers,C.Vogeli,S.Mullainathan, Science 366, 447 (2019).
[14] J. E. McEwen et al., Annu. Rev. Genomics Hum. Genet. 15, 481 (2014).
[15] D.J.Watts,Nat.Hum.Behav.1,0015(2017).
(参考文献可上下滑动查看)
相关资料:
https://swarma.org/?p=12618
社会计算系列读书会启动招募
随着大数据的持续积累和数字技术的迭代,社会计算(social computing)这一交叉领域正快速兴起,社交网络分析、自然语言处理、机器学习、系统动力学、多主体建模等技术在这一领域碰撞融合,逐渐挖掘出信息时代社会行为的深层规律。
集智俱乐部以「社会计算」为主题,组织为期10-12周的读书会,多位专家牵头,研读经典和前沿文献,交流激发科研灵感。读书会由王硕老师发起,专家顾问团包括孟小峰、罗家德、王晓、吕鹏、王静远、李勇等多位老师。
详情以及报名方式见:
融合计算科学、社会科学与复杂科学:社会计算系列读书会启动招募
推荐阅读
点击“阅读原文”,报名读书会