关于成立集智俱乐部第谷小组的设想 | 一群集智科学家的发声
社会科学家需要高质量数据来研究“慢变量”和“自然变量”
随着大规模数据和机器学习模型日益廉价,社会科学各分支在过去十年中遭受重大冲击。社会学、政治学、经济学等学科内部出现了两种应对态度。一种极端,是漠视数据大潮,回避与其他学科对话,在书房里闭门做理论工作(conceptual works),这种态度对学科发展有容易察觉的危险;另一种极端,是追逐潮流,被技术带着走,这种态度更具误导性。它的误导性在目前许多号称“计算社会科学”(Computational Social Science)工作中有所体现。复杂网络、主题模型、词向量等技术似乎不断将最流行的技术与社会科学结合,但并没有积累出多少关于重大问题的结论。
在这样以快取胜的技术竞赛中,社会科学家很容易失去自己的优势:研究慢变量的兴趣和洞察力。一个系统中的变量改变有快慢之分,我们在讨论因果时,说的往往是慢变量对快变量的影响。例如力是慢变量,加速度是快变量。教育是慢变量,收入是快变量。要观察到慢变量的改变,就需要更多持续时间较长的数据。例如组织和制度的长期存续,政策的长期后果、思想文化的传承与流变、国家的兴衰,往往需要研究跨越几十年甚至上百年的数据。现在大部分易得的互联网数据,例如用户浏览网站记录,移动通信记录等,虽然规模大,却都是短期行为,难以对一些我们感兴趣的慢变量进行精细刻画。
除了慢变量外,另外一个社会科学实证研究中应该提倡的是,对“自然变量”的研究。例如在社交网络中,节点的度数是比节点的连接强度更“自然”的变量,这是Barabasi对于无标度(scale-free)网络的研究(Barabasi and Albert 1999)比Granovetter的对于社交网络中“弱连带的优势”(Granovetter 1973)的研究的实证研究追随者更多的重要原因之一。因为在故事同样有趣的情况下,前者测量的变量更基础更直观,而后者对于测量变量定义的模糊性,为概念化讨论留下了更大空间的同时也使测量难以重复验证。我们常常说,好的研究需要站在巨人肩膀上,但这首先就要求前人需要提供一个牢靠的肩膀。Granovetter的“链接强度”,和Ronald Burt的”结构洞”(Burt 2004)已经是社会科学中较为好的研究典范。大量的社会科学研究,在构造变量时比较随意,为了一个更有吸引力的故事,构造出复杂的变量,不仅使得统计假设检验的功能大打折扣(构造的变量越复杂,可能的版本就越多,越容易找到一个可以通过统计检验的版本),也使得后来的研究难以重复试验。我们提倡用最自然的变量讲有趣的故事,这就对数据本身的规模和质量,以及在数据处理工作中付出的努力提出了很高的要求。
那么,什么样的数据是大规模高质量的数据呢?一个例子是Web of Science科学文献数据,包含将近一千万科研人员在过去一百年中,在一万多个杂志上发表的五千万篇论文。研究这个数据可以帮助我们了解如何制定更好的科研政策来激励知识发现。比较早研究这个数据并作出一系列高质量工作的是西北大学商学院的Brian Uzzi, Ben Jones, Luis Amaral等人(Jones et al. 2008; Wuchty et al. 2007; Uzzi et al. 2013; Jones and Weinberg 2011; Guimerà et al. 2005)。另外一个例子是美国专利数据,包含了超过三百万个公司和个人在两百年间申请的五百万个专利。这个数据可以用于研究技术变迁和企业兴衰,帮助我们了解如何组织和管理具有创新能力的团队。在这这方面做了一些有趣讨论的包括芝加哥大学城市创新中心的Luis Bettencourt (Youn et al. 2015)、哈佛商学院的Juan Alcácer (Alcácer and Gittelman 2006; Alcacer et al. 2009) 和Tom Nicholas (Nicholas 2014) 等人。
另外,大规模在线实验也是提供高质量数据的重要来源。实验不仅可以实现对我们关心的变量严格的控制,比起“野生”大数据更容易排除变量间的干扰关系,而且实验还有一个巨大的好处:可以用于考察个人和组织在极端情况下的反映。这些极端情况也是小概率事件。例如通过伪造微信朋友圈实现的电信诈骗,虽然微信拥有几亿用户,但这类极端案例总量并不多。如果我们需要在研究中对数据分割比较,例如根据性别、年龄、教育程度,收入划分受害者,来考察什么样的人群更容易遭受损失,数据就变得更稀疏。这种情况用实验研究比较合适。同时比起传统的线下实验,在线实验平台允许大规模参与者在一个较长周期内的互动,具有较强的优势。例如微软纽约实验室的Duncan Watts团队在他们自己开发的TurkServer平台上做了94个参与者在20天连续做了四百轮博弈论实验,结果发现有40%参与者即使自己受损害也不试着背叛,这些利他主义者的存在可以使得一个以理性利己主义者居多的系统中合作仍然能够长期进行(Mao et al. 2017)。这种大规模长期实验在线下是难以执行的。
当然,自然行为数据和实验行为数据并不是互相排斥的。可以预想,一个社会科学的趋势是从大数据中发现规律性,然后将这种规律性推到极致,在实验中检测。
高质量数据需要高质量交流和合作
但是这样的高质量数据,从获取、清理,到流通,都需要巨大的人力和技术成本。如果有一个组织,我们在内部可以形成比论文合作更宽松,更多样化的交流环境,那么其他对这个数据感兴趣的人,可能可以省下以年计的时间。同时因为其他人已经通过自己长期的工作摸清了数据的情况,后人就可以把精力投放在同样需要高质量注意力的地方,例如在讨论变量关系时排除种种cofounding variables的影响,找到最简单,最深刻的故事。以物理学的发展历史类比社会科学,我们需要做好第谷的数据收集和清理工作,为年轻的开普勒们——真正能让社会科学和人类行为研究走进下一个阶段的科学家,奠定基础。因此,我们需要做一些艰苦但是不失有趣的工作,利用线上数据和实验,研究好慢变量、自然变量。同时,我们倡议成立这样一个组织,初步建议成员准入机制如下:
成员机制
分享数据的要求
我们希望通过降低数据获取的门槛来提升思想的质量。好的数据往往是积累性的,需要大量的清理加工工作才能被有效使用的,天文学大发现来源于前期长期大规模的精确的数据累积,未来社会科学的突破性研究,已经不能够再依靠局部性的小打小闹,通过耗费每个学者各自为战,重复收集/整理数据的精力来达成,而必须建立有效的团队合作和分享的基础上。我们希望小组内的成员能够形成良性的数据分享和互动,探索一种合理有效的机制来提升科研的前进梯度。鼓励小组成员贡献清理过的高质量数据,尊重相互的数据积累并建立合作、共同发表等机制。因此,我们要求,加入小组的成员,必须在共用的服务器上,上传一份其他人尚未贡献的新数据。数据质量和规模是否满足要求,需要由全体已有小组成员一致决定,一票否决。
保证成员高质量参与的准入机制
保证成员高质量参与是这个项目的难点。在有长期社群网络,组织约束和准入协议的情况下,保证数据保护在可控范围内共享是容易实现的。但是客观上每个人手中数据的获取难易、为获取所投入的资源、对数据价值的判断会有差异。不管是客观还是主观,总会有人贡献的多,有人贡献的少,如何保证在交换不对等的情况下维系合作关系,可能会面临很多困难。这部分可能需要更多讨论。目前我们初步采取的方案是,要求成员有至少一篇社会科学实证研究英文论文(可以是working paper或者上传到arXiv,无需发表),并且加入组织需要就自己的研究兴趣的经验参加一个在线答辩会(1小时报告,一小时讨论),所有现任成员自愿参加(核心成员必须参加),一票否决。
本小组成员分成核心成员与非核心成员。原则上核心成员需达到可以在北美应聘assitant professor的状态,即起码有一篇署名第一作者的英文实证论文(无需发表),且该工作可以达到在北美research university做job talk的presentation。非核心成员由核心成员推荐(一票否决),经核心成员评议升级核心成员。
成员权利义务
本组织是一个松散组织(类似于健身俱乐部),完全基于参与者的兴趣和使命感。核心成员比非核心成员具有更多责任(需要列席新非核心成员申请答辩会,需要推荐和评议新核心成员),但没有什么特别的权利。所有成员一律平等,共享所有成员一同贡献的数据。我们提倡成员之间开展合作关系,但更提倡每个成员有自己长期思考的方向,不过多合作,发表太多文章。组织不定期会举办线上或者线下论文讨论会和数据推介会,共同积累文献资料。
现有成员
吴令飞
研究方向:Computational Communication
数据:Web of Science, US Patents, GitHub
代表论文:Large Teams Have Developed Science and Technology; Small Teams Have Disrupted It https://arxiv.org/abs/1709.024
机构:芝加哥大学社会学系
施永仁
研究方向:Ideological Alignment
数据:Twitter
代表论文:Cultural Fault Lines and Political Polarization https://dl.acm.org/citation.cf
机构:耶鲁网络科学与人类行为研究中心
石峰
研究方向:Knowledge Diffusion
数据:Amazon Books
代表论文:Millions of online book co-purchases reveal partisan differences in the consumption of science https://www.nature.com/article
机构:北卡香槟分校
王成军
研究方向:Computational Communication
数据:Mobile Phone Users
代表论文:Tracing the Attention of Moving Citizens https://www.nature.com/article
机构:南京大学新闻传播学院
史冬波
研究方向:Science Policy
数据:WoS
代表论文:Double-edged Sword of Interdisciplinary Knowledge Flow from Hard Sciences to Humanities and Social Sciences: Evidence from China http://journals.plos.org/ploso
机构:上海交通大学国际与公共事务学院
董磊
研究方向:Urban Planning
数据:Open Street Map
代表论文:Simple spatial scaling rules behind complex cities https://www.nature.com/article
机构:清华建筑学院
林倬
研究方向:Institution Formation
数据:Firm Ownership
代表论文:"Status projection”—a study of the foundation of independent directors among China’s listed companies https://journalofchinesesociol
机构:芝加哥大学社会学系
张涵
研究方向:Opinion formation
数据:Twitter
代表论文:Geolocated Twitter Panels to Study the Impact of Events http://researchdmr.com/GeoLoca
机构:普林斯顿大学社会学系
刘源浩
研究方向:Institution Formation
数据:Government Data and Statistics
代表论文:Wind Power Development in China: An Assessmentof Provincial Policies https://pdfs.semanticscholar.o
机构:芝加哥大学社会学系
数据与实验资源
目前由史冬波(上海交通大学国际与公共事务学院)负责建设和维持储存公共数据的服务器。由王成军(南京大学新闻与传播学院)负责建设和维持在线实验平台。现有数据:
发现、清理与贡献: 李林倬,王成军,吴令飞
简介:
The GitHub data contains 15,984,275 code bases (repositories) contributed by 2,348,085 users in the GitHub between 2011 and 2014. To calculate disruption and other measures we construct a citation network of repositories. We add a citation link from repository A to B if a “core member” of A, user i, copied and saved (“forked”) the codes of B during the time period in which i was contributing to A (which lasts from i’s first to last edit of A). For each repository, we identify its core members as those who contributed more edits, or “pushes”, than the average value of all contributors to a repository. The constructed network used to calculate disruption and other network measures (Fig. 2) contains 26,900 nodes (repositories) and 108,640 links.
发现、清理与贡献: 吴令飞
简介:
Stack Exchange is a network of question and answer communities covering diverse topics in many different fields. We downloaded its database dump on January, 2014 from https://archive.org/details/stackexchange. This data set is a freely accessible, anonymized dump of all user-contributed content on the Stack Exchange network provided by Stack Exchange, Inc. under cc-by-sa 3.0 license (see https://creativecommons.org/licenses/by-sa/3.0/us/ for the explanation of this license). The downloaded data set contained the log files of 110 communities. The smallest community italian.stackexchange.com was created in November, 2013 and has 374 users, 194 questions, and 387 answers in our data set. The largest site stackoverflow.com (SO) was created in July, 2008 and has 2,728,224 users, 6,474,687 questions and 11,540,788 answers.
Stack Exchange uses a variety of methods to prevent spamming and malicious edits. These methods, including CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) systems, script detection heuristics, new users limits, collective flagging of spam or offensive flags, auto-removal of items based on flags, and human moderators to handle flagged items, work together to form a human-machine combined system that keeps answers clean and effective [11]. Before analyzing the asking and answering activities of user we cleaned the data such that every user who contributed to attention networks had a unique account in the separated log file containing user profile data. This ensures that the activities under investigation were generated by users who had passed the various anti-spam mechanisms of Stack Exchange.
发现、清理与贡献: 王成军
简介: (TBA)
更多更新请见集智wiki:(或点击阅读原文)
http://wiki.swarma.net/index.php/%E7%AC%AC%E8%B0%B7%E5%B0%8F%E7%BB%84
近期线下活动计划
12月14日-17日在南京大学举办大规模人类在线行为实验 | 黑客马拉松,为在线实验编程【王成军主持,吴令飞参与】
12月23日14:00在清华十年咖啡举办小规模讨论会(史冬波主持,吴令飞,李林倬参与),介绍第谷俱乐部的想法、成员及研究,以及既有数据,并邀请国内青年学者做报告互动。
12月24日09:00在北京腾讯研究院举办讲座“颠覆式创新一百年&AI走进社会生活发展前沿追踪 | AI&Society第三期”【张江主持,吴令飞主讲】
关于集智俱乐部
科学的理想需要打破学科界限。社会科学家可以熟练使用计算机语言和数学工具来处理大规模数据,计算机科学家和物理学家也具备社会学的想象力和洞察力;打破语言和文化的界限。中外年轻的社会科学家可以建立私人纽带,互相访问对方研究机构,形成合作,共同成长;打破资历的界限。不分年龄、资历,机构声望,所有的人平等地交流和争锋。
十年前由北师大张江教授创立的集智俱乐部,比较成功地实现了上述三点。我们从一群充满科学理想主义的学生,成为了各个机构有一定经验的研究人员和管理人员。十年间一共举办了三百多场读书会,出版了两本关于人工智能和复杂系统的科普书。在国内孕育出了像前任集智核心成员袁行远创办的彩云天气 (2014天使轮五十万美元,2017A轮六百万美元) 和前任集智核心成员曹旭东创办的Momenta (2016天使轮五百万美元,2017A轮四千六百万美元) 这样的人工智能公司。在海内外形成了一个覆盖中国、美国和欧洲的年轻科学家网络。从2016年开始凯风基金会支持我们在古北水镇举行每年一度的集智科学家会议,数量在三十个人左右,参与者以三十岁以下从事前沿研究的年轻数学、物理、计算机科学家为主。
尤其是近一两年来,我们在打破学术界、政府与工业界的界限,探索大数据与社会科学结合方面做了许多尝试。今年七月在清华薛澜教授支持下,我们在公共管理学院举办了“人工智能与政策会议”会议。普林斯顿大学谢宇教授、芝加哥大学James Evans教授,西北大学王大顺教授,和来自国家自然科学基金委等部门的官员、以及来自互联网公司的年轻工程师、产品经理一起,对于如何用大数据做创新政策研究,做了热烈讨论。今年十月和十一月,我们在腾讯研究院的支持下,在上海和深圳办了以“AI and Society”为主题的两次讲座,收到了社会各界的积极回应。
关于AI&Society
为了挖掘在AI与社会研究交叉领域有想法的研究者,促进思维碰撞,腾讯研究院S-Tech工作室与集智俱乐部共同打造了“AI&Society”的系列学术沙龙活动。
✎AI&Scociety学术沙龙简介
人类已经全面进入了智能社会,以人工智能为代表的新一代技术必将逐步渗透到我们的日常生活之中,并彻底改变我们的社会形态。那么,新一代的人机共生社会需要怎样的社会科学?社会科学的研究成果又如何促进人工智能的发展?人工智能会怎样影响人类社会?社会科学研究又如何借鉴人工智能领域的最新成果?
我们认为挖掘AI与社会领域有想法的年轻学者,促进AI与社会原创思想的交流与碰撞是探索、回答这一系列重大问题的第一步。因此,腾讯研究院S-Tech工作室与集智俱乐部共同打造了“AI&Society”的系列学术沙龙活动。
该系列沙龙以线下实体活动为主,我们将邀请AI与社会领域的交叉研究学者进行公开性的讨论与思想碰撞。沙龙的主题可涵盖但不限于如下的内容和主题:
计算社会科学(Computational Social Sicence)
社会计算(Social Computing)
多主体系统(Multi agent systems)
算法经济学(Algorithm Economy)
人工智能社会学(Artificial Intelligence Sociology)
群体智慧(Swarm Intelligence)
人类计算(Human Computation)
机器学习(Machine Learning)
技术与人类社会(Technology and Human Society)
人工智能与城市科学(Artificial Intelligence and Urban Science)
活动推荐
颠覆式创新一百年&AI走进社会生活发展前沿追踪 | AI&Society第三期
大链接与大数据——AI&Society第二期活动回顾(含下期预告)
人工智能社会的憧憬和忧虑——AI&Society第一期活动回顾
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!