查看原文
其他

AI 技术突飞猛进时代,如何推动科学创新?科学学给科学的启示

郭瑞东 集智俱乐部 2023-05-04


导语


科学学的价值在于,能够利用引文网络等大数据定量揭示科学研究中违反常规的现象,并用模型解释存在差异的原因。例如科研领域存在的性别、种族、所属国家等各种不平等,不同规模科研团队在产出和创新程度上的显著差异。事实上,这只是“科学学”带给科学界启示的冰山一角,发表于 Nature Human Behaviour 的评论文章《科学学需要扩大研究视野》指出,随着科学学这一领域的成熟,其下一步的发展需要将数据驱动的观察与干预实验结合,扩大研究范围并使数据来源多样化,从而使科学学研究在现实世界留下切实的印记。

本文汇总了集智俱乐部近一年复杂科学「顶刊速递」栏目的科学学相关论文,旨在探讨在这个 AI 技术突飞猛进的时代,如何改善科研领域的不平等,如何形成良好的科研合作模式,如何更有效地推动科学创新,以及 AI 如何促进科学理解、帮助做出科学发现。希望对各位读者有所启发。


关键词:科学学,科学创新,学术不平等,团队创新,科学与AI

郭瑞东 | 作者

梁金 | 审校


 
 



1. 如何推动创新?



 
1.1 扁平化团队更能促进科学创新
 
发表于美国科学院院刊(PNAS)的题为 Flat teams drive scientific innovation 的文章,能根据论文贡献声明文本,推断科研团队中扮演构思、领导角色的作者比例,发现层级化的科研团队给处于领导地位的成员带来了显而易见的好处(层级化团队结构能提高领导型作者的产出效率,最大化短期引用,从而对冲了他们积累学术资历的风险),但不一定能最大化辅助成员的生产力和创新潜力,且通过扩大科研团队的规模来提高其创新能力的做法可能会事与愿违。
 
图1:层级化团队与扁平化团队在科研产出上的差异。
 
1.2 创新更多发生在科研网络的边缘
 
Theory in Biosciences 期刊的集体行为特刊中的论文 Innovations are disproportionately likely in the periphery of a scientific network,通过共引用网络,发现位于共引网络核心的论文,表现出较高的与其他论文的相似性。而位于边缘的论文有更大的灵活性,更有可能产生创新。这一过程(现有观点的重组)与生物体的进化过程(保持核心基因组不变,同时对基因组中现有基因进行重组)极为相似。对于科研人员,这意味着科研中保持一个稳健的中心与一个能促成创新的边缘同等重要。
 
1.3  创新与报道,改变科学影响力的两个因素
 
由王大顺和巴拉巴西合作完成的新书《给科学家的科学思维》第18章,关注创新的涌现和科学影响力的关系,其中指出:科学出版物或者专利发明中不常见的组合,通常意味着论文或发明有更高概率获得高影响力,但它们同样也可能导致较高的不确定性。而相比于一般论文,那些既能推出创新组合,同时又能继承传统研究成果的论文,成功的概率至少高出两倍。
 
1.4 科学“老化”怎么办:加入新机构、与青年合作、拓展新方向
 
集智科学家吴令飞关注科研人员年龄增长对于科学界整体造成的影响,发现随着科学家年龄的增大,其引用的文献也多半是更旧的文献;而当某个领域的科学家年龄增加,该领域发生颠覆性创新的概率也会减小。为了应对科研团队的“衰老”,应当激励老科学家多与青年科学家搭档,或鼓励科学家在机构间流动,以加速创新。
 
图2. 不同类型研究者所处职业生涯阶段和其引用文献的年份改变之间的折线图
 
1.5 混圈子正阻止新想法的诞生
  
发表在 Nature Human Behaviour 的研究,基于语义相似性和多重网络等新方法分析论文引用网络,发现随着科研全球化,不同国家之间的研究正在变得越发不平等,且这样的引用不平等是稳定且持续的。类似个人层面的富者越富,穷者越穷,不同国家的科研团队也存在马太效应。而处在边缘位置的研究不被认同,将会阻碍新想法的诞生。
 
1.6 集智斑图用颠覆性指标盘点复杂科学前沿
 
集智科学家吴令飞在2019年的一期 Nature 封面论文“大团队发展,小团队创新”中,提出 disruption 指标来衡量论文的颠覆性,基于一项工作(论文、专利、软件等)的引用模式(citation pattern)而不是其引用量(citation counts)来标定其颠覆性。集智斑图论文库收录了复杂科学前沿研究,而基于 disruption 指标,的确找出了一些具有颠覆性的复杂科学研究样板。
 
1.7 Barabási算法+Physics Reports精选,网络科学综述10年Top10
 
网络科学具有跨学科性,物理学、计算机科学、数据科学、经济学、生物学、神经科学、科学学等领域,都在吸收网络科学理论和方法以促进自身发展。该文从 Physics Reports 2011-2020年发表的近400篇论文中,使用文本分类方法筛选出所有与网络科学相关的论文27篇,总结最受欢迎的10篇论文,以概述近十年来网络科学的发展趋势。
 
结果发现,这些研究多关注网络结构和动力学的进一步挖掘,包含了高阶网络、多层网络、嵌套网络、时序网络、社团划分等主题,动力学性质如扩散、渗流、同步、演化等主题。那些从理论上挖掘网络性质的文章相对于跨学科应用的文章获得了更大的长期影响力,而侧重于跨学科应用的研究工作受众范围更小,但所有这些研究共同组成了蔚为壮观的网络学科图景,并且足以产生多样化的实践价值。
 
 



2. 科研领域的不平等



 
2.1 全球科学产出的隐藏结构
 
Nature Human Behaviour 的研究根据对国际数据库中被索引的出版物的分析,揭示了支撑国家科学发展和全球科学组织的学科关联网络中的隐藏结构,指出科研产出更多受到经济水平的影响,科学产出多样性、国内生产总值(GDP)以及经济复杂性指数(ECI)与科研产出呈正相关。中低收入国家的科研,更多关注自然,例如动植物或生态研究,而高收入国家的科研产出更加多样化,有更多社会科学的研究。各国优势科研领域的出现和消失,遵循着经济学中的专业分工原则,新生的科研优势领域更容易出现在优势学科已聚集的位置。
 

图3.(b)根据收入水平,国家被分为四类:低收入、中低收入、中高收入和高收入(从左到右)。点对应于国家,核密度估计为红色,国家在三角形中的位置计算为每个聚类中优势学科的分数,通过优势学科的总数归一化。N:自然;P:物理;S:社会。(c) 埃塞俄比亚、越南、中国和美国,在2013-2017年占优势的科研产出。

 
2.2 科学中的性别模式研究合辑
 

2022年妇女节特稿就科学中的性别模式问题,选编了近2年来的一系列研究,重点讨论科学中的性别模式及其机制解释、不同学科/行业的性别模式,以及可能的应对方案等。关键发现包括:

  • 对少数群体而言,选择研究主题是有代价的,他们在主题之间和主题内都面临引用劣势。

  • 女性作为唯一作者或与女性合著的稿件更受审稿人和编辑欢迎,同行评议和编辑过程并不会惩罚女性撰写的稿件。

  • 科研团队具有同质性,即受训者和导师往往是同一性别。

  • 整个职业生涯的生产率和影响差异很可能来自发表生涯长度和退出率的差异,女性职业的可持续性问题很大程度上导致了学术界性别不平等的图景。

  • 将才华和其他 STEM 相关特质与男性而非女性联系起来的刻板印象,在维持学术界的性别隔离方面发挥了关键作用。

  • 女性在网上传播研究成果方面不如男性成功。

  • 女性对研究论文的贡献往往被男性和女性同时低估。

 
2.3 科学不平等的起源:合作网络揭示生产力和影响力的网络效应
 
Nature Communications 发表的一项研究从科研合作网络中挖掘个体研究人员生产力和影响力的网络效应。在控制了网络效应后,发现研究人员的个人潜在生产力(论文数量)差异度不高,而在潜在影响力方面却能有巨大差异。男性和女性之间自身的合作网络结构和规模差异导致了学术指标的差异,而并非研究人员本身的内在性别差异,具体来说,若研究人员能在职业生涯的早期与“大牛”科学家合作,那么在自身生涯中期成为“大牛”的可能性要大得多。
 

图4. 资深合作者对初级研究员未来职业生涯的影响。

 
2.4 女性在科学上的贡献比男性更少得到承认
 
Nature 特刊“不平等的科学”中的论文 Women are Credited Less in Science than are Men,指出研究团队中,相较于男性,女性被认为是作者的可能性更小,这种差距至少一部分是由于女性的贡献没有得到承认。为此,需要指定更清晰的署名标准以促进性别间的平等。
 
2.5 美国也有“学二代”,且学术不平等在加剧
 
NatureNature Human Behaviour 发表的两篇论文,探讨了美国各地终身教职教师的社会经济构成和教育背景。这些研究确认了大学教师具有普遍的核心-外围结构,核心大学之间的教师交流适度,大量的教师从核心向外围输出,很少反向输入或从美国以外输入,且大约有9.1%的美国教授受雇于授予他们博士学位的大学,这样的学术近亲繁殖限制了思想和专业知识的传播。研究量化了美国教师聘用和留任的动态,并支持努力改善美国学术人员队伍的组织、组成。
 
 



3. 科研合作模式



 
3.1 高影响力科学家更倾向多主题合作研究
 
北京师范大学系统科学学院副教授曾安等学者在PNAS上发表的一项研究,系统分析了科学家职业生涯中学术主题与合作者的共同演化关系,发现大多数科学家倾向于拥有高比例的单主题合作者,但高被引科学家的多主题合作者比例更高。而有合作历史的合作者更容易参与焦点科学家的新课题,也就是说,科学家在新课题中更有可能与近期的合作者合作。
 
图5. 影响现有合作者加入焦点科学家新课题的概率相关的因素。
 
3.2 高阶引文网络中期刊的特征
 
Scientometrics上的一篇文章中,作者基于期刊引文流之间的依赖关系,提出了高阶重要性和高阶复杂性的评价指标,较为准确地识别了重要期刊和期刊种类 。该研究指出:高阶依赖网络不仅可以准确揭示期刊的特征,还可以在共存疾病识别、社会事件检测和战略意图研判等方面提供新的理论视角。该研究为学术论文投稿提供了一些理论参考。
 
3.3 自然指数2022:从合作网络看全球科研五大国
 
自然指数是一个作者关系和机构关系的数据库,追踪由一个独立研究小组选出的82份高质量自然科学期刊上发表的研究论文的投稿情况,是全球高质量研究产出和合作的可靠指标。自然指数(Nature Index)根据合作得分显示了排名前5位的国家(美国、中国、德国、英国和日本)的10个最大合作伙伴,以及前5名国家中,最强的3个国际合作机构组合。
 
3.4 量子信息领域为何发展迅猛?近三十年合作网络画像揭示学科变迁
 
量子信息具有显著的跨学科特征,在过去25年中吸引了越多越多研究者的兴趣,论文持续增多。在一篇arXiv预印本论文中,研究者针对量子信息领域的数万名研究者构建了合作网络,挖掘出其小世界、高聚集等特征,其中大多数研究人员几乎没有连接,而少数科学家充当了网络的枢纽节点。
 
 



4. 科研报道与科研经费



 
4.1 科学新闻是否夸大了科学发现的确定性?
 
研究者使用包含2167个注释的科学发现的数据集,对科学传播中句子层面和方面层面的确定性进行度量,发现许多确定性的描述不能被简单的基于模糊限制语的词典很好地捕捉到。对43.1万个科学发现的分析表明,科学发现的整体确定性主要受“可能性”和“建议”的影响,而受“数量”和“程度”等其他方面的影响较小,相比于期刊论文,科学新闻通常并不会夸大科学发现,而是会淡化科学发现的确定性。尤其是影响力较低的期刊中的研究结果具有最高的确定性,而出现在影响力相对较高的期刊中的发现则以相对较低的确定性进行描述。
 

图6.(上)科学新闻的句子层面确定性比论文摘要低;(下)科学新闻倾向于淡化“数量”(Number)和“框架”(Framing)方面的确定性。

 
4.2 撤稿论文更博人眼球,撤回仍难阻止错误信息传播
 
近年来撤稿的论文数量有所增加,针对论文撤稿带来的影响,PNAS 的研究 Dynamics of cross-platform attention to retracted papers 指出:简单地撤回一篇论文,并不能消除该论文传播的虚假信息所造成的影响。是由于论文受到的关注周期通常在撤回发生之前就结束了。那些事后撤回论文在主要社交媒体平台、在线新闻网站、博客和维基百科等知识库等论坛上的首次提及次数,相比未撤回论文显著增加,同时对被撤回的论文的批评性推文的平均比例是未被撤回论文的两倍多。
 

图7. 撤回论文和对照组论文在社交媒体、博客、知识库、新闻媒体、顶尖媒体及排除批评言论后的1-6月平均被提到的次数。

 
4.3 科研资助的涟漪效应
 
来自 Science Advances 的研究揭示了科研经费是如何被花掉的,以及科研经费的长期影响。科研经费不仅带来了科研成果,还促成了更多新的研究者(快要毕业的博士生)以及技术更娴熟的专职技术人员。故此,在评估资助成效时,应该考虑资助的涟漪效应如何通过广泛的科研人员传播开来。研究还发现,由于大型实验室比小型实验室更加专业化,体现在教职人员和专业技术人员占比更多,这部分解释了大型实验室为何能产生大量的研究,而不会降低研究的整体质量。
 
4.4 科研成果的公众价值
论文题目:Public use and public funding of science
论文地址:https://www.nature.com/articles/s41562-022-01397-5
 
来自 Nature Human Behaviour 的研究,关注科学在公共领域的消费情况,即大众是如何看待并评价科研发现的。该研究通过将来自所有科学领域的数以千万计的科学出版物与它们的上游资金支持和下游公共用途——政府文件、新闻媒体和市场发明这三个公共领域——联系起来,考查科研如何被公共使用。研究发现不同学科的科研成果对公众具有不同的价值,公众倾向于消费来影响相对高的科研成果,这表明公共使用和科学使用之间的一致性,而超越科学的公共用途强烈预测各个领域内每篇论文获得的资助水平。
 
 



5. 科学与AI



 
5.1 人工智能如何促进科学理解
 
科学理解关注科学家是如何做出预测的,这是科学的主要目标之一。Nature Reviews Physics 的论文讨论以人工智能为代表的计算工具,如何能够促进新的科学理解或自主地获得科学理解。该文绘制出计算机辅助科学理解的三个维度,分别是计算显微镜、灵感的来源、理解主体。具体的应用场景包括:(1)识别数据中的异常(2)找出科学文献中的意外(3)通过检查模型找到出人意料的概念(4)探测人工主体的行为(5)从可解释的解决方案中提取新的概念(6)自主地获得新的科学理解。

图9. 计算机辅助科学理解的三个维度。目前最先进的计算显微镜可以用更复杂的系统进一步发展,由于算法和硬件的进步,这些系统可以被模拟,并且有更先进的数据表示。

 
5.2 AI 科学家帮助发现新的物理学定律
 
机器学习方法已经重新发现了许多已知的基本物理规律,包括对称性、守恒律、经典力学定律等,然而人工智能生成的理论(AI-generated theory)仍很难获得科学界的信任和支持。发表于 Nature Reviews Physics 的一篇文章梳理了近期人工智能对物理规律「新洞察」和「重新发现」。该文指出机器学习算法似乎遵循格式塔心理学的一些规律,例如AI重新发现对称性、守恒律、动力学。目前当人工智能为物理学提供了另类的见解时,我们可能不会立即认识到,且需要时间来充分认可它的重要性。但这还是有希望实现的。
 
5.3 AI 引导人类直觉,帮助发现数学定理
 
DeepMind 团队在 Nature 杂志上发表的一项最新研究中,人们成功让 AI 与人类数学家合作,利用机器学习从大规模数据中探测模式,然后数学家尝试据此提出猜想,精确表述猜想并给出严格证明。这意味着未来机器学习可能会被引入数学家的工作中,不使用机器学习直接生成猜想,而是专注于帮助指导数学家高度专业的直觉,可让AI和数学家的合作产生既有趣又深刻的结果。
 
 



6. 科学学相关读书会



 
6.1 科学学——用科学的工具研究科学 | 计算社会科学读书会圆桌论坛
 
2022年,计算社会科学读书会开启了一次新的主题的圆桌讨论,邀请了苗丽莉、步一、贾韬、孙烨、曾安五位嘉宾,分享各自在科学学领域的最新研究成果。
 
6.2 高阶网络与科学学应用
 
本期读书会聚焦于高阶网络与科学学应用,围绕两个主题展开:高阶网络在科学合作结构中的应用,科学与技术知识网络高阶结构的涌现。
 



结语



 
科学研究代表了人类对未知边疆无止境的探索,过程中理应展现人性中最崇高、最值得称颂的一面,例如勇气、团结与包容。然而,科学界并非空中楼阁,而且最新研究表明,科学可能正变得日益僵化(参考推文《PNAS:数以亿计的论文,正在成为科学创新的阻力》 与《分析了2500万篇论文后,发现科学正在变得越来越保守》),科学学让科研人员、公众、科研资助者认识到这一趋势在各个层面的显现,并给出政策性改变激励(提倡多样化/扁平化团队)及方法学(引入AI、高阶网络、评价论文影响力的颠覆性指标等工具),试图让科学回归其初心。
 

复杂系统视角下的科学学读书会


科学是研究实践、是理性精神,也是一个由学者、文献、科研项目、科学思想与灵感等一起构成的自组织、自生长的复杂系统。科学学则是一门学科,旨在深入理解科学研究的种种因素并推动科学发展。认知层面上,从复杂系统的视角研究科学,能否给我们带来对科学更深刻的理解?个人科研实践中,什么样的论文高引?怎样规划科研路线?哪些课题大有可为?

集智俱乐部组织了6期「复杂系统视角下的科学学」读书会,讨论科学学相关的科研进展和经典文献,形成了包括数十位相关领域的研究者和硕博在内的科学学社区。欢迎感兴趣的朋友报名加入交流讨论。



详情请见:
复杂系统视角下的科学学——系列线上读书会开放招募



推荐阅读



点击“阅读原文”,报名读书会

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存