从4710万论文大数据，看科学概念如何演化和传播？

Original 赵子铭集智俱乐部 2021-02-09

导语

流行语是社交网络中的模因，而学术概念，是引文网络中模因，在研究者之间传播和演化。然而，人们对模因的构成以及它具体的传播规律仍然知之甚少。

在一篇于2014年11月发表在Physical Review X的经典论文中，研究者基于源于Web of Science、美国物理学会等的数千万引文数据，为模因在引文网络上的传播，建立了一个简洁的数学模型。本文将以这篇论文为背景，为读者介绍模因在科研引文网络上的传播规律，以及研究方法。

何谓科学模因？

科学是现代人类文化的重要支柱，科学产出的评价和科学协作模式的研究越来越受到研究者的关注。从引用分布、合著网络和研究团队的形成，到研究人员的排名以及科学成功的量化和预测，我们如何做科学本身已经成为一门科学。随着近年来大量数字化数据可用性的不断增加，复杂系统理论和建模的飞速发展，科学学的又一个春天正在到来。

模因（meme）源自希腊语，意为“被模仿的东西”，由新达尔文主义者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他认为，诸如单词、旋律、食谱和思想等文化实体与基因一样进化，涉及复制和变异，但使用人类文化而不是基因库作为它们的传播媒介。

当科学碰上模因，我们不禁要问：模因是如何在科研引文网络上传播的？然而，人们对模因的构成以及它具体的传播规律仍然知之甚少。2014年11月在PHYSICAL REVIEW X发表的一篇论文，为模因在科研引文网络上的传播建立了仅含一个参数的数学模型，基于Web of Science、PubMed Central以及美国物理学会（APS）的科研引文数据进行验证，并通过多种方法对模型进行评估。本文将以这篇为背景，为读者介绍模因在科研引文网络上的传播规律。

论文题目：
Inheritance Patterns in Citation Networks Reveal Scientific Memes
论文地址：
https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

1.科研网络视角下的模因

基于道金斯对“基因”一词的定义，文章给出了科学模因的定义。科学模因，是文章中的一个短文本单位，在引用文章中复制，并以许多副本分发。一个特定的单词序列越容易同时出现，且常常存在于引用文章中，就越容易成为科学模因。因此，从引用文章中复制单词或短语的文章类似于从父母那里继承基因的后代有机体。

2.初探模因分布——
科研引文网络的可视化

图1

在进行建模之前，我们首先需要了解科学模因的特点，通过定性分析，把握科学模因分布的定性规律。

如图1（a）所示，基于Web of Science数据集的引文网络包含超过3300万篇文章。各类科学学科形成了相对紧密的群体：物理科学（青色）与网络右上角的工程技术（洋红色）非常接近，但与社会科学和人文科学（绿色）以及占网络左侧的大部分的医学和健康科学（红色）却相差甚远。自然科学和农业科学介于两者之间（蓝色）。

如图1（b）所示，在基于美国物理学会（APS）数据集的引文网络中，不同的颜色标注出Physical Review中的五个最重要的期刊，每个都覆盖物理的一个子领域。可以发现，尽管所采用的网络布局算法并没有明确考虑科学学科和期刊信息，但在引用网络中存在显著的不同期刊的社团结构。

如图1（c）所示，在图1（b）的基础上突出显示了五个模因，可以发现，包含这些模因的文章在在引用网络中形成紧密社团结构。量子模因（quantum）分布较广，但绝不是均匀分布的，遍及几个大团簇。包含裂变模因（fission）的文章形成了几个相互连接的星团，这些星团局限于一个区域，该区域构成了涵盖核物理的《Physical Review C》杂志。同样，石墨烯（graphene）、自组织临界性（self-organized criticality）、交通流（and traffic flow）都集中在各自的中型或小型社区。

3.模因的定量化
描述——模型的建立

模因得分

通过前面的分析，我们已经知道科学模因的分布具有一定的规律，但要想在大量文字数据库中准确的捕获它们，我们就需要知道什么样的词条可以作为模因？

首先，作为模因，该词条一定具备较高的出现频率，只有在多个文章中大量出现，该词条才可能作为一种类似于生物中基因的物质在文章中复制并传播。因此，作者定义了词条出现频率（f_m）来刻画词条的重要性。

那么只要出现频率足够高的词就一定可以称为科学模因吗？答案当然是否定的，几乎每一篇文章（甚至每一段落中）都会出现大量的停用词，如“the”、“of”等，这些词本质上没有明确的含义，但却在语段中大量出现。此外，科学模因的定义更强调文章的“遗传”属性，在科研引文网络中即为文章与其引文的关系。因此，作者基于词条在文章及其引文中是否出现定义了传播得分（p_m）来刻画词条的传播价值。

此外，我们可以发现，由于科学模因的定义并不是十分明确的，那么词条能否被判定为科学模因就需要一个类似于概率的量来描述词条被认为是科学模因的可能性。因此，作者定义了模因得分M_m：

其中，词条出现频率（f_m）是很容易计算得到的，需要注意的仅仅是需要对频率做标准化处理，但如何定义传播得分（p_m）使之能准确刻画词条的传播价值呢？

传播得分

首先，作者发现，模因在文章与引文中出现与否的四种情况，如表1所示：

表1

其次，作者提出黏附因子（Sticking factor）和激发因子（Sparking factor）的概念，分别量化模因的复制比率和生成比率，复制比率越高，则传播价值越大；生成比率越高，则传播价值越低。

进一步，研究者可以发现，由于模型的比率形式，要求分母不等于零，与变量的实际意义矛盾，因此，我们引入参数——受控噪声(delta)，为避免delta取值对于稀有模因产生较大的影响，作者通过大量实验，将delta值在未特殊说明的情况下固定为3。

此外，为避免“free-riding”问题，即存在某些较长的模因被错误识别为多个模因，作者在计算选出较长的模因计数。

模型优势：

作者建立的模型具有以下优势：

1.可以精确计算，而不引入任意阈值及限制，例如：不限制最小出现次数；不限制词条的长度；不需要过滤包含特殊字符的单词；

2.不依赖外部数据库，如词典或其他语言数据；

3.不依赖过滤器，例如：不需要依赖停用词表即可删除最常见的单词和短语；

4.非常简单，只有一个参数（delta）。

4.实证分析

前文建立的模型，在理论分析中虽然具有诸多优势，但能否真正准确快速的捕获科学模因还需要进行实验验证。因此，本文作者通过随机化、人工实验及多模型比较三种方法进行验证分析。

图随机化方法

图2（LOG-LOG图）

计算所考虑的三个数据集中所有词条的模因得分，得到了如图2所示的结果。它们的相对频率和传播分数以对数尺度的热图形式进行绘制。其中图2（a）是基于APS文章的题目和摘要数据，模因得分非零的词条数为1372365；图2（b）是基于经过保留时间顺序的随机化操作的APS文章的题目和摘要数据，模因得分非零的词条数为89356；图2（c）是基于PubMed Central文章的题目和摘要数据，模因得分非零的词条数为1322013；图2（d）是基于Web of Science文章的题目数据，模因得分非零的词条数为7966731。四幅图中，均有一条白线代表模因分数的99.9%分位数（M_0.999）。

在图2（a）、2（c）和2（d）中，分析可知：

1.图形具有一个向下倾斜的宽频带，表明更频繁的模因通过引用网络传播的较少。

2.在每个图形的下半部分，我们看到一个非常高密度的楔形，沿着左下边缘的较大条带，但向中间逐渐变窄到消失。尽管这一楔形对于Web of Science数据库来说有一个更为圆润和宽广的形状，但总体而言，这些图形在所有数据集上都非常相似。这是科学模因分布模式普遍性的一个标志。

3.考虑到词条数目的范围超过5个数量级以上，99.9%分位数线（M_0.999）也非常稳定。

4.将前面提到的物理模因定位在APS数据集图2（a）中，研究者发现它们位于带右上方的非常边缘，其中词条的密度非常低。（一些停用词如“of”或“the”出现在图的顶部的微弱尖峰中，其中，频率接近100%）

图2（b）中的数据，经过了保留时间顺序的随机化操作，与原始网络具有完全相同的拓扑结构，但是文章文本（即标题和摘要及其模因）被随机分配给不同节点。对于保留时间顺序的随机化，我们只对在很短的连续时间窗口内发布的文章进行无序处理。例如：使用了1000篇文章的时间窗口，意味着随机化后没有任何一篇文章从最初的时间顺序向前或向后移动了超过1000个位置。因此，图2（b）中的热图说明了APS引文图随机化后的情况，但文章的时间顺序保存了信息。模因得分非零的词条数量急剧减少（从图2（a）中的约140万减少到图2（b）中的仅89356），科学模因的普遍分布模式消失，排名靠前的模因所在的右上角部分消失。当然，如果APS引用网络是完全随机的，且不保留时间顺序，那么与图2（a）中显示的原始结果的差别会更大。

统计分析表明，随机网络获得的模因得分中位数与原始引文图的中位数相差超过1个数量级，不同随机化数据的差异非常小。这些结果表明，仅拓扑结构和时间结构无法解释分布模式的普遍性。因此，模因得到高模因得分基于复杂的过程和机制。

人工实验

表2

表2所展示的是APS数据集中模因得分排名前50位的模因，可以发现，这些模因中的大多数是表示真实合理物理概念的名词短语，这与文章中的关键词往往是名词有关。模型建立的过程中并不包含任何理论知识，且模型存在由两个或三个词组成模因，因此，该模型具有相当不错的识别效果。

表3

如表3所示，研究者给出了由模因得分确定的词条的两次人工实验的结果。

首先，作者从APS数据集中提取出模因得分最高的150个模因词条，构成样本1。其次，作者从至少在100篇文章中出现的所有词条中完全随机抽取150个词条，构成样本2。最后，作者出现频率做权重从至少在100篇文章中出现的所有词条中随机抽取150个词条，构成样本3。此外，为了排除不同词条长度的影响，我们确保两批随机抽取的样本的长度分布与基于模因提取的主样本完全相同。三个样本的450个词条打入按顺序后让两个物理学博士生分别识别这些词条，两次实验的选项分别为：

实验1：（i）短语不是一个有意义的词条或不是一个重要的物理概念；（ii）短语是一个重要的物理概念或实体——它可以作为一个综合百科全书条目的标题出现。

实验2：（i）名词短语，（ii）动词，（iii）形容词或副词，（iv）其他。

实验结果表明，在样本1中，实验1中86%左右的模因得分项是重要的物理概念，且两个人在81.3%的情况下达成一致性判断。实验2中86.0%的模因得分项是名词短语，且两个人在82.7%的情况下达成一致性判断。而对于随机样本，其类别判断和判断的一致性都很低。对于两个博士生的一致性分类结果进行Fisher精确检验,p < 10^(-15)，实验结果非常显著，证明了模因得分对名词短语和重要概念具有显著的偏好性。

多模型比较

图3

为了证明模因得分模型的有效性，作者引入了五个模因得分的替代指标：

（1）频率——最频繁项，可以选择跳过前x个词条；

（2）随时间的最大绝对变化——最高得分项。尤其是频率的最大绝对变化；

（3）随时间的最大相对变化——与（2）相同，但基于相对变化；

（4）期刊之间的最大绝对差异——期刊之间频率最大绝对差异的最高得分项；

（5）期刊之间的最大相对差异——与（4）相同，但基于相对差异。

度量（1）是基于重要的模因是相对高频出现的假设（非停用词）。

度量（2）和（3）基于有价值的模因随着时间的推移呈现出趋势的假设。

度量（4）和（5）基于作者的直觉提出的，即短语主要出现在特定的期刊上，而不是其他期刊上，必须是特定研究领域的特定概念。

如图3所示，在右上角的小图中，纵坐标为词条在维基百科（真值列表）中的比例，横坐标是模因得分最高的模因数，是对数坐标。结果显示，模因得分最高的前10个模因中，约70%对应于从维基百科中提取的词条，前20个模因中的约55%、前50个模因中的约40%和前100个模因中的约26%。

此外，为了量化由特定指标delta确定的顶级模因与维基百科列表之间的一致性，研究者使用曲线下的标准化区域的面积大小A（Agreement），面积越大，则一致性越高。在右上角的小图中，不同的蓝色折线，代表不同的受控噪声值delta。（delta取值在1到10之间；蓝色粗线代表delta=4，其面积A最大）

在图3的箱线图中，比较了不同模型下关于A的大小。对于模因分数指标来说，存在当delta=1时，32.3%的孤立异常值。当delta取值在2到10之间时，A的值在40.9%到44.8%之间，敏感性较低。而其他指标的得分始终低于22%（包括离群值），相差较大，说明模因分数指标的有效性。

5.低频高传现象

图4

词条图4（a）证实了在模因得分数较高（即大约99.9%的分位数M_0.999）的地区（右上角）的词条往往显示为维基百科物理文章的标题。此外，该图显示这是唯一的此类区域。有一些分散的离群值，但只有在99.9%的分位数附近发现了维基百科词条密度高的唯一重要区域。

但在图4（b）中，含有化学式的词条（如BaFe2As2）的频率相对较低（个别），但传播分数较高，正如表2中的MgB2+和CuGeO3+所示的那样。在99.9%的分位数上可以再次找到密度最高的区域，这与化学化合物作为物理研究的重要和有价值的实体的预期一致。

6.顶级模因的时间演化

图5

图5基于APS数据集获得的模因得分的顶级物理模因的时间历史。时间轴按发布计数缩放。在显示的911个时间点中，所有排名前十的模因都会显示条形图和标签。灰色区域表示给定时间的第二级模因。

研究发现，顶级科学模因揭示了一种剧烈的时间动态，这反映了模因对科学家关注的有限和波动资源的激烈竞争。随着时间推移的顶级模因的时间分布可以用突发性动力学来解释。这些爆发可能是许多科学模因受欢迎程度的快速上升和下降的反映。随着新的科学范式的出现，旧的范式似乎很快就失去了吸引力，而且只有少数模因在很长一段时间内成功地登上了榜首。这种激烈的动态也支持这样一种观点，即科学范式的兴衰都是由强大的自我组织原则驱动的。

7. 抽象化的科学模因

抽象化的科学模因类似于子女遗传父母的习惯、性格、思想等潜在特征。文章作者只考虑固定字符序列作为潜在的模因，但很明显，模因不仅存在于这一较低的层次上，如果使用一些人类已有的数据库，并通过有监督学习或强化学习的方式，研究者可以在更抽象的层次上捕捉科学模因。这种抽象化的模因可能由一组形态变体、词的共同出现、多个模因的组合、语法结构，甚至是论证方案和修辞风格组成。

作者：赵子鸣、刘培源编辑：张爽

推荐阅读

科学玩“梗”：模因（meme）如何在社交网络中传播？

跨越学科界限：信息论视角下的生命起源与进化

Paper 已经过时——计算机时代科学传播方式的变革

加入集智，一起复杂！

集智俱乐部QQ群｜877391004

商务合作及投稿转载｜swarma@swarma.org

◆ ◆ ◆

搜索公众号：集智俱乐部

加入“没有围墙的研究所”

让苹果砸得更猛烈些吧！

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

女性最佳“绝经期”，不是45岁，而是这个数，越接近越健康！

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

从4710万论文大数据，看科学概念如何演化和传播？

1.科研网络视角下的模因

2.初探模因分布——
科研引文网络的可视化

3.模因的定量化
描述——模型的建立

4.实证分析

5.低频高传现象

6.顶级模因的时间演化

7. 抽象化的科学模因

◆ ◆ ◆

您可能也对以下帖子感兴趣

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

女性最佳“绝经期”，不是45岁，而是这个数，越接近越健康！

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

生成图片，分享到微信朋友圈

从4710万论文大数据，看科学概念如何演化和传播？

1.科研网络视角下的模因

2.初探模因分布——科研引文网络的可视化

3.模因的定量化描述——模型的建立

4.实证分析

5.低频高传现象

6.顶级模因的时间演化

7. 抽象化的科学模因

◆ ◆ ◆

您可能也对以下帖子感兴趣

2.初探模因分布——
科研引文网络的可视化

3.模因的定量化
描述——模型的建立