查看原文
其他

「观点」科学论文引用结构与其未来影响力的关系研究

The following article is from 信息资源管理学报 Author 黄圣智 钱佳佳 等

本文转自“信息资源管理学报”微信公众号,原文载于《Journal of the Association for Information Science and Technology》,73(7), 作者为黄圣智 等。


  • 结构功能特征能够明显提升引用数目预测任务的预测精度。

  • 来自于不同结构功能下的引用频次存在明显的重要性差异:在论文引用生命周期的早期阶段,来自于引言和方法下的引用积累对于感知一篇论文未来影响力尤其重要,来自于结果和结论下的引用积累的重要性要次之。然而早期在背景介绍下的引用积累重要性较低。




01

研究背景 / 问题



学术论文的被引用频次是被一项普遍使用的衡量论文科学影响力的指标。先前研究指出引用并非同等重要,论文的参考文献可能由于不同的引用目的被引用。明晰引用间内在差异能够帮助科研人员理解引用行为,洞悉引用动机,深入引用过程,从而为构建公平公正的科学评价体系提供理论与实践建议。

随着学术论文开源化兴起,论文全文本数据的易获取为基于引用内容的新一代引用分析提供了契机。在本研究中,我们将一篇论文来自不同结构功能下的引用数目分布定义为该篇论文的引用结构(Citation structure)。我们试图分析一篇论文的早期引用结构与其未来科学影响力间的关系。如下图1所示,我们使用一个真实案例来阐明论文引用结构的定义和研究问题。论文α和论文β在出版后五年获得相同的累计被引用频次(15次),然而两者的引用结构却截然不同。其中,α主要在方法结构功能内被引用,而β主要在背景介绍结构功能内被引用。尽管两篇论文在早期有相同的学术影响力,其未来的学术影响力却明显不同。 

在本研究中。我们意在探索论文引用结构与论文未来影响力间的关系。为完成研究目地,我们还提出两种文内引用计数方法和一种论文引用生命周期划分方法。随后,我们采用岭回归模型进行统计分析。我们将在后续小节详细介绍本文使用的研究方法与研究结果。

图1. 样例论文阐明引用结构定义和研究问题



02

研究方法



2.1  文内引用计数方法

Pak等人(2020)[1]提出独立引用和非独立引用的概念,独立引用是指一篇参考文献单独支撑引用句,而非独立引用是指至少两篇参考文献同时支撑引用句。他们提出全引用计数方法(full counting method)和分数引用计数方法(fractional counting method)。在本研究中,我们拓展上述引用计数方法,以使其适用于结构功能下的文内引用计数,其计算公式如下(1)(2)所示。

Cαfull(t)和Cαfrac(t)分别表示α论文在t时刻获得的全引用数目和分数引用数目。Aα(t)表示在时刻引用α的施引论文全体。I表示领域内结构功能全体。niαβ表示β在结构功能i内引用α的次数。wijαβ表示支撑引用句的参考文献数目的倒数。拓展的文内引用计数方法能够在维持总引用频次不变的前提下,分别统计各结构功能下的文内引用数目。


2.2  引用生命周期识别方法

Wang等人 (2013)[2]提出一种普适的论文引用轨迹拟合模型,其数学表达式如下(3)和(4)所示。

其中CαWSB(t)表示论文在时刻的累计引用频次。m表示领域内论文的平均参考文献数目。μα决定α引用生命周期达到巅峰的时间,σα决定α引用生命周期的衰减速率。随后,他们根据CαWSB(t)推广得到α的最终影响力Cα和影响力时刻(t50%)的定义,如下(5)和(6)所示,其中,CαWSB(∞)在t→∞时, Φ→1取得,t50%是达到CαWSB(∞)的几何平均值所需时间。

为识别论文引用生命周期的不同阶段,我们推广表达式(6)得到表达式(7),其中tr%表示一篇文量达到其论文最终影响力的r%所需时间。我们可以通过表达式(8)求得tr%的数值解。如图2所示,我们用两个真实的论文累计引用轨迹阐明我们的引用生命周期划方法。

图2. 样例论文阐明引用生命周期识别方法


2.3  岭回归分析

来自不同结构功能的引用频次可能存在相关性(研究证实在引言章节被引用的参考文献很可能在背景介绍章节被再次引用)。因此,本研究采用岭回归模型分析来自不同结构功能下引用累计频次与论文未来影响力的关系,如表达式(9)和(10)所示,表示论文时刻结构功能i下的累计引用频次,t是关于时间的控制变量,是论文在时刻的总累计引用频次, 为预测值,λ是岭回归参数,N表示样本总数。我们采用上述引用计数方法统计Xiα和yα,采用引用生命周期识别方法确定t1和t2


2.4  数据介绍

本研究收集Association for Computational Linguistics(ACL)网站1965年至2020年间收录的59,133篇论文。我们使用Grobid工具解析PDF格式数据,以获取每篇论文的文内引用句和参考文献。我们采用Lu等人(2018)[3]提出的结构功能识别算法识别领域内结构功能,即Introduction,Background,Method,Result和Conclusion。我们采用黄永等人(2020)[4]提出的高被引论文识别方法分别在上述两种引用计数方法下确定348篇和178篇高被引论文作为实验对象。



03

研究结果与结论



我们使用岭回归模型进行引用数目预测分析,见(9)式。我们在保持因变量不变的前提下,使用作为自变量,进行对照实验。如图3所示,蓝色柱状图表示对照组的,红色柱状图表示具备结构功能信息的实验组的。我们在任意时间划分下发现实验组的明显超过对照组的。更具体地,在论文引用生命周期的早期阶段(%≤40%),细粒度的结构功能下引用计数预测能够明显提升引用数目预测任务的精度。然而,在引用生命周期的晚期阶段,对照组和实验组的差距较小。这可能是由于在引用生命周期的末期,论文的引用历史相对丰富,引用预测任务难度降低。其次论文愈发固定在特定的结构功能被引用,结构功能信息不再提供更丰富的差异信息。我们使用两篇样例论文阐明该观点,如图4所示。我们发现图4中左子图内论文更多在被引言和背景介绍下被引用,而右子图内论文集中在结果内被引用。

图3. 岭回归分析的拟合优度(R2


图4. 两篇样例论文的累计引用轨迹


随后,我们分析回归系数的权重wi(i∈I)。我们发现来自不同结构功能的回归系数存在明显差异,如下图5所示。更具体地,在论文引用生命周期的早期阶段(r1%≤40%),Introduction和Method的系数(w1和w3)要明显超过Background, Result, 和Conclusion的系数 (w2,w4,和w5)。这说明在Introduction和Method的引用积累对于感知被引论文的未来影响力是最为重要的。先前研究证实在引言章节被引用的论文更可能是领域内著名的论文。在方法章节被引用的论文更可能是方法导向的论文,其更容易被应用类型的论文所引用。另外w4和w5均明显超过w2。这表明来自Result和Conclusion的引用积累也极其重要。这可能是由于这类被引论文为施引论文提供了有价值的结果和结论,因此蕴含特定的学术价值。最后,我们发现w2总是最小,这说明来自Background的引用积累的重要性较低。这可能是由于这类论文通常是出于介绍研究背景的目的被引用,其引用过程中存在更多的混淆性和随机性。我们在下表1和表2中详细地列出回归系数权重。此外,我们的研究结果在一系列鲁棒性检验下保持不变(例如,改变时间tr%,改变高被引论文识别方法,改变回归分析模型)。


图5. 岭回归回归系数


Table 5. Coefficients and  in the full counting method


Table 6. Coefficients and  in the fractional counting method


参考文献 

1. Pak, C.M., Wang, W., Yu, G., 2020. An analysis of in-text citations based on fractional counting. Journal of Informetrics 14, 101070.

2. Wang, D., Song, C., Barabási, A.-L., 2013. Quantifying long-term scientific impact. Science 342, 127–132.

3. Lu, W., Huang, Y., Bu, Y., Cheng, Q., 2018. Functional structure identification of scientific documents in computer science. Scientometrics 115, 463–486.

4. Huang, Y., Bu, Y., Ding, Y., Lu, W., 2020. Partitioning highly, medium and lowly cited publications. Journal of Information Science 0165551520917655.


论文出处

Huang, S., Qian, J., Huang Y., Lu, W., Bu, Y., Yang, J., & Cheng, Q. (2022). Disclosing the relationship between citation structure and future impact of a publication. Journal of the Association for Information Science and Technology, 73(7), 1025-1042. https://doi.org/10.1002/asi.24610



往期推荐

观点

何选题

刊界

学术研究中使用率较高的社会科学类期刊(2019-2021)

方圆

五部委通知:给青年科研人员减负

书简

中华优秀传统典籍中的学术智慧

数迹

C刊公号热文——高校学报(一季度)

智汇

全国哲学社会科学工作办公室负责人就《国家“十四五”时期哲学社会科学发展规划》答记者问

撷英

高被引期刊公号热文(5月)

中国人文社会科学综合评价研究院编辑部出品


● 声明

推文基于更好更多传递信息之目的,限于视野和能力,可能会有疏漏及不足之处,请随时指正。若有来源标注错误或侵犯了您的合法权益,请致信zhpj@nju.edu.cn,我们将及时更正、删除!

如需转载,请保持图文完整,并标注版权及本公众号ID、二维码、作者,谢谢!

长按二维码即可关注,第一时间获得我国人文社会科学学术动态与研究资讯。

觉得“好看”请点赞或在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存