R语言快速实现文献计量分析
写在前面
作为科研狗的我们,每到选题时便会一筹莫展,所以,此时此刻的我们就急需一个能快速了解新的科研领域的工具。文献计量就是一个很好的工具,那什么是文献计量呢,话不多说,直接上文献。我们以一篇Catena上的文章为例,讲一讲文献计量能让我们得到什么有效信息。最近时间紧张就不排版了,关注公众号“生态R学社”回复“文献计量”即可快速下载本文示例数据,至于为什么说是快速,各位大佬按着教程做就知道了~
Catena
这篇文章主要研究了1991年至2018年黄土高原的研究趋势演变和其重点研究内容。
第一步,在web of science上以黄土高原为关键词进行检索,共检索到6026篇相关文献,再限制条件分别检索国人发表的文章和国外友人发表的文章,分别为5580篇和446篇。
第二步,现在就进入正式分析阶段了,通过搜集到的文献分别统计了1991年至2018年每年的关于黄土高原的发文量、每年本地引用分数,然后对发文量添加了一条回归线,看来增长趋势很明显。
第三步,统计了每年研究黄土高原的相关文献中中国学者贡献了多少,从图中可以明显看出中国学者的表现越来越好。
第四步,统计了引用次数超过80篇的高被引文献,作为这个领域的科研小白,这些文章必须读一读。
第五步,统计了黄土高原各主要研究领域发文的变化趋势,也可以一定程度上反映研究热点的变化,
第六步,和上一步相辅相成,这儿统计了出现频次较高的关键词,就具体到了准确的研究点。
第七步,将各关键词的时间演化可视化,就能清晰的看出研究热点的变化。
第八步,统计一下哪些期刊收录黄土高原领域的研究较多,可以为自己以后投稿明确方向。
第九步,看看主要期刊每年收录相关研究内容的变化。
第十步,看看哪些机构进行的相关研究较多。
第十一步,当然,研究数量较多,但是研究质量如何呢,我们再看看哪些机构的文章被引用的最多。
第十二步,看完了哪个机构高产,再看看哪些作者比较厉害,看看排名前十的作者的产出和被引频次。
第十三步,再看看排名前七的机构发文时最常用的关键词。
至此,文献计量的流程基本就完成了,是不是觉得TOP离我们很近了呢~接下来我们看看文献计量怎样在R中快速实现吧。
R实现文献计量
我们需要借助的工具是R的shiny,叫做BiblioShiny,它的底层其实就是Bibliometrix,也就是这篇文献中用到的R包。
我们通过以下方式调用这个shiny程序:
install.packages(“bibliometrix”, dependencies=TRUE)
library(bibliometrix)
biblioshiny()
调用完毕后,我们的默认浏览器就会弹出工作界面,工具准备齐全,现在就开始准备原始数据吧。
数据的收集
小编是搞草地生态的,就近原则,就以ecology letters这个生态学领域的顶刊为例,这是为了方便快捷演示,实际检索过程中可以以关键词为核心进行检索,然后我们打开web of science开始检索。
我们只检索文章,检索时间跨度为1985年-2020年,共计检索到了2713篇文献。我们选择导出文献,文献导出类型为BibTex,由于web of science每次只支持导出500篇文献,所以我们需要分5次导出所有检索到的文献,我将导出的文献放入了同一个文件夹并压缩。
在 Biblioshiny 中开始操作
我们选择data选项卡,开始上传原始数据,按照下图中的内容选择并导入原始数据,导入成功后界面如下图所示,现在软件数据都准备好了,我们就直接进入正文吧。
我们先来看看发文数量。能在 ecology letters 这样的顶刊发文,是有相当高的门槛的。因此这里的发文数量、以及被引状况能够反映作者的科研能力,如下图所示,这就是排名前20的作者被引状况。
我们再顺便看看这些作者在检索时间跨度内的发文状况
哪些文献比较重要
这个问题,其实不是那么容易解答。
下载次数多的论文,是不是很重要?
在社交媒体上流传最广的论文,是不是很重要?
目前,学界基本能够达成共识的判断标准,还是看论文被引用的情况。
Biblioshiny 可以轻易帮助我们分析论文的 Historiograph ,以便让我们了解哪些论文在学科发展历史上,具有重要的地位。
用默认的参数,我们可以看到数据集中这20篇文献,重要性较高,点击table就可以看见具体信息。
注意这里展示了2项统计指标,一个是 GCS ,也就是 Web of Science 中,文献被引统计总数;另一项是 LCS ,即当前数据集里,文献被引次数。
假设一篇文献 GCS 很高,但是 LCS 不高,很可能意味着在其他领域影响力更大。不过因为我们只找了一份期刊,因此这个因素不宜过度解读。
哪些主题更值得研究
首先我们得搞清楚主题都有哪些。我们选择做个词云图(Word Cloud),点击document里的worldcloud即可。
注意这里的词汇,来自于 Keywords-Plus(即系统利用标题、摘要等分析结果)。我们更换一下左侧的 Field 选项,变成 Author Keywords (即作者自己列出的关键词)
确实,分析结果有了差别。
我们还可以继续尝试,只从标题文字做词云
对比上面几张图,你有什么发现?反正小编是看得眼花缭乱。
不过没关系,我们可以让 Biblioshiny 帮我们把主题归类一下。
点击 Conceptual Structure 菜单,选择其中的“Factorial Analysis”
看到这里,你大概可以把 ecology letters 的研究关注点聚焦在两个类别上。并且可以知道每个类别是如何被关键词描述的。但是,即便你知道了这些大致的研究主题分类,也依然难以抉择,自己今后的研究方向,应该向哪里聚焦。因为,这只代表了历史和现状。你不能看着后视镜开车。这时候,你可以使用 Biblioshiny 辅助决策。方法是点击“主题地图”(Thematic Map)选项。
主题地图中,横轴代表中心度,纵轴代表密度。据此绘制出4个象限。
第一象限(右上角):motor-themes,既重要,又已有良好发展(well-developed);
第二象限(左上角):very specialized/niche themes,已有良好发展,但是对于当前领域不重要;
第三象限(左下角):emerging or disappearing themes,边缘主题,也没有好的发展,可能刚刚涌现,也许即将消失;
第四象限(右下角):basic themes,对领域很重要,但是未获得良好发展。一般是指基础概念。
有了这些背景知识,再回看这张图,就很有意思了。请你思考一下,哪些主题更值得你投入资源和时间去深度参与呢?
其他功能
Shiny操作界面还有很多功能,包括我们介绍的那篇catena中的所有图形,均可以在这里实现,大家慢慢探索吧~