如何用 R 快速了解科研领域?
用好 R 环境下的 BiblioShiny 软件包 ,可以让你在友好的图形化界面,快速扫描科研领域。
(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)
场景
作为一个初学者,你可能很希望快速了解一个新的科研领域。
诚然,影响因子和排名等指标,可以告诉你这个领域里哪个期刊比较好。但是,作为研究者,你如果只了解到这一层次,还是过于粗浅。
我自己的好奇心,往往会指向某个研究领域的3个问题:
哪些作者比较厉害?
哪些文献比较重要?
哪些主题更值得研究?
这几个问题,你可以采用不同的文献计量工具来解答。有的很容易完成,有的大概需要一些基础知识和技能。
我最近关注到了一款工具,可以非常便捷地帮你一站式解答上述三个问题。
工具
这款工具的名称,叫做 BiblioShiny 。它是一款 R 环境下的软件包。
其实它的底层,你可能听说过,就是大名鼎鼎的 Bibliometrix 。
我是去年听同事宋丽萍教授提到它后,开始关注的。很快尝试后,觉得 Bibliometrix 这款基于 R 软件包功能果然很强大。不过,那时觉得 Bibliometrix 的用户界面还不够友好。
Bibliometrix 的各项操作,都需要程序指令完成。虽然对于文科生来说,门槛并不算太高。但是光看命令手册,可能还是会令不少人丧失尝试的冲动。
最近我突然发现, Bibliometrix 的作者们在原先功能的基础上,添加了 Shiny 作为交互可视化用户界面,于是软件易用性大幅提升。
你只需要动动鼠标,就可以轻松完成许多文献计量分析功能。
例如点一下菜单里面的“Collaboration Network”按钮,BiblioShiny 就立刻为你绘制作者合作网络图。
统计文章年均被引趋势?也是点一下按钮的事儿:
软件安装方法很简单。
首先下载最新版的 R 和 Rstudio。安装的详细步骤流程,请你参考我的《如何用Python和R对故事情节做情绪分析?》一文介绍。
安装好后,在 Rstudio 中执行以下3行命令:
install.packages(“bibliometrix”, dependencies=TRUE)
library(bibliometrix)
biblioshiny()
当你看到浏览器弹出如下窗口,就说明软件环境已经齐备了。
有了工具,下面我们就需要数据了。
数据
我是做信息科学的。出于近便原则,本文的样例分析对象,是信息科学领域的一份权威期刊:Management Information Systems Quarterly (下文简称 MIS Quarterly)。
注意你在分析的时候,并不需要局限在某一本或者几本期刊。完全可以使用关键词搜索相关文献。
MIS Quarterly 的文献数据,我是从 Web of Science 下载的。
我对结果进行了精炼,只选择了其中的 Articles 类型。
一共 743 篇文章,导出选择的格式,为 BibTex 。
因为 Web of Science 每次导出记录数量,不能超过500,因此前后下载了2个 BibTex 格式文件。
我把它们打包成了一个 zip 文件(Archive.zip
)。这个文件,我为你放在了这个位置(http://t.cn/EPIs99X)。你可以直接下载使用。
如果你希望自己从 Web of Science 下载文献记录,可以参考我的研究生吴查科和同学合作的这份视频教程(http://t.cn/EPIsjtk)。教程是关于 VosViewer 的。但其中4分钟以后,就有 Web of Science 文献记录检索和导出的完整介绍与展示。
在 Biblioshiny 中,选择 Load ,把 file format 设定为 bibtex,选择压缩文件,即Archive.zip
,开始上传。
导入完毕后,展示结果列表如下:
软件有了,数据也有了。
下面我给你展示一下,如何解答前面提到的那3个问题,以快速熟悉科研领域。
作者
第一个问题是:
哪些作者比较厉害?
我们先来看看发文数量。能在 MIS Quarterly 这样的顶刊(而且还是季刊)发文,是有相当高的门槛的。因此这里的发文数量能够反映作者的科研能力。
点击进入 Descriptive Analysis 标签页面。
选择 Tables 。
左侧 Result 类型,可以在下拉列表选择。我们选择“Most Productive Authors”(最高产作者)。
分析结果如下:
(插一句,我发现自己的 Facebook 好友也出现在榜单里,立刻有了一种没来由的自豪感。)
排名首位的这位老兄,让我看得肃然起敬——他居然发表了 23 篇 MIS Quarterly !我没看错吧?好像全部文献记录条数也只有700多篇。
怀着好奇心,我在 Google 搜索了一下。
Viswanath Venkatesh is a distinguished professor and Billingsley Chair in Information Systems at the Walton College of Business, University of Arkansas.
Venkatesh 是阿肯色大学教授。我在他的主页,查了一下发表记录,再次震惊了!
他哪里是在投稿?分明是灌水的节奏!
作为季刊,2013年,全部4期上面各有一篇他的文章!
但是,科研论文的数量固然重要,质量也是要保证的嘛。
这种频率发文,质量能保证吗?
带着这个疑问,我们来考察一下第二个问题。
文献
还记得吗?我们的第二个问题就是:
哪些文献比较重要?
这个问题,其实不是那么容易解答。
下载次数多的论文,是不是很重要?
在社交媒体上流传最广的论文,是不是很重要?
目前,学界基本能够达成共识的判断标准,还是看论文被引用的情况。
Biblioshiny 可以轻易帮助我们分析论文的 Historiograph ,以便让我们了解哪些论文在学科发展历史上,具有重要的地位。
方法是选择“Intellectual Structure”菜单之下的“Historiograph”。
用默认的参数,我们可以看到数据集中这20篇文献,重要性较高。
点击 Table 标签页,我们看看列表展示的具体信息。
注意这里展示了2项统计指标,一个是 GCS
,也就是 Web of Science 中,文献被引统计总数;另一项是 LCS
,即当前数据集里,文献被引次数。
假设一篇文献 GCS
很高,但是 LCS
不高,很可能意味着在其他领域影响力更大。不过因为我们只找了一份期刊,因此这个因素不宜过度解读。
我们注意到,其中有一篇文献,两项指标都是惊人的。
这篇大作, LCS
为44(注意是被 MIS Quarterly 的其他文章引用),GCS
居然达到了6634。
这篇文献,简直就是一览众山小啊!
想必你也很关心——谁写的?
往左侧的名称信息里一瞥,我们随即看到了非常熟悉的名字。
没错,还是 Venkatesh 教授!
看来,这种频率发文,质量也依然是有保障的。
这……是不是叫做天才?
主题
锁定了领域的高水平作者和重要文献后,我们来尝试回答的第三个问题是:
哪些主题更值得研究?
首先我们得搞清楚主题都有哪些。
我们选择做个词云(Word Cloud),这可以通过点击描述分析(Descriptive Analysis)来完成。
默认绘图结果如下:
注意这里的词汇,来自于 Keywords-Plus(即系统利用标题、摘要等分析结果)。
我们更换一下左侧的 Field 选项,变成 Author Keywords (即作者自己列出的关键词):
确实,分析结果有了差别。
我们还可以继续尝试,只从标题文字做词云:
对比上面几张图,你有什么发现?
我反正是看得眼花缭乱。
不过没关系,我们可以让 Biblioshiny 帮我们把主题归类一下。
点击 Conceptual Structure 菜单,选择其中的“Correspondence Analysis”。
我们关注其中的词汇地图(word map):
看到这里,你大概可以把 MIS Quarterly 的研究关注点聚焦在三个类别上。并且可以知道每个类别是如何被关键词描述的。
但是,即便你知道了这些大致的研究主题分类,也依然难以抉择,自己今后的研究方向,应该向哪里聚焦。
因为,这只代表了历史和现状。你不能看着后视镜开车。
这时候,你可以使用 Biblioshiny 辅助决策。方法是点击“主题地图”(Thematic Map)选项。
主题地图中,横轴代表中心度,纵轴代表密度。据此绘制出4个象限。
第一象限(右上角):motor-themes,既重要,又已有良好发展(well-developed);
第二象限(左上角):very specialized/niche themes,已有良好发展,但是对于当前领域不重要;
第三象限(左下角):emerging or disappearing themes,边缘主题,也没有好的发展,可能刚刚涌现,也许即将消失;
第四象限(右下角):basic themes,对领域很重要,但是未获得良好发展。一般是指基础概念。
有了这些背景知识,再回看这张图,就很有意思了。
请你思考一下,哪些主题更值得你投入资源和时间去深度参与呢?
小结
本文我们利用了 R 环境下的 BiblioShiny 软件包,点击几下鼠标,探索了以下3个问题:
哪些作者比较厉害?
哪些文献比较重要?
哪些主题更值得研究?
当然,你会发现其实我们使用的,只是默认参数。针对你研究领域的特征,以及文献数量的多寡,参数的设置其实都是可以调整优化的。
而且你还会注意到,我们所展示的,只是 Biblioshiny 众多实用分析功能里的一小部分。
希望本文给了你一个可以起步的最小行动范例。在此基础上,如果感兴趣,你可以继续学习和充分挖掘 BiblioShiny 与 Bibliometrix 的功能,帮助自己更高效便捷地熟悉某一新科研领域。
延伸阅读
有了兴趣,该如何继续学习呢?
首先,推荐给你这份 Bibliometrix 的官方图文教程(http://t.cn/EPM7jKF)。
如果你喜欢看教学视频,可以点击这个链接查看。
喜欢请点赞和打赏。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。
我这里还有一本免费在线书,讲解了科研新手入门的一些默会知识,其中也包括了不少文献分析的内容。如果你感兴趣,不妨点击链接(http://t.cn/EPMzLjW)阅读。
哦,差点忘了提示,答疑社区在这里: