查看原文
其他

scholar包支持检索期刊影响因子

Y叔叔 YuLabSMU 2022-09-20

在《一个要复活的R包和一个404的网站》一文中第一次介绍了scholar包,它可以应用于《自动抓取论文的引用数据》,虽然数据源来自于Google Scholar,国内用户可能访问不了,但今天要介绍的这个功能,所有人都是可以用的,它允许我们检索期刊的影响因子,如下图所示:

library(scholar)
jn = c("bioinformatics", "methods in ecology and evolution",
   "molecular biosystems", "molecular biology and evolution")
get_impactfactor(jn)

正如我在《自动抓取论文的引用数据》一文中所说的,我的简历中的引用数据是自动抓取并生成的,事实上我简历中相应期刊的影响因子也是自动加上去的。脚本化好处多多,比如你一条指令可以把一个人所有的publications给抓下来,那么现在你可以一条指令把所有期刊的影响因子给列出来,一个人发表的论文总影响因子、篇均影响因子等指标,不就是个求sum和mean的指令而已么!

以我自己的google scholar profile为例,总IF是水浒传108将,而平均值是4.5,5分以下

再来一点实战,抓取我的profile,选取我要的信息,再追加期刊的影响因子,过滤出我做为第一作者的文章:

> require(scholar)
> require(dpylr)
> x = get_publications("DO5oG40AAAAJ")
> y = x %>% select(year, author, journal, title) %>%
+ mutate(impactFactor = get_impactfactor(journal)$ImpactFactor) %>%
+ filter(grepl("^G Yu", author)) %>% group_by(year)
> y
# A tibble: 12 x 5
# Groups:   year [7]
   year author             journal      title                     impactFactor
  <dbl> <fct>              <fct>        <fct>                            <dbl>
1  2012 G Yu, LG Wang, Y … Omics: a jo… clusterProfiler: an R pa…         2.72
2  2010 G Yu, F Li, Y Qin… Bioinformat… GOSemSim: an R package f…         7.31
3  2015 G Yu, LG Wang, QY… Bioinformat… ChIPseeker: an R/Biocond…         7.31
4  2017 G Yu, DK Smith, H… Methods in … ggtree: an R package for…         5.71
5  2015 G Yu, LG Wang, GR… Bioinformat… DOSE: an R/Bioconductor …         7.31
6  2016 G Yu, QY He        Molecular B… ReactomePA: an R/Biocond…         2.78
7  2011 G Yu, CL Xiao, X … Journal of … A new method for measuri…        NA  
8  2011 G Yu, QY He        Journal of … Functional similarity an…        NA  
9  2011 G Yu, CL Xiao, CH… Molecular B… Phosphoproteome profile …         2.78
10  2012 G Yu, LG Wang, XH… BMC researc… LXtoo: an integrated liv…        NA  
11  2018 G Yu               Bioinformat… Using meshes for MeSH te…         7.31
12  2018 G Yu               bioRxiv      clusterProfiler: univers…        NA  

那么我就可以轻松地计算出我每一年发表的第一作者的文章的总影响因子数和平均影响因子数,2015年发了两篇Bioinformatics(其实有一篇应该是2014 的,但因为审稿和排队等发表拖慢了),其他时间都是一年一篇文章,所以总数和平均数都一样,2013和2014没有发文章,其实2013有两篇共同第一,但因为排名第二,在我的过滤中被滤掉了。

> y %>% summarize(total_IF = sum(impactFactor, na.rm=T),
+ mean_IF = mean(impactFactor, na.rm=T))
# A tibble: 7 x 3
  year total_IF mean_IF
 <dbl>    <dbl>   <dbl>
1  2010     7.31    7.31
2  2011     2.78    2.78
3  2012     2.72    2.72
4  2015    14.6     7.31
5  2016     2.78    2.78
6  2017     5.71    5.71
7  2018     7.31    7.31
  +---------+------------+-------------+------------+---------+
  |                                    *                      |
13 +                                    *                      +
  |                                    *                      |
  |                                    *                      |
9 +                                    *                      +
  |                                    *                      |
  |  *                                 *                   *  |
  |  *                                 *            *      *  |
4.5+  *                                 *            *      *  +
  |  *      *     *                    *      *     *      *  |
  |  *      *     *                    *      *     *      *  |
0 +  *      *     *      *      *      *      *     *      *  +
  +--+------+-----+------+------+------+------+-----+------+--+
   2010   2011  2012   2013   2014   2015   2016  2017   2018

给大家推荐一个港大几位公卫博士开的公众号,专业普及公卫知识:

以及科学嘎嘎会,定期邀请学者做学术报告的公益组织,我也在嘎嘎会上做过讲座,录播请戳webinar录播 (2017-10-24):plotting tree + data



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存