查看原文
其他

摘要写成啥样,被引次数多?| 嘉因生物发表文章的影响力超过70%的研究论文

2017-10-27 小丸子和小丫 嘉因生物

素素跟小丸子分享了一篇有趣的blog

https://huangchv.github.io/pubmed/


用文本挖掘的方法研究哪些因素影响了引用

 

咱做研究的都知道,文章的citation很重要啊!具体怎么重要我就不说了,不过我突然想起来一个事情要说一下,就是当时别人跟我说MACS的时候,没有说发在那个杂志上,而是说被引用了2000多次(现在可能不止了)。那能不能根据自己现在写的这个abstract预测下自己会不会被很多人引用呢?


小丸子选取部分段落翻译、整理如下:


有没有什么关键词能让我立即:


  1. citation暴增

  2. 同学羡慕的小眼神

  3. 隔壁实验室漂亮/帅气学弟学妹们的注意~

  4. 诺贝尔奖?


那咱们看看第一个问题吧,因为其他三个问题可能帮不了你太多。

 

闲的那啥的时候挖掘了一下pubmed,分析了一下citation走势,也希望能有理有据,令人信服!

 

总共从pubmed上拽了30000篇文章,但70个没有摘要(人生何处没有坑)。Anyway,那就就处理了剩下的29930个摘要吧。首先想看的是,这些文章都有没有被引用,以及被引用了多少次。

 


图1告诉了我们99%的文章引用次数都不超过30,而且,接近1/3的文章都完全没有人引用过。(这是一个悲伤的故事。。。)

 


跟杂志有没有什么关系呢?


取了这29970套数据(个abstract)杂志出现次数最多的前十位,比如排名第一的plosone占了3%的dataset,就是说有大概900个abstract都是从plosone上面摘下来的(当然他们不是故意这么干的,有兴趣可以看原文链接的方法,都是随机取的),绝对的outlier级别的受欢迎呀,瞅瞅别的杂志都不到1%。再看看排名第三受欢迎的PNAS,看起来还不错citation偏右分布。



高影响因子的杂志如CNS系列——文章少,但是citation的中值高,右偏度大。


可见,要想citation高还是得发高分杂志,或者是不是abstract符合了citation高的要求,咱就离发高分文章更近一步了?(这不是废话吗)


 

跟咱们什么时候投稿有关系吗?

 

虽然很明显的7、8、9月是旺季,但是citation看起来好像并没有显著差异。这30000个abstract里面,48.2%的数据都有submission的日期,注意这里统计到的submission都是被杂志接收并发表的,言下之意,有可能1月、12月submission的文章也很多(几个高质量的杂志这两个月没有人交稿子,figuresnot shown),但是最后被拒了,当然也有可能这个时候大家都在度假,无心科研,懒于提交。


 


哪些特征跟citation相关呢?


经过一系列计算之后(我比原作者还要懒,所以这里就不赘述了,我知道大家可能现在也不怎么想知道它是怎么得出来的,有兴趣可以点原文链接),看图,所以啥也别说了,还是发个高分杂志吧(谁不想啊……捂脸表情)。然后排名第二的是哪年发的,这个,好吧,我也不知道该说点什么。



Abstract里哪些keywords跟citation有关呢?


gene, analysi-, require-, key, provid-, specif-, character-, protein, evid- (likeevidence), avail-。另外还有两个情感词:Anger, anticipation


这张图告诉我们,跟cancer相关的paper将很可能获得更高的citation,那怎么解释risk和time呢?猜测可能是疾病的risk stratification(例如癌症风险分级),time to death or relapse,因为癌症数据里经常会分析到这个。

 

不知道大家看完有没有一种受到欺骗的感觉,好吧,我是标题党~~




说到citation哪个评价指标更好


SCI总是被吐槽,高大上的NIH用啥评价文章


NIH开发了个iCite,用相对引用率RCR值评价文章的影响力。详情查看:NIH的这个新指标,会取代影响因子在科研评估中的地位吗?——Nature自然科研



赶紧算算嘉因生物发表的paper影响力如何。点击左下角”阅读原文“直达文章列表。PMID如下:

  1. 25164756

  2. 27117758

  3. 24937458

  4. 28960380

  5. 23728290

  6. 22645320

  7. 28461508

  8. 23925045

  9. 23632162

  10. 20435677

  11. 22495509

  12. 23355544

  13. 28659920

  14. 28492552

  15. 24064417

  16. 23508969

  17. 24852203

  18. 20955618

  19. 19445698

  20. 23554930


iCite分析结果



嘉因生物RCR最高 = 42.19,平均值 = 4.96

看中值最公平,RCR中值 = 1.11,是啥水平?


如果RCR > 1,就超过了50%受NIH资助的paper;

如果RCR > 0.86,就超过了70%已发表的paper



嘉因生物文章影响力中值超过50%受NIH资助的paper,超过70%所有已发表的paper;平均超过90%受NIH资助的paper,超过95%所有已发表的paper。


想发高分文章,想要高Citation?找嘉因生物做ChIP-seq,ATAC-seq吧!   




想用ChIP-seqATAC-seq研究感兴趣的基因?想整合ChIP-seq、ATAC-seq、eCLIP-seq、RNA-seq数据寻找线索?找嘉因生物吧!从实验、测序,到多种数据整合分析,为您一站式解决。(点击文中蓝字了解详情)




关注“嘉因生物”公众号,点击菜单栏的“技术贴49 26866 49 13306 0 0 8074 0 0:00:03 0:00:01 0:00:02 8074>”,浏览转录调控干货。

嘉因生物公众号定位:客户共性问题解答,生信学习资源导航,高通量实验导购 | 为您提供高通量实验-测序-分析-验证一站式解决方案

电话:021-61539657

Email:marketing@rainbow-genome.com
地址:上海市杨浦区赤峰路65号同济科技园1号楼611室

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存