查看原文
其他

文献管理软件的“PK”之旅 —— PDF信息提取

2016-11-10 CCL 研之成理

“ 文献管理软件这么多,我究竟该用哪一个?”

这是每个科研工作者都会碰到的问题。据不完全统计,目前文献管理类软件至少有几十种。其中,主流的有以下几款:Endnote、Mendeley、Zotero、Papers等。初看来,这几款软件的功能都差不多,难分伯仲。在各大学术论坛和网络媒体上有些比较,但是大多不够系统、或者个人偏好明显。为了方便各位选择,小编将从各个方面出发,比较这些软件。根据这些比较,各位可以根据要求选择适合的文献管理软件。

目前,文献多以PDF格式保存和传播。所以文献管理软件对PDF的识别和信息提取能力必须足够强。目前,Endnote、Mendeley、Zotero、Papers都具有PDF信息提取能力。本期内容,小编以不同出版时间的英文文献、中文文献、专利和书籍(都为PDF格式)为例,来考察各大软件的提取能力。

在对比之前,简单介绍软件是如何实现PDF信息提取的。一般分为三步:1. 如果PDF文件带有元数据信息,软件就可以直接提取信息;2. 如果PDF文件没有元数据,软件可以检测PDF文件,寻找文献DOI号、专利号、或者ISBN号,然后通过网络检索文献信息;3. 万一PDF中DOI号都没有,部分软件还可以直接从PDF中提取文题、作者、页码等信息。注意:很多软件通过Google Scholar来检索文献,而国内有无法连接Google Scholar,从而导致软件的PDF识别能力大大削弱(以下对比是在没有翻墙的情况下测试)。

1. 主流英文期刊

因为平时阅读最多的是英文文献。本节选择了不同时期的JACS文献(2015、2004 、1993 、1983)为例。

a. Endnote: 如图1,仅能自动识别出2015年文献、而04/93/83年发表文献均未能识别。

图 1


b. Mendeley:全部识别,信息全面,包括文题、作者、页码、杂志名等,如图2所示:

图 2


c. Zotero :能识别2015/2004年文献,无法识别93/83年文献。注意:导入文献时,Zotero并不能像Endnote一样自动识别,需要选中文献,右击选择“重新提取元数据”。提取结果见下图3:

图 3


d. Papers: Papers能识别2015/2004/1993年文献,但无法识别83年文献。如图4所示;

图 4


2. 中文文献

虽说大多中文文献都很水,但偶尔也还是会看看。特别是博士论文,对于了解一个陌生领域有一定帮助。以上者四款软件都是国外团队开发,中文识别能力怎么样呢?我们先看看测试结果。如下图5 - 8。

图 5


图 6


图 7


图 8


几乎全军覆没,要么是根本无法识别、要么是乱码、最多也就提取个标题。Zotero的中文网页的提取能力虽然强,但是对中文PDF也是爱莫能助。即使翻墙,这些软件对中文PDF也毫无办法。所以对于中文文献,只能手动码字了。如果你平时中文文献看的非常多,请关注我们后期会推出的Noteexpress或者医学文献王。

3. 专利的识别能力

除了期刊文献,科研工作者还会阅读大量专利文献。有时专利的及时性要比期刊更好,这是因为在发表文章之前,作者都会先申请专利(专利相关内容请到我们专利专栏查看)。各大文献管理软件对专利的鉴别能力如何呢?

a. Endnote:如图9,毫无鉴别能力,多次reference Update无果。

图 9


b. Mendeley :3篇US Patent中识别出一篇。如图10所示。

图 10


c. Zotero : 在没有翻墙的情况下,Zotero对Patent也毫无识别力。如图11所示:

图 11


d. Papers:对于专利Papers也是没什么识别力。如图12。

图 12


4. 书籍识别力

除了期刊文献和专利,平时阅读最多的当属各类专业书籍。现选择两本PDF格式英文书籍为例。

a. Endnote: 两本书籍都未能识别,如图13所示:

图 13


b. Mendeley: 成功识别两者,但其中一本(CRC)信息不全。识别出书名和作者,但是页码有误。如图14所示:

图 14


c. Zotero: 识别一本,未能识别出CRC Handbook of Chemistry and Physics。如图15所示;

图 15


d. Papers:两本书籍都没能识别。如图16。

图 16


通过以上四大比较,各大软件的PDF提取能力一目了然。从类别来分析,他们的期刊文献的提取能力都很强,但对于专利、书籍的提取能力较弱,对中文期刊则毫无办法。各软件的综合评分如下:Zotero(VPN)~ Mendeley > Zotero ~ Papers > Endnote 。

当然选择一款软件不仅仅要看其PDF的提取能力,小编将在后期内容陆续从其他方面进行比较。敬请期待哦。



研之成理面向所有感兴趣的朋友征集专栏作家,主要包括专业软件(比如Digital Micrograph, TIA, Photoshop,Chemoffice,Material studio等)和基础知识(XRD结构精修,热分析,核磁,程序升温实验,同步辐射,质谱,AFM,STM)的分享,以及相关领域最新文献赏析。目前,由于小编人数有限,总结的周期会比较长,如果有更加专业的人来分担一部分的话,应该可以让大家更快更好地学到更多内容。

欢迎愿意分享的朋友联系我们:邹主编(QQ:337472528)或者陈主编(QQ:708274),谢谢!

最后,真诚地希望大家能够在这个平台上展示自己,将自己的思想传递给更多的人。



为方便研友们进行学术讨论,研之成理也开创了自己的QQ群,1号群:已满;2号群:已满;3号群:585629919。欢迎大家加入进行激烈的学术讨论!

本文版权属于研之成理,转载请通过QQ联系我们,未经许可请勿盗版,谢谢!

长按下图识别图中二维码或者搜索微信号rationalscience,轻松关注我们,谢谢!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存