查看原文
其他

整理海量文献数据?有这款 PDF 神器就够了

2018-03-26 科袖网

不少机构选择用PDF格式对外公布信息,避免遭篡改,而这样做却给我们带来了不大不小的麻烦:文字尚且可以复制粘贴,但表格一经粘贴就乱了顺序,只能新建一张表。


有没有一些省时省力的工具呢?


有的。南非资深数据记者Laura Grant根据多年的经验推荐了一组简单好用的工具,以及使用PDF文档的小技巧。


软件介绍


Tabula是个免费的工具,可靠且易用。其官网上称其“由记者设计,为记者服务。” 难怪深受广大非计算机专业人士的欢迎。当然对于科研党来说也很实用,比如当老师丢给你一个满是数据表格的PDF,让你整理成Excel的时候,它就排上用场了。


Tabula的一大好处是允许用户先上传一整份PDF文档,再选择其中的表格,一次导出单个或多个均可。输出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等软件打开。


然而对于经过扫描生成的PDF文档,或者横向放置的表格,Tabula就无能为力了。


它除了免费,还有一个优点,就是多平台!

除了 PC 用户,还支持 Mac,真的是 Mac 党的福音啊。接下来小编会给大家详细介绍如何使用。

下载安装


首先就是下载啦,软件是免费的,大家可以直奔官网下载。

地址:http://tabula.technology/


解压后,打开软件,会自动打开浏览器。若没有事先安装Java,则会先跑出要求你先安装Java的通知:



点选“Browse”上传pdf档。


打开后界面是这样的,这个时候,剩下的几乎都傻瓜操作。

我们可以参照这个步骤来操作。

▲ 上传包含数据表的 PDF 文件。

▲ 通过单击表格的左上角并将鼠标拖到右下角来选择表格,直到所有数据都包含在阴影选择区域中。

这里有几个注意点,一定要切记!

第 1:不要将标题圈进阴影区域,不然会打乱格式!

第 2:如果表格的表头包含合并单元格,不要圈进阴影区域,可以后续提取完数据再做处理!

▲ 随后,点击绿色按钮。

▲ 随后会出现一个包含您的数据的窗口。检查数据以确保它看起来正确。如果数据丢失,我们可能需要稍微扩展我们的选择。

▲ 选择我们需要的格式,点击下载按钮。

打开文件,我们就可以将数据作为文本文件或电子表格,而不是 PDF 来进行处理!

但是小编发现一个问题,就是有时一些符号在 CSV 中会出现乱码,但是不知道是不是因为 Mac 的 Excel 兼容性不是特别好,但是这问题很好解决。

只要选择 Excel 的替换功能,然后将乱码字符统一替换就好!

就会得到想要的结果啦。具体的一些操作和小诀窍,还需要大家使用以后来告诉小编呦。

补充


这个网页是由 tabula 建立的本地端网站服务器提供,所以不用担心数据会上传到远程。

缺点


1. pdf必须是文字型的,图片的pdf则无法处理
2. 偶尔导出的数据会有乱码,需要手动调整取的范围;或者在导出页面,将数据复制粘贴到excel也可以解决这个问题


来源:生物学霸、科袖网资料


更多精彩请点击下方阅读原文,下载科袖APP。

推荐阅读

支付宝:免费下载CNKI知网、万方、维普等期刊论文的新途径

被拒稿算什么,来看看史上最毒舌最搞笑的审稿意见!

这10个PPT批量处理技巧,让你的效率提升100倍

学院路“八大学院”的前世今生:三所一分为二,八所全部入选双一流!

高校生存暗黑小指南:硕博士生遭遇不公应该怎么办?


自公众号开通以来,得到很多老师和同学的支持,经各位建议,近期陆续建立了微信群,汇集了各大高校的老师及硕博士生,如有需要进群,可加小编微信:186 0082 6589,并注明单位及研究方向,小编会拉各位入群。进群后请看群公告,资料下载等事项,都在其中。各课题组有招生招聘需求的也可加小编微信,免费帮您在科袖网(www.ekexiu.com)发布相关信息。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存