整理海量文献数据?有这款 PDF 神器就够了
不少机构选择用PDF格式对外公布信息,避免遭篡改,而这样做却给我们带来了不大不小的麻烦:文字尚且可以复制粘贴,但表格一经粘贴就乱了顺序,只能新建一张表。
有没有一些省时省力的工具呢?
有的。南非资深数据记者Laura Grant根据多年的经验推荐了一组简单好用的工具,以及使用PDF文档的小技巧。
Tabula是个免费的工具,可靠且易用。其官网上称其“由记者设计,为记者服务。” 难怪深受广大非计算机专业人士的欢迎。当然对于科研党来说也很实用,比如当老师丢给你一个满是数据表格的PDF,让你整理成Excel的时候,它就排上用场了。
Tabula的一大好处是允许用户先上传一整份PDF文档,再选择其中的表格,一次导出单个或多个均可。输出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等软件打开。
然而对于经过扫描生成的PDF文档,或者横向放置的表格,Tabula就无能为力了。
它除了免费,还有一个优点,就是多平台!
除了 PC 用户,还支持 Mac,真的是 Mac 党的福音啊。接下来小编会给大家详细介绍如何使用。
首先就是下载啦,软件是免费的,大家可以直奔官网下载。
地址:http://tabula.technology/
解压后,打开软件,会自动打开浏览器。若没有事先安装Java,则会先跑出要求你先安装Java的通知:
点选“Browse”上传pdf档。
打开后界面是这样的,这个时候,剩下的几乎都傻瓜操作。
我们可以参照这个步骤来操作。
▲ 上传包含数据表的 PDF 文件。
▲ 通过单击表格的左上角并将鼠标拖到右下角来选择表格,直到所有数据都包含在阴影选择区域中。
这里有几个注意点,一定要切记!
第 1:不要将标题圈进阴影区域,不然会打乱格式!
第 2:如果表格的表头包含合并单元格,不要圈进阴影区域,可以后续提取完数据再做处理!
▲ 随后,点击绿色按钮。
▲ 随后会出现一个包含您的数据的窗口。检查数据以确保它看起来正确。如果数据丢失,我们可能需要稍微扩展我们的选择。
▲ 选择我们需要的格式,点击下载按钮。
打开文件,我们就可以将数据作为文本文件或电子表格,而不是 PDF 来进行处理!
但是小编发现一个问题,就是有时一些符号在 CSV 中会出现乱码,但是不知道是不是因为 Mac 的 Excel 兼容性不是特别好,但是这问题很好解决。
只要选择 Excel 的替换功能,然后将乱码字符统一替换就好!
就会得到想要的结果啦。具体的一些操作和小诀窍,还需要大家使用以后来告诉小编呦。
这个网页是由 tabula 建立的本地端网站服务器提供,所以不用担心数据会上传到远程。
1. pdf必须是文字型的,图片的pdf则无法处理
2. 偶尔导出的数据会有乱码,需要手动调整取的范围;或者在导出页面,将数据复制粘贴到excel也可以解决这个问题
来源:生物学霸、科袖网资料
更多精彩请点击下方阅读原文,下载科袖APP。
学院路“八大学院”的前世今生:三所一分为二,八所全部入选双一流!