查看原文
其他

【技能分享】一行代码从PDF中提取表格

文刀木公 数据处理与分析 2022-07-17


需求

我在技术交流群里发了这样一个PDF,并说了明天公布答案。


PDF里有很多有用的信息,这些信息都不怎么好直接拿来用。今天我就来分享一下怎么提取出这个PDF中的表格。


开搞

提取这个信息其实很简单,只需按照下图所示的代码就可以提取出里面的信息并存盘。

附上图中代码

import tabula
#读取pdf数据,并取pdf中的第一个表格
df = tabula.read_pdf(r'C:\Users\uYaoQi\Desktop\tst.pdf',pages='all')[0]
#不带索引写出表格到磁盘
df.to_excel(r'C:\Users\uYaoQi\Desktop\tst.xlsx',index=None)

几行代码,简简单单!

写出的数据:


总结

提取过程没什么好说的,非常的简单!

只能说tabula这个库太强大了,这个需求如果用FME来做的话,也不是不行,只是不会有这么方便。

也许还有其他的方式来做类似的事情,但大概也不能比这个库更简单了。

交流

欢迎大家扫下面的二维码添加我的个人微信(备注行业+姓名更易通过)!

需要加技术交流群的发送验证信息的时候备注:加群!

历史文章推荐

【数据分享】中国自然保护区数据

【数据分享】中国自然保护区数据


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存