查看原文
其他

太方便了!利用Python对批量Pdf转Word

李运辰 Python研究者 2022-09-11

大家好,我是辰哥


在wps或者office里面可以将pdf转word,不过只能免费转前面5页,超过5页就需要会员。今天教大家一个Python办公小技巧:批量Pdf转Word ,这样可以自由想转多少页都可以。


思路:这里主要是利用了Python的pdfmine3k库去提取pdf文本内容,通过python-docx库去将内容保存到word中。


下面先看一下效果:





01


环境准备



在开始编写代码之前,咱们先安装一些用到的Python库,安装目录如下:


pip install pdfminerpip install pdfminer3kpip install python-docx


注意

使用 pip install docx 安装模块 docx 后,发现不能正常使用,

并报错 moduleNotFoundError:No module named 'exceptions'


正解

pip install python-docx





02


提取PDF内容


1.导入相应的库


from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.pdfinterp import PDFTextExtractionNotAllowed


解释

2.读取pdf内容


在开始读取之前,先看一下pdf的内容:



辰哥这里以自己的原创文章按模块分类后,新建了一个两页的pdf文件。


上面代码是读取pdf文件,并把每一页内容放到doc.get_pages里面。



通过循环可以把每一页的内容提取出来,并把每一页内容打印输出




03


保存到word



上面我们已经成功将pdf的内容提取出来,接着我们将内容保存到word里面



在遍历pdf内容里面将内容逐步写入保存。最后保存命名为:Python研究者-辰哥.docx




04


小结



辰哥在本文中主要讲解了利用Python对批量Pdf转换为Word,不明白的地方可以在下方留言或者后台加辰哥微信,一起交流。


为了大家方便学习,辰哥已经把本文的完整源码上传,需要的在公众后台回复:pdf转换


最后说一声:原创不易,求给个赞、在看、评论



今日推荐
太赞了!Python竟可以轻松实现音频格式无损转换
再见Xshell、Xftp!Python执行Linux命令、上传下载远程文件 我去!爬虫遇到字体反爬,哭了


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存