牛逼！40行Python代码一键把html网页保存为pdf，太方便了！

IT服务圈儿 2022-09-10

The following article is from 菜鸟学Python Author 菜鸟哥

作者丨菜鸟哥

来源丨菜鸟学Python（ID：cainiao_xueyuan）

最近临近开学了，大家都在忙着准备各种学习的资料，准备在新的学期好好学习，充实自己。小编身边的同学也是如此，最近，小编的同学小丽就遇到了一个很棘手的问题。

她想将一个网页的Python学习的教程打印下来，方便自己来学习，但是上千页的教程，如果通过手动的方式，一个一个的去转成pdf并保存到本地，实在是麻烦的不。

这就是一个html转pdf的问题，其实网上有很多不错的html资源，但是苦于学习起来，不方便！于是小编就跟小丽保证，这点小事包在我身上。今天，小编就跟分享一下如何用Python把html资料变成pdf。

01.抓取的学习资料

如今网上的在线学习资料可谓是多如牛毛，为了方便讲解，小编就利用python3.9.2的中文文档作为演示的例子，来将其抓取并保存到本地，其网页链接如下：

https://docs.python.org/zh-cn/3.9/tutorial/index.html

打开上述链接后，大家会在网页中找到不同内容的链接地址，包括了基础的python字符、python语法等内容。

02.获取网页链接

在上图中，我们需要格外关注的是红色方格标注的链接，每个链接都会跳转到对应的子网页中，而在子网页中，就是我们想要保存的内容。

可以看到，上图中，在python速览子页面中，包含了我们需要提取的文字内容。所以将html内容保存为pdf的第一步便是获取到子页面的链接。由于教程大都是固定内容，因此对于教程的网页，大都采用的是静态页面，在网页源代码中可以很轻松的找到子页面的网页链接。

对于子网页的链接抓取，程序如下图所示:

程序中，通过BeautifulSoup库来解析网页源代码，然后提取所有的子页面链接地址并返回，如果抓取失败，则直接返回None。

03.html转pdf

在得到子网页的链接后，接下来就是将html的子网页保存为pdf文件。小编使用的pdfkit库，pdfkit库可以将网页保存为pdf文档。首先小编来介绍一下pdfkit库的安装。

下载https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox-0.12.6-1.mxe-cross-win64.7z 并解压到本地文件中。(后台输入：pdf) 直接获取。
将解压文件中的bin文件路径添加到系统变量Path中。
执行pip install pdfkit
执行pip install wkhtmltopdf

按照上述的操作流程，就可以安装pdfkit库。对于pdfkit库的使用，常见的用法有以下三种：

上面的程序主要完成几下几步：

首先需要指定wkhtmltopdf.exe文件的路径；

然后分别通过from_url、from_file和from_string的三种方式来保存为pdf文件；
需要注意的是，from_file和from_url中的第一个参数必须是一个html的字符串或者是html文档的列表；
但是小编通过程序运行发现，from_url第一个参数只能是html的字符串，不能是html的列表。

因此，pdfkit库只能将子网页保存为单独的pdf文档，无法直接通过pdfkit库将所有的子网页拼接成一个完整的pdf文档，小编通过PyPDF2库中的PdfFileMerger类来实现pdf文档的拼接。程序如下图所示。

程序中首先将所有的html网页保存为单独的pdf文档，然后通过PdfFileMerger类对象来实现pdf文档的拼接。最后就可以得到全部的pdf内容。最后我们通过视频的展示，来看一下程序的效果吧。

除此之外，程序不光可以抓取python3.9的中文文档，针对其他的在线文档，只需要对获取网页链接的程序进行修改即可抓取，例如对于Flask中文文档的抓取，程序只需要按照下图进行修改，即可将Flask的在线文档保存为PDF文档。

04.总结

学习Python其实非常有趣，也很有用。因为Python有大量的现成的库，可以帮助我们把工作中的很多琐碎的烦事轻松解决。小编将上述的程序稍加修改，很快就帮阿丽搞定了教程，保存为pdf发送给了她，小编与女神的关系更拉近了一步。

其实源码非常简单，大家也照着敲一边(看千边读万边，不如自己动手敲一边)。

有偿征稿IT服务圈儿正式开启投稿通道，稿费：60~5000元不等，长期有效！！！
点此查看详情

1、一款号称最适合程序员的编程字体

2、Projector 1.0 GA，JetBrains出品的远程访问IDE工具

3、Python 超级强大的模式匹配工具—Pampy

4、苹果大乌龙，因姓"True"竟无法登陆 iCloud 帐户

识别关注我们

了解更多精彩内容

点分享

点点赞

点在看

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

牛逼！40行Python代码一键把html网页保存为pdf，太方便了！

01.抓取的学习资料

02.获取网页链接

04.总结

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

生成图片，分享到微信朋友圈

牛逼！40行Python代码一键把html网页保存为pdf，太方便了！

01.抓取的学习资料

02.获取网页链接

04.总结

您可能也对以下帖子感兴趣