查看原文
其他

再次更新:2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf,文章数据含阅读数/点赞数/在看数/留言数

苏生不惑 苏生不惑 2023-05-03

苏生不惑第416 篇原创文章,将本公众号设为星标,第一时间看最新文章。

之前分享过我开发的公众号批量下载工具更新版:整理下苏生不惑开发过的那些工具和脚本 ,最近下载视频接口挂了,还有些话题抓取不全,标题获取失败,于是周末我又更新了下,工具下载地址在公众号苏生不惑后台回复 公众号

公众号文章下载

打开wechat_down.exe输入文章地址即可下载文章和文章里的公众号文章,比如 这篇文章链接视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数  https://mp.weixin.qq.com/s/c-jpCXxUtZpzxTCSx0Fu_w ,下载效果如图:可以看我之前录制的视频视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数

下载的音频保存在当前audio目录,视频在video目录,封面在cover目录,图片在images目录,文章内容在html目录。

自己上传的视频会直接下载,引用的腾讯视频直接下载比较麻烦,所以只保存视频链接到excel文件了,可以复制视频链接用lux这种工具下载。

第2次下载会跳过已经下载过的文章,如果有什么问题可以给我反馈。

公众号话题下载

除了文章下载,公众号话题批量下载也一样的,比如这个话题:

打开wechat_topic_down.exe输入话题链接直接下载,这次解决了某些话题下载不全的问题,下载效果如图:

音频/视频和文章内容都下载了:

如果第2次下载会跳过已经下载过的文章,效果:

纯音频话题也支持,以这个音频话题为例:

1000个mp3音频很快就下载完了。

第2次下载也会跳过已经下载过的音频,效果:

公众号模板下载

以支付宝这个公众号模板页面为例:打开wechat_homepage.exe输入模板地址,下载效果如图:还生成了一个文章列表数据的excel,包含文章日期,文章标题,文章链接和文章封面等。第2次下载会跳过已经下载过的文章:

html转pdf

我之前开发了个html2pdf.exe可以将下载的文章html批量转换为pdf,不过最近公众号文章改成了动态加载,用这个转换生成的pdf是空白的wkhtmltopdf.exe https://mp.weixin.qq.com/s/c-jpCXxUtZpzxTCSx0Fu_w 视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数.pdf,所以之前我用python写的html2pdf.exe也失效了。

研究了下python还可以用pyppeteer 转换,不过它依赖chromium:

import pyppeteer.chromium_downloader
print('pyppeteer版本:{}'.format(pyppeteer.__chromium_revision__))
print('pyppeteer可执行文件路径:{}'.format(pyppeteer.chromium_downloader.chromiumExecutable.get('win64')))
print('pyppeteer下载链接:{}'.format(pyppeteer.chromium_downloader.downloadURLs.get('win64')))

在pyppeteer可执行文件路径中新建目录588429,将手动下载的chrome-win32.zip 解压后放进去。

pyppeteer可执行文件路径:C:\Users\xxx\AppData\Local\pyppeteer\pyppeteer\local-chromium\588429\chrome-win32\chrome.exe
pyppeteer下载链接:https://storage.googleapis.com/chromium-browser-snapshots/Win_x64/588429/chrome-win32.zip

转换pdf效果如图,速度比较慢,暂时没什么好办法:

转换后的pdf就可以用我开发的pdf_merge.exe合成一个pdf文件苏生不惑又写了个pdf合并带书签小工具  ,这次加了个gui,效果如图:

文章标题为书签,点击会跳转对应文章。

批量下载公众号历史文章内容和数据

批量下载某个公众号的所有历史文章批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/在看数/留言数/赞赏数 ,下载效果如图:下载的excel文章数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数,视频数,音频数等,比如深圳卫健委2022年的文章阅读数都是10万+,文章数据分析见文章2022年过去,抓取公众号阅读数点赞数在看数留言数做数据分析, 以深圳卫健委这个号为例

为了方便找文章,部分公众号的历史文章同步到了我的博客https://sushengbuhuo.github.io/blog ,并且持续更新,不用在手机上翻历史文章了 ,比如深圳卫健委从2014到2023发布1万多篇文章,第一篇文章是这个:

每个月我还会更新一次公众号深圳卫健委的封面表情包图,无水印,欢迎收藏 2022 年公众号深圳卫健委所有历史文章无水印封面表情包合集,分享到网盘了,文件名为文章发布日期加标题,方便搜索,在公众号苏生不惑后台回复 封面 获取这个号2019-2022年的所有封面图,2023年结束的时候我再更新2023年封面图。每篇文章下的留言内容也可以导出到excel,包含文章日期,文章标题文章链接,留言昵称,留言内容,点赞数,回复和留言时间,比如深圳卫健委在2月份就有1万6千多条留言,如果你有需要下载的公众号或抓取数据可以微信sushengbuhuo联系我。

以莫言老师的公众号为例,下载的所有历史文章内容和音频,视频 :

 

最后将所有文章合并成一个pdf文件(含留言),点击左侧书签跳转到对应文章:

 

如果文章对你有帮助还请 点赞/在看/分享 三连支持下, 感谢各位!

公众号苏生不惑


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存