再次更新:2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf,文章数据含阅读数/点赞数/在看数/留言数
苏生不惑第
416
篇原创文章,将本公众号设为星标
,第一时间看最新文章。
之前分享过我开发的公众号批量下载工具更新版:整理下苏生不惑开发过的那些工具和脚本 ,最近下载视频接口挂了,还有些话题抓取不全,标题获取失败,于是周末我又更新了下,工具下载地址在公众号苏生不惑后台回复 公众号
。
公众号文章下载
打开wechat_down.exe输入文章地址即可下载文章和文章里的公众号文章,比如
这篇文章链接视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数 https://mp.weixin.qq.com/s/c-jpCXxUtZpzxTCSx0Fu_w ,下载效果如图:
下载的音频保存在当前audio目录,视频在video目录,封面在cover目录,图片在images目录,文章内容在html目录。
自己上传的视频会直接下载,引用的腾讯视频直接下载比较麻烦,所以只保存视频链接到excel文件了,可以复制视频链接用lux这种工具下载。
第2次下载会跳过已经下载过的文章,如果有什么问题可以给我反馈。
公众号话题下载
除了文章下载,公众号话题批量下载也一样的,比如这个话题:
打开wechat_topic_down.exe输入话题链接直接下载,这次解决了某些话题下载不全的问题,下载效果如图:
音频/视频和文章内容都下载了:
如果第2次下载会跳过已经下载过的文章,效果:
纯音频话题也支持,以这个音频话题为例:
1000个mp3音频很快就下载完了。
第2次下载也会跳过已经下载过的音频,效果:
公众号模板下载
以支付宝这个公众号模板页面为例:
html转pdf
我之前开发了个html2pdf.exe可以将下载的文章html批量转换为pdf,不过最近公众号文章改成了动态加载,用这个转换生成的pdf是空白的wkhtmltopdf.exe https://mp.weixin.qq.com/s/c-jpCXxUtZpzxTCSx0Fu_w 视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数.pdf
,所以之前我用python写的html2pdf.exe也失效了。
研究了下python还可以用pyppeteer 转换,不过它依赖chromium:
import pyppeteer.chromium_downloader
print('pyppeteer版本:{}'.format(pyppeteer.__chromium_revision__))
print('pyppeteer可执行文件路径:{}'.format(pyppeteer.chromium_downloader.chromiumExecutable.get('win64')))
print('pyppeteer下载链接:{}'.format(pyppeteer.chromium_downloader.downloadURLs.get('win64')))
在pyppeteer可执行文件路径中新建目录588429,将手动下载的chrome-win32.zip 解压后放进去。
pyppeteer可执行文件路径:C:\Users\xxx\AppData\Local\pyppeteer\pyppeteer\local-chromium\588429\chrome-win32\chrome.exe
pyppeteer下载链接:https://storage.googleapis.com/chromium-browser-snapshots/Win_x64/588429/chrome-win32.zip
转换pdf效果如图,速度比较慢,暂时没什么好办法:
转换后的pdf就可以用我开发的pdf_merge.exe合成一个pdf文件苏生不惑又写了个pdf合并带书签小工具 ,这次加了个gui,效果如图:
文章标题为书签,点击会跳转对应文章。
批量下载公众号历史文章内容和数据
批量下载某个公众号的所有历史文章批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/在看数/留言数/赞赏数 ,下载效果如图:
为了方便找文章,部分公众号的历史文章同步到了我的博客https://sushengbuhuo.github.io/blog ,并且持续更新,不用在手机上翻历史文章了 ,比如深圳卫健委从2014到2023发布1万多篇文章,第一篇文章是这个:
每个月我还会更新一次公众号深圳卫健委的封面表情包图,无水印,欢迎收藏 2022 年公众号深圳卫健委所有历史文章无水印封面表情包合集,分享到网盘了,文件名为文章发布日期加标题,方便搜索,在公众号苏生不惑后台回复 封面
获取这个号2019-2022年的所有封面图,2023年结束的时候我再更新2023年封面图。
以莫言老师的公众号为例,下载的所有历史文章内容和音频,视频 :
最后将所有文章合并成一个pdf文件(含留言),点击左侧书签跳转到对应文章:
如果文章对你有帮助还请
点赞/在看/分享
三连支持下, 感谢各位!