2023 年批量抓取公众号历史文章数据（阅读数点赞数在看数留言数）进行数据分析

Original 苏生不惑玩转互联网达人 2024-04-07

我写了个脚本批量抓取公众号历史文章数据（阅读数点赞数在看数留言数）

2023 批量下载公众号文章内容/话题/图片/封面/视频/音频，导出文章pdf和文章数据包含阅读数/点赞数/在看数/留言数

下载的excel文章数据包含文章日期，文章标题，文章链接，文章简介，文章作者，文章封面图，是否原创，IP归属地，阅读数，在看数，点赞数，留言数，赞赏次数，视频数，音频数等，比如深圳卫健委2022年的1000多篇文章阅读数都是10万+，excel数据分析见这篇文章2022年过去，抓取公众号阅读数点赞数在看数留言数做数据分析，以深圳卫健委这个号为例。

以微信派这个号2022年所有文章为例。

文章总数量168：

>>> len(wechat)
168

原创只有1篇：

wechat.groupby('是否原创')['在看数'].count().sort_values(ascending=False).head(5)
wechat.groupby('是否原创').agg({"在看数":'count'}).sort_values(by=['在看数'],ascending=False).head(5)
>>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5)
否    167
是      1
Name: 是否原创, dtype: int64

头条164篇，次条4篇

文章作者只有2个，可能大部分没填：

>>> wechat.文章作者.value_counts().sort_values(ascending=False).head(5)
不会画      1
持锤鉴宝的    1
Name: 文章作者, dtype: int64

阅读数10万+的文章有10篇，总阅读数6290254：

平均阅读数，点赞数，在看数和留言数：

然后再分析留言数据excel文件，包括文章日期，文章链接，文章标题，留言昵称，留言内容，留言点赞数，留言回复，留言时间，留言地区等。

python分析留言次数最多的10个小伙伴

>>> wechat2.评论昵称.value_counts().sort_values(ascending=False).head(10)
喵         50
万景明       47
ㅤ         43
迷路的男人     41
Korin     38
谢卓锟       37
宗琦        35
ㅤ樱桃小玩子    33
HM灬涛      25
Enemy     23
Name: 评论昵称, dtype: int64

顺便再统计下留言中省份最多的10个，广东排第一。

文章下的留言也在pdf文件里，点击左侧标题书签可以跳转到对应文章：

2023 更新版：苏生不惑开发过的那些原创工具和脚本

再次更新：2023批量下载公众号文章内容/话题/图片/封面/视频/音频，导出文章pdf，文章数据含阅读数/点赞数/在看数/留言数

微博图床又搞事情不能用了，盘它，我顺便写了个微博图片/视频/内容/文章批量下载工具

2023 年数字图书馆 zlibrary 复活，新推出客户端人人可用

总有人问我 Cookie 是什么？