查看原文
其他

Python 抓取知识星球内容生成词云并生成 PDF

苏生不惑 苏生不惑 2022-03-18


知识星球是什么?

知识星球是创作者连接铁杆粉丝,做出高品质社群,实现知识变现的工具。创作者可以用知识星球连接铁杆粉丝,做出高品质社群,实现知识变现。
知识星球解决的核心问题是社群收费管理难问题和内容不能沉淀问题。微信公众号、微博和行业专家——这些有粉丝的创作者是知识星球的核心用户,都可以用知识星球运营社群,知识变现。

以上来自知识星球官网的介绍 https://help.zsxq.com/ 口号是连接1000位铁杆粉丝。

为什么用星球

我没做过社群,也不是什么行业专家,毕竟不是什么大v,为什么要用知识星球呢?主要是现在获取的资讯太多了,想沉淀记录些东西,方便自己,也方便他人找,为什么不用微博呢?微博用了很多年,每天都在更新,目前已经8万多条微博了。


微博上有很多mark党,不断转发微博,但几乎没再去看过,不知道你是否也这样,以为收藏就看过了,其实只是种心里安慰。

而且微博上转发的东西经常被删,微博太多管理起来也麻烦,于是6月份的时候建立了一个免费的星球,主要是收集些有用有意思的东西,就是这个了https://wx.zsxq.com/dweb2/index/group/141281112142



免费星球


星球还可以上传文件,和微博一样加标签方便分类,还提供网页版,很方便。


导出星球

过去3个月更新几百条信息了,也都加了标签。星球现在有200多个小伙伴了,你有兴趣也加入吧。




 

比如工具这个标签列表的内容


但内容多了以后翻起来也麻烦,于是想着下载下来看,最好能导出PDF,于是准备研究下,搜索下发现有人已经做过了,思路为抓取网页版的接口https://api.zsxq.com/v1.10/groups/141281112142/topics?scope=all&count=20 每次加载20条,每次的最后一条的create_time为下次的开始时间,如果没有20条说明加载完了。不过他的代码还有些问题,需要改动下,于是开始动手了。
执行效果见图


用基于 Wkhtmltopdf 的 Python 包 pdfkit 生成的PDF文件有点大,565页 ,50多M,主要是评论和图片都下载了,不下载的话5M差不多。



为了验证付费星球也能下载,我还建了个付费星球https://wx.zsxq.com/dweb2/index/group/224445125221,以后也会经常更新。



评论和回复也下载了



2019.6.19创建的星球



Python生成的词云效果还不大好,没过滤好无用的词。



文字版也导出到TXT了。

 

在词云网站 http://cloud.niucodata.com/ 将下载的文字放进去就能看到词频统计和词云图。

 


 

如果你想下载这个PDF,公众号回复 星球 获取PDF和文字版。

中文乱码

如果你是在 linux 上执行脚本可能会出现中文乱码,解决方法就是从windows拷贝宋体字体文件 c:\windos\fonts\simhei.ttf/usr/share/fonts/

cd /usr/share/fonts/
cp simhei.ttf .
mkfontscale
mkfontdir
fc-cache 

再次执行fc-list可以看到已经安装的字体了。

推荐星球

这段时间也加入了不少星球,推荐一个我几乎每天看的星球,为什么每天看呢,因为星主每天分享,太勤快了,星球名叫 风巢套利日享(限免),免费的https://wx.zsxq.com/dweb2/index/group/554228114224
这是这个星球的词云,看到这些关键词,你心动了吗?点击阅读原文或扫码加入星球。




推荐阅读:

没有提取码怎么获取百度网盘资源?

如何发一条空白的朋友圈

如何在电脑上登陆多个微信

如何提取公积金 9 天到账

免费在线听周杰伦歌曲

那些你可能不知道的微信奇技淫巧

如何在豆瓣租房小组快速找到满意的房子

那些你可能用得上的简历写作工具

Chrome 浏览器扩展神器油猴

我的新浪工作日常

公众号:苏生不惑

扫描二维码关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存