查看原文
其他

分析了10个公众号5600篇文章2000w字,原来它们用这个词最多!

明白1 多元思维Hack 2020-10-06

这篇文章,收集了部分我置顶公众号的所有文章,统计了文章中使用最多的词,做成了词云图。

为啥要做这个?

1、纯属好奇
2、大家知道我有个《不用写代码的爬虫课》,用 web scraper 抓数据,短平快,不用写代码,1 分钟就能设置好抓取规则,剩下就等程序跑完,拿到数据。所以,我有时也会抓点数据玩玩。
3、好久没写代码了,想看看这过程中会遇到哪些问题?自己能不能解决?(其实需要写代码,是我做之前没有预料到的)

制作过程中用的工具:

  • 公众号文章抓取工具:web scraper

  • 词频统计:1. github-jieba-结巴分词 - 精准模式 2.网上抄的 20 行 python 代码

  • 词云工具:wordart

  • 其他:excel

为了不影响词云图的效果,本文已经去除了一些常见词汇,比如

一个 这个 很多 可以 自己 问题 一些 我们 其实 如果 没有 就是 不是 可能 时候 什么 这样 他们 那么 知道 觉得 还是 但是 所以 非常 一下 当然 需要 比如 价值 现在 已经 事情 因为 然后 各种 这些 或者 存在 认为 这种 为什么 发现 通过 以前 不会 机会 不要 内容 一定 一种 重要 人家 时间 发展 逻辑 不同 如何 真的 信息 以及 而且 理解 怎么 有些 分享 文章 广告 简单 不能 东西 其他 开始 系统 看到 出来 这里 一点 等等等等等

文章中数据展示格式为:
1、公众号名称
2、相关数据
3、词云图(内有彩蛋)
4、TOP 20 关键词 | 频次 | 明白业余分析

caoz 的梦呓

  • 文章数:503

  • 字数:1,492,273

  • 总阅读数:10,087,175

  • 总点赞数:157,171


(caoz的梦呓)


TOP 20 关键词 | 频次 | 分析

曹大的公众号,多是互联网创业、产品、数据相关,文章曾被马化腾,张小龙多次赞赏,推荐关注。

咪蒙

  • 文章数:664

  • 字数:1,615,050

  • 总阅读数:92,592,058+ ps:篇篇 10w+ ,这是下限

  • 总点赞数:12,154,279+


    (咪蒙)

TOP 20 关键词 | 频次 | 分析

咪蒙在运营公众号这个产品上,有很多值得学习的地方——

  • 文章如何开头能吸引人?

  • 如何引导用户点赞?

  • 如何从读者生活中获得文章素材(吸引用户投稿)?

  • 标题文案如何取才能吸引人?

  • 不发文章时,发纯文字,如何让用户不失望,又觉得有趣
    ……

阅读文章时,如何找到对自己有价值的信息,可以参考曹大的这篇文章 超视角阅读

学习学习再学习

  • 文章数:583

  • 字数:1,861,325

  • 总阅读数:21,617,810+

  • 总点赞数:213,448+


学习学习再学习

TOP 20 关键词 | 频次 | 分析

笑来老师的《把时间当做朋友》这本书,以及得到专栏,应该帮助了很多人,里面谈到的:时间复利、注意力、元认知、人生商业模式等等,都对我启发很大。

这个公众号也是笑来老师的一个输出渠道。

如果你有以下一些想法,或者困惑:

  • 老板给多少钱干多少活

  • 这个东西短期没用,不学了

  • 花大量时间在网上找免费资源

  • 为什么要学习工作之外的一些技能

  • 金钱 > 时间 > 注意力

建议关注一下这个公众号,或者读一下《把时间当做朋友》这本书。

stormzhang

  • 文章数:571

  • 字数:1,097,327

  • 总阅读数:8,257,975+

  • 总点赞数:252,988+

stormzhang
TOP 20 关键词 | 频次 | 分析

stormzhang 是半路培训做的 Android 开发,后来转产品管理,一步一步靠个人努力,达成今天的成就。

程序员如果突破技术思维,那就是一个开挂的人生。

这个公众号活跃度极高,里面的内容也不拘一格,技术、产品、职场、投资等等,都是作者一个人维护,推荐关注,一个不羁的码农,相信能给你看待事物不一样的角度。

小马宋

  • 文章数:702

  • 字数:1,461,853

  • 总阅读数:12,514,708+

  • 总点赞数:147,085+


    小马宋

TOP 20 关键词 | 频次 | 分析

我以前听到营销,觉得就是在电视上打广告,没啥了不起。

小马宋老师让我对营销有了不一样的理解。

互联网时代,信息爆炸。如果不懂营销,空有好产品,不能在合适的渠道、以合适的方式、展示给合适的用户,一切都是白搭。

营销是个中性词,不要对它有敌意,如果有,是一件可怕的事情。

营销文案写不好,是因为对产品太无知 —— 小马宋

剽悍一只猫

  • 文章数:906

  • 字数:1,827,873

  • 总阅读数:51,177,852+

  • 总点赞数:887,796+


    剽悍一只猫

TOP 20 关键词 | 频次 | 分析

猫叔的口头禅“不行动,然并卵”,他举办的剽悍行动营,帮助了很多人解决了拖延症问题,有效提升了写作、演讲、读书三个技能。这个行动营很有趣,只招陌生人。

猫叔的一些文章,可以作为人生战略原则参考。比如:读懂此文的人,收获不止百万

槽边往事

  • 文章数:1099

  • 字数:2,754,656

  • 总阅读数:不详

  • 总点赞数:不详
    因为这个公众号发文时间太早,最初版本的订阅号,在 URL 方面有很多奇怪的地方,所以暂时没有完整抓取到。


    槽边往事

TOP 20 关键词 | 频次 | 分析

和菜头是我关注公众号里最高产的一位作者,各种文章类型都能驾驭。

人们从公众号看到的,是那个笔耕不辍的和菜头,嬉笑怒骂,笔下纵横。
而在人们看不到的那一面,他是一个互联网公司的创始人。10年间,他做过20多个 APP、2 个网站、H5小游戏、会员系统等。

罗振宇:“和菜头时常对我暴起断喝,如晨钟般醒脑。”

成长

  • 文章数:91

  • 字数:171,490

  • 总阅读数:300,372+

  • 总点赞数:2,958+


成长
TOP 20 关键词 | 频次 | 分析

徐梦阳是多家互联网公司公司的产品经理,现在是自由职业者。

他平时喜欢研究互联网的各种赚钱套路,从词云图就可以看出。

信息挖掘、研究、实践、分享是公众号的风格,爆款文章:麦当劳改名金拱门,一小时赚了15000

小北的梦呓

  • 文章数:488

  • 字数:1,511,719

  • 总阅读数:3,025,755+

  • 总点赞数:48,424+


    小北的梦呓

TOP 20 关键词 | 频次 | 分析

小北是跨境电商领域超级KOL,公众号不仅仅分享跨境电商内容,互联网思维、网站 SEO、流量玩法、产品思维等等,既有道也有术。

我虽然不做跨境电商,前几天也报了他的线上课。从他的文章中,能看到他对于趋势、流量方面很高的认知水平,学习一下大牛思考问题的方式,对自己也是一种提升。


做词云图的过程中,也遇到了一些坑。
1、之前我使用的词云工具是 picdata,这个网站是傻瓜操作,直接将要分析的文字全部丢进去,它会自动统计词频并生成词云图。

但是这个工具有个缺点,字数只能限制在 100 w以内。而这次的公众号内容字数,全部都超过了 100 w,于是这个工具就不灵了。

其他几个类似工具也不能解决这个字数过多问题。

我突然想到,在 MacTalk 池建强老师的知识星球,他发过一个 github 的分词库,叫做「结巴」,支持各种语言。

我就按图索骥,找到了这个库。

2、github 上的工具,使用教程都写的很清楚,我就是照抄,然后换一下文件名。

后来,我又有一个统计文章字数的需求,然后也是网上搜代码,搜到一个教程,巧的是,这个教程代码也是用的「结巴」这个库,我也就改改拿着用了。

互联网带给我们极大的方便,各种教程源码,动动手指就能搜到,略微修改,就能用。

3、词云工具,我最终使用的是:wordart。这个网站需要我们提供词语和对应的词频。

这两项数据,可以通过上一步的「结巴」分词工具得出。

将词语和词频填入 wordart 的时候,我也遇到了问题。无论我怎么输入,wordart 显示都错误,我把设置里各种选项排列组合试了多次,都没成功。

后来我想到易灵微课上,新榜的数据分析师张佳曾经开过一门数据分析课,里面讲过这个工具,就去请教了他。

他告诉我,wordart 识别不了手动输入的 tab 键,需要先把数据输入到 excel 里面,然后复制到 wordart 才行。我按照他的方法,果然成功了。

有时候自己研究半天,不如专家一句话。


福利

之前我写了用 webscraper 抓取公众号标题教程后,有朋友问 webscraper 能不能抓取公众号的所有文章内容?

我研究了一下,没问题。

后来,又有朋友问,可以把公众号文章转换成 PDF 吗?

我研究了半天,最后得出了结论:webscraper 做不到这个。

但是我发现,公众号导出 PDF 这个需求,好像挺多人需要。于是就找了一个全栈技术大牛,让他看看能不能写程序实现这个。

过了几天,他给我发来一段程序,我运行了一下,惊呆了。

导出的公众号文章 PDF 排版和原文一模一样。(公众号后台回复“PDF”,可以查看示例)

不仅如此,这个程序连阅读数、点赞数都可以抓,太牛逼了,看下面图片。

image.png

我查了一下,现在市面上的导出公众号文章的工具,基本都是收费的,而且价格还不低。

淘宝上的店铺价格:

淘宝卖家1
淘宝卖家2

大概算下来,一个公众号大概需要 40 块钱,文章数多的话,可能会更多。

提供抓取公众号阅读数、点赞数的商家比较少,新榜提供公众号回采功能:

新榜公众号回采

例如:抓取「caoz的梦呓」公众号,选择抓取全部文章,300 榜豆。

(新榜价格)

1 榜豆 = 1 元!!!

好像确实有点贵。

马上双 11 了,我也凑个热闹,11.11 之前,免费帮读者抓取任意一个公众号所有文章并转换为 PDF 或者 html 或者全部文章的阅读、点赞数据。

如果觉得本文有帮助,可以分享给朋友哈。


阅读原文,是我做的一个网站,大家有兴趣可以看看。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存