查看原文
其他

2022新年快乐!迟来的2021年总结,R语言分析公众号文章阅读

走天涯徐小洋 走天涯徐小洋地理数据科学 2022-07-17

2022新年快乐!迟来的2021年总结,R语言分析公众号文章阅读

最近实在是太忙了,都没怎么更新原创文章。

2021公众号总结

我也来看看这一年公众号的运营成果。

用户关注情况

从2021年1月1日的10471个用户,到2021年12月31日我写这个文章的时候的28671的关注用户,平均每天增长50个用户。

本来想用R统计一下,结果发现公众号后台导出的EXCEL有问题,直接打开会报错,没办法,EXCEL里面手动粘贴一下,结果如下:

累计用户增长

从性别看,男生较多,女生略少。

男女比例

从年龄看,绝大多数粉丝年龄低于35岁,也有一部分忘年交。

青年居多

从地区分布看,北京高居榜首,其次广东、江苏、湖北,陕西。粉丝已经遍布全国,有133个香港同胞,11个澳门同胞,还有4个台湾同胞。

北京高居榜首

感谢近5K铁粉的支持,还希望大家能给我加个星标,第一时间收到我的推送,如果可以的话还请多多转发、分享支持一下!

常读用户占比18%

单篇阅读

接下来分析一下单篇阅读量

library(tidyverse)
library(readxl)
userdata = list.files(path = "./Single/", pattern = ".xls$")
userdir = paste0("./Single/", userdata)

#分析阅读量
user1 = read_excel(path = userdir[1], sheet = 1, col_names = T)
for (i in 2:length(userdir)) {
  userdataNew = read_excel(path = userdir[i], sheet = 1, col_names = T)
  user1 = rbind(user1, userdataNew)
}

user2 = user1%>%
  mutate_at(.vars = vars(总阅读人数, 总阅读次数, 总分享次数), .fun = as.numeric)%>%
  mutate(发表时间 = as.Date(发表时间, format = '%Y%m%d'))

# 查看阅读次数和人数分布
summary(user2$总阅读次数)
summary(user2$总阅读人数)

从总阅读次数来看,还是数据分享类文章阅读量比较高。

阅读次数排名靠前的以数据分享类居多

平均阅读实在是有些可怜,中位数更惨

从阅读后关注来看,更是为了数据,除了《写在公众号2万粉——初心·开源·技术扩散》是一篇杂谈性质的文章,一个教程类文章都没有上榜

都是数据

再来一个阅读前20的公众号标题词云,我们来看一下:

阅读量前20的文章标题词云

果然,数据占据了最显著的位置,力压所有的关键词,后面给出词云图绘制代码:

#总阅读前20的公众号标题词云
user3 = user2[order(user2$总阅读次数, decreasing = T),]
readtoptitle = user3[1:20, 1]

library(jiebaR)
library(wordcloud2)
library(tm)
library(tmcn)
library(ggwordcloud)
#分词
mixseg = worker("mix")
a= segment(readtoptitle$内容标题, mixseg)

stopwords = as.vector(read.table("stopwords.txt", encoding = "UTF-8")[,1])
`%w/o%` <- function (x, y){
  x[!x %in% y]
}

a2=a %w/o% stopwords
JCfreq = table(a2)
JCfreq2 = sort(JCfreq, decreasing = T)
wordcloud2(JCfreq2, shape = "circle")

我再看看阅读后关注人数前20的标题:

阅读后关注,更是数据

既然大家这么喜欢数据,最后再套路分享一下吧,关注公众号,回复“公众号数据分析”获取本文的数据和代码。

大家对于2022年有啥期待,或者希望我给大家带来哪些方面的文章,也欢迎留言讨论,还请大家2022年,继续支持走天涯徐小洋地理数据科学,谢谢大家!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存