基于R软件对qq消息可视化给分析的实现
cloudinsea,R语言中文社区专栏作者
简书:http://www.jianshu.com/u/26f30aca5431
跑团词云.png
你没有看错,其实这是我们跑团推出的第一篇技术文章
其实有着想法很久了,碍于各种事情一拖再拖,现在也是实现了几个小功能,但是我想最后的动力就是先分享出来,看到大家的反响之后再做新的东西出来。如果有感兴趣的同学,我们可以一起去做更多有意思的事情~~~
下面进入正题
——基于R软件的qqmining包对qq消息可视化给分析的实现
R软件的安装
R(https://www.r-project.org/)
官网如上,剩下的需要你自己去百度探索了
R Package的安装
这一步是基于你已经安装好了R软件,开始安装R Package, 这里就不由得感叹下程序员的厉害,r+package的模式,使得r成为轻量好用的统计分析软件,用什么包下载什么包,很是愉快。
本文需要的r package 可以从下面的推文下载:
仅用四行代码就可以挖掘你的QQ聊天记录(仅用四行代码就可以挖掘你的QQ聊天记录)
rJava,Rwordseg,dplyr,wordcloud2,ggplot2
基于java环境
因为对句子的分析是建立在对词的分析上的,所以我们需要对句子做分词,这个工作国内外已经很成熟了,不同的软件有不同的方式,我们这里采用的是Rwordseg,是基于java环境的,所以下面简单介绍下windows10安装java环境的步骤
认识java
安装java指南(https://www.shiyanlou.com/courses/18/labs/94/document)
根据上面的信息,全程配置java环境大概20分钟
里面有个坑,配置好了javac命令无效,其实是配置好了的,只需要关闭dos或者重启下机器就好了~~~~
关于Rwordseg以及rJava的安装
关于Rwordseg以及rJava的安装(http://bbs.pinggu.org/thread-3167152-1-1.html)
Rwordseg、Rweibo、tm的安装
参考网站:[Rwordseg、Rweibo、tm的安装] (http://www.dataguru.cn/thread-482875-1-1.html)
推荐网址:R-Forge(https://r-forge.r-project.org/R/?group_id=1054),安装很多官网没有的包
开始qqmining
topic
下面,环境都配置好了,我们进入正题,开始分析我们的跑群聊天消息
时间大概只有3-5月的聊天记录,可怕的是,居然有19912条记录
聊天条数.png
平均每人100条发言,充分说明,我们的跑步社团是很活跃的,下面我们具体来看下同学们讨论的有哪些topic
没删除停词的时候,效果不是很理想(频率最高的是‘的’‘我们’之类的==)
删掉停词后,发【图片】,【表情】是同学们发的最多的,但是这个对于topic没有什么意义,当然也可以理解为现在是图文化的主流,但是图片信息不能观察到topic,所以我们将图片和表情加入到停词后,就得到了最后的词云
取前150出现的次词频当当当~~~~
top150词云.png
取前50%的词频:
top50%词云.png
图中是有彩蛋的,分词分的还不错,可以找的很多熟悉的名字哦
所以努力水群,下次让我们看到你
time
time_freq.png
看时间,主要水群的时间是晚上下课之后,而且按照我们以往打卡的经验,跑虫们更喜欢夜跑,所以有问题找大佬,记得晚上发消息,大佬会看到的几率更大~
后续
后续还会增加:
1.每周聊天频率分布
2.十大活跃id
3.观察每月的聊天峰值
4.连续对话的次数(以三十分钟为间隔,可以很好地体现出一个社群的活跃程度)
5.社交网络图
6.找到配对(邪恶脸)
我有话说:跑团里的每个人都可以用自己的专业把自己和跑步的故事讲出来,那将是我们的故事
参考:
R语言做文本挖掘 (http://f.dataguru.cn/thread-493366-1-1.html)
使用 R 语言挖掘 QQ 群聊天记录(使用 R 语言挖掘 QQ 群聊天记录)
微信回复关键字即可学习
回复 R R语言快速入门免费视频
回复 统计 统计方法及其在R中的实现
回复 用户画像 民生银行客户画像搭建与应用
回复 大数据 大数据系列免费视频教程
回复 可视化 利用R语言做数据可视化
回复 数据挖掘 数据挖掘算法原理解释与应用
回复 机器学习 R&Python机器学习入门