查看原文
其他

基于R软件对qq消息可视化给分析的实现

2017-05-29 cloudinsea R语言中文社区

cloudinsea,R语言中文社区专栏作者

简书:http://www.jianshu.com/u/26f30aca5431


跑团词云.png


你没有看错,其实这是我们跑团推出的第一篇技术文章
其实有着想法很久了,碍于各种事情一拖再拖,现在也是实现了几个小功能,但是我想最后的动力就是先分享出来,看到大家的反响之后再做新的东西出来。如果有感兴趣的同学,我们可以一起去做更多有意思的事情~~~
下面进入正题

——基于R软件的qqmining包对qq消息可视化给分析的实现

R软件的安装

R(https://www.r-project.org/)
官网如上,剩下的需要你自己去百度探索了

R Package的安装

这一步是基于你已经安装好了R软件,开始安装R Package, 这里就不由得感叹下程序员的厉害,r+package的模式,使得r成为轻量好用的统计分析软件,用什么包下载什么包,很是愉快。
本文需要的r package 可以从下面的推文下载:
仅用四行代码就可以挖掘你的QQ聊天记录(仅用四行代码就可以挖掘你的QQ聊天记录
rJava,Rwordseg,dplyr,wordcloud2,ggplot2

基于java环境

因为对句子的分析是建立在对词的分析上的,所以我们需要对句子做分词,这个工作国内外已经很成熟了,不同的软件有不同的方式,我们这里采用的是Rwordseg,是基于java环境的,所以下面简单介绍下windows10安装java环境的步骤

认识java

安装java指南(https://www.shiyanlou.com/courses/18/labs/94/document)
根据上面的信息,全程配置java环境大概20分钟
里面有个坑,配置好了javac命令无效,其实是配置好了的,只需要关闭dos或者重启下机器就好了~~~~

关于Rwordseg以及rJava的安装

关于Rwordseg以及rJava的安装http://bbs.pinggu.org/thread-3167152-1-1.html

Rwordseg、Rweibo、tm的安装

参考网站:[Rwordseg、Rweibo、tm的安装] (http://www.dataguru.cn/thread-482875-1-1.html)

推荐网址:R-Forge(https://r-forge.r-project.org/R/?group_id=1054),安装很多官网没有的包

开始qqmining

topic

下面,环境都配置好了,我们进入正题,开始分析我们的跑群聊天消息
时间大概只有3-5月的聊天记录,可怕的是,居然有19912条记录


聊天条数.png


平均每人100条发言,充分说明,我们的跑步社团是很活跃的,下面我们具体来看下同学们讨论的有哪些topic
没删除停词的时候,效果不是很理想(频率最高的是‘的’‘我们’之类的==)
删掉停词后,发【图片】,【表情】是同学们发的最多的,但是这个对于topic没有什么意义,当然也可以理解为现在是图文化的主流,但是图片信息不能观察到topic,所以我们将图片和表情加入到停词后,就得到了最后的词云
取前150出现的次词频当当当~~~~


top150词云.png


取前50%的词频:


top50%词云.png


图中是有彩蛋的,分词分的还不错,可以找的很多熟悉的名字哦
所以努力水群,下次让我们看到你

time


time_freq.png


看时间,主要水群的时间是晚上下课之后,而且按照我们以往打卡的经验,跑虫们更喜欢夜跑,所以有问题找大佬,记得晚上发消息,大佬会看到的几率更大~

后续

后续还会增加:

1.每周聊天频率分布
2.十大活跃id
3.观察每月的聊天峰值
4.连续对话的次数(以三十分钟为间隔,可以很好地体现出一个社群的活跃程度)
5.社交网络图
6.找到配对(邪恶脸)

我有话说:跑团里的每个人都可以用自己的专业把自己和跑步的故事讲出来,那将是我们的故事

参考:
R语言做文本挖掘 (http://f.dataguru.cn/thread-493366-1-1.html)
使用 R 语言挖掘 QQ 群聊天记录(使用 R 语言挖掘 QQ 群聊天记录




微信回复关键字即可学习

回复 R              R语言快速入门免费视频 
回复 统计          统计方法及其在R中的实现
回复 用户画像   民生银行客户画像搭建与应用 
回复 大数据      大数据系列免费视频教程
回复 可视化      利用R语言做数据可视化
回复 数据挖掘   数据挖掘算法原理解释与应用
回复 机器学习   R&Python机器学习入门 


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存