查看原文
其他

【原创】揭秘老九门真正主角,看我利器R语言

2016-11-15 张聪 R语言中文社区

本人最近看了老九门,两大男主角都是颜值担当,我的朋友中有喜欢佛爷(陈伟霆),有的喜欢二爷(张艺兴)。从我的朋友中发现更多人倾向于张艺兴扮演的二爷,他们认为二爷(张艺兴)是男1号。但是从出场次数和演员表排名佛爷(陈伟霆)都在二爷(张艺兴)之前。我一直认为佛爷(陈伟霆)是主演,也让我对这二位谁是主角产生的好奇,于是决定用R语言进行文本统计一下,证明谁是男1,谁是男2。目前关于R文本挖掘的方法已经有很多了,这里再简单介绍一下。进而论述结果。代码如下:

######首先,加载所需要的工具包

######注意rJava需要jdk环境

##########接下来要自定义加载词,因为二月红并不是传统意义的词语,如果不单独加载会被分成二月,红。两个词。

##########加载方法有很多,本人选择最简单的加载单个词语方法insertWords,deleteWords为删除该词

####insertWords("二月红")

####deleteWords("二月红")

 #接下来就是正常的统计词频,小说数据在附件

#####从统计结果,可以看出佛爷出现的次数的确大于二月红

##将统计结果在画出词云展现一下,目前词云的形状可视化多种多样,本人用最简单的方式进行展现

#画图


从可视化展现看出佛爷字体大小大于二月红。

因此,从原著来讲,佛爷为男1,二月红为男2。

温馨提示:需要代码的可以留下邮箱喔!

如果期望对 R 语言进行更深入地学习,了解更多的数据挖掘知识,请关注天善独家的《 R 语言十三式》课程,讲师是本文作者谢佳标,本课程团购活动现正在火热进行中,"阅读原文"即可参团。


【上期热门】 

RStudio IDE,那些你容易忽视的技巧

案例 | 利用R语言对玩家付费行为进行深度挖掘


【推荐文章】

案例 | 通过R对照片进行情绪分析

案例 | 基于R语言钻石价格预测

资讯 | RStudio 1.0版本正式发布

中国R语言大会嘉宾教你shiny包应该这么用!

利用R语言爬取视频网站数据

用简单的文本处理方法优化我们的读书体验

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存