查看原文
其他

如何优雅地划重点?只需一张词云图

2016-07-21 魏楚楚 数洞社媒
导读

在大数据时代,词云图还远远达不到文本挖掘的高度。但是,如何在最短的时间内建立对文本的理性分析?对于简单的划重点任务,一张词云图就能帮你搞定。

作者 | 魏楚楚

编辑 | 东东酱

可视化与文本挖掘的需要,使得中文文本处理尤为重要。各大媒体、朋友圈不乏这样简洁漂亮的词云图,甚至是政府工作报告都能用这样的高频词汇图来解读。


以政府工作报告为语料文本,越高频的词汇可视化体现越大,这张图不难看出,发展经济改革社会建设是李克强总理提及率最高的词汇,一般而言,提及率越高也就越重要。

有如神助的词云图,究竟是怎么做出来的?我们如何才能优雅地使用词云图? 

么是词云图?

词云概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。词云图是指对网络文本中高频关键词予以视觉上的突出,形成关键词云层关键词渲染,从而过滤掉大量的文本信息,使阅读者只要一眼扫过就可以领略文本的主旨。


图片来源: 

一眼就能get到文本要点有木有?!从此再看到繁冗复杂的语料,我们也不必“葛优躺”了  T_T


 
图片来源:

不仅能看到要点,还能根据我们的喜好调整图案和颜色,个性化定制词云图。譬如一言不合就把用男神女神的轮廓来制作词云分析:


图片来源:

个性化定制的词云图具有更强的视觉冲击力,小伙伴们如果将词云图放入presentation ,在保证我们想传达的信息准确的前提下,词云图颜值更高往往更能加印象分。

何制作词云图?

民间流传最广的词云制作工具当然非Tagxedo莫属,优秀的分词处理、优美的个性可视化,足以让你优雅地划重点。

➤ Step 1:进入Tagxedo主界面: 

➤ Step 2:选择Create选项,输入语料进行分词处理和分析

➤ Step 3:调参,个性化定制layout,shape, theme等,直到得到心怡的词云图

➤ Step 4:save成JPG格式的图片

tagxedo默认生成的词云图是:

是不是简单又酷炫?😏

除了Tagxedo,还有什么好用的词云图工具呢?笔者吐血推荐以下几个私藏词云图制作工具,拿走不谢:

✤ 1.HTML5 word cloud:

(中英文兼可以,词频数量的多少与词云中词语画面大小的可视化对比比较明显。)

✤ 2.agul word cloud:

(比较适合英文类词云图制作,使用Google、Facebook或Twitter账户登陆。)

✤ 3.图悦:

(简单易操作的在线词云图制作工具,比较适合中文文本,用户可根据导出的excel表查看文本词频。)

✤ 4.Vocab-Grabber:

(适合英文文本,用户能在文本中找到最有用的词汇,工具会展示如何在上下文使用这些词语)

✤ 5.Blue View: 

(蓝色光标智能营销平台,词云工具为其核心产品之一,和上述工具不同的是,其为任务型制作工具,不是即时呈现,但是能够人工选择和添加关键词词频。)

阶的词云图

形式大于内容,是初尝词云图新鲜感后的网友最大印象。看看维密的词云图,这样的分词效果至少我是不太满意的。

11月微博话题#维多利亚的秘密#相关微博词云图

如何才能做出既能传达关键信息,也能简洁干净的词云图呢?笔者推荐以下两种办法:

❶ 使用蓝色光标词云工具Blue View:   进行人工筛选和添加高频词汇。

❷ 用Python写一段代码进行分词(导入大名鼎鼎的万能的jieba包)并使用词典过滤掉无意义词汇(如:的、你、可以……)进行统计词频后用PPT或者Keynote制作词云图。

譬如我想知道王思聪的所有微博的词云图,当我用spider抓取到王思聪发布的所有新浪微博,使用python进行分词处理,得到统计词频,然后根据词频来决定词汇的大小,使用keynote或者ppt制作轮廓为$的词云图。

那么既然很多词云制作工具都能满足统计给定语料的词频能力,为什么我们还要费力去用python呢?

差异就在分词处理能力和词典过滤能力,python可以去掉无意义词汇,最终呈现最有价值的信息。 

噢,

小伙们跟我念:

Python大法好。

 好了,以上就是吐血整理的词云攻略,小伙伴们可以试下,咱们也能优雅地划重点啦~

封面图来源:money.163.com

推荐阅读:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存