Social Listening与文本挖掘

其他

【数据挖掘实操】用文本挖掘剖析近5万首《全唐诗》

温馨提示:图片显示毛糙和不清楚,是分辨率过高的缘故,点击图片,即可看到高清大图,另:伴着下方天后的天籁之音---《清平调》,效果会更佳!楔子近些年来,弘扬中华传统文化的现象级综艺节目不断涌现,如《中国汉字听写大会》、《中国成语大会》、《中国谜语大会》、《中国诗词大会》等,其背后的社会成因,在于人们对中国文化中最精致文字的膜拜心理,虽然浸淫于层出不穷的网络语汇,时时面临“语言荒漠”的窘境,仍心向往之。上述节目中,笔者最感兴趣的还是《中国诗词大会》---通过对诗词知识的比拼及赏析,带动全民重温那些曾经学过的古诗词,分享诗词之美,感受诗词之趣,从古人的智慧和情怀中汲取营养,涵养心灵。由于在新浪微舆情从事的是语义分析产品方面的工作,平时用到很多文本挖掘的方法。所以,笔者想从文本(数据)挖掘的角度去“探索”全唐诗,挑战一些不同场景下(现代汉语和古汉语)文本处理和分析的异同点,锤炼自己的分析技能;但更想做的是,结合数据之美和诗歌之雅,用跨界思维去发现一些有趣的东西。在这里,笔者分析的语料是《全唐诗》,它编校于清康熙四十四年(1705年),得诗四万八千九百余首。接下来,笔者将使用多种文本挖掘方法,来分析《全唐诗》。以下是本文的行文脉络:
其他

【万字干货】以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程

上图中,每个节点代表一个人物,线条粗细代表品牌与品牌之间的强弱链接关系,相同颜色的节点表示它们(在某种条件下)同属于一类。节点及字体的大小表示品牌在网络中的影响力大小,也就是“Betweenness
其他

【干货】作为一个合格的“增长黑客”,你还得重视外部数据的分析!

在这种情况下,“数据分析”与自身的关联度不是1了,因为它可能在一段话里出现两次。后面关联度较高的词汇依次是“统计分析”、“数据挖掘”、“BI”、“Excel”等,从其中的几个数据工具(Growing
其他

【干货】用大数据文本挖掘来看“共享单车”的行业现状及走势

Index,潜在语义索引)的方法去查找文本相似度最高的20个语句,大致上比较文本向量化后的余弦夹角值(介于0-1之间),值越大,就代表相似度越高。详细原理,小伙伴们可以自行Google脑补。
其他

用数据全方位解读《欢乐颂2》

将经预处理得到的5000条典型评论进行文本聚类,每一个文本聚类“簇群”都会有一个中心语句,也就是该“簇群”的典型意见,所以这种文本处理也叫做“典型意见挖掘”,用来从海量的文本里发掘主要的观点或意见。
其他

【干货】如何利用Social Listening从社会化媒体中“提炼”有价值的信息?

由于社会化聆听的数据源于社会化媒体,所以这些数据信息有语义和关系双重属性,所以更加能从中发现基于社会化媒体中个体不经意见流露的真实行迹,所以对于社会化媒体来说,它的样本对象不是个体,而是行为本身。
其他

用(大)数据全方位解读电视剧《大秦帝国之崛起》

该剧的意义:“文化”、“历史”、“陕西”、“国家”、“文明”、“秦国”、“正剧”、“大秦”,(这类词汇能在一定程度上代表该剧想要表达的价值观---居今之世,志古之道,所以自镜,拒绝戏说,尊史重实)
其他

10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”

既然知道了事件热度的峰值节点出现在哪个时间点,这时我们肯定想了解这些时间区间内事件关注度骤然上升的原因。还好,紧接着“热度趋势”,下方给出了其中最突出的峰值节点出现的原因,以重点信息聚类的方式呈现。
其他

【数据运营】如何科学的用数据分析搞定微信公众号的定位和内容初始化

经定量校准和定性校准后,需要重新绘制上述“目标人群的群体画像及其阅读偏好表”,根据实际情况调整公众号的定位及内容规划,与前面谈及的定位和内容规划不同,定位校准是基于公众号自身的数据,准确度会更高。
其他

当数据分析遭遇心理动力学:用户深层次的情感需求浮出水面(万字长文,附实例分析)

相反,当一个人的行为主要由“能力/地位”支配时,他会由内而外的确认自己的成功,追求内在的从容和坚定,追求外化的绫罗绸缎和锦衣玉食。同时,ta也渴望得到他人的赞美,希望在社会中有属于自己的一席之地。
其他

【数据运营】数据分析中,文本分析远比数值型分析重要!(下)

大数据文本分析中的“典型意见”是指,将用户的意见进行单据级别的语义聚合,将内涵相近但表述有差异的意见/看法聚合在一起,抽取出其中典型的用户反馈/意见,在短时间内迅速梳理出用户对于产品所关注的话题。
其他

【数据运营】数据分析中,文本分析远比数值型分析重要!(上)

本文所提及的非结构性数据特指文本数据,这里包括且不限于社交网络(微博、微信、QQ和脉脉等)、客户反馈(客户抱怨邮件、社交媒体网站的帖子、开放式问卷调查、消费者点评)新闻媒体、销售人员的拜访记录等。
其他

【数据运营】关于G20文艺晚会的一条微博,透露出了许多微博传播的规律...

其中,“人民日报”--->“钱江晚报”,“人民日报”--->“羊城晚报”,“人民日报”--->“军报记者”这3条传播路径最为重要,它们引发的传播量大于其他6个媒体,事实上形成了另外的“传播轴心”。
其他

【新媒体语义分析】关于“洪荒少女事件”的大数据舆情分析

此外,因为舆论监测是一个动态的过程,我们还需要时时注意舆论的走向和所处的生命周期节点,适时关注主要KOL的言论,第一时间找到受众关注的信息"G"点,以此作指导生产出阅读量高、传播力强的内容来。
其他

【运营实操】如何在15分钟内学会"高大上"的数据地图分析方法?

值得注意的是,可以随时滑动鼠标,对地图的比例进行缩放,原则是覆盖整个目标区域(这里是杨浦区)、包含邻近地区(这个下面会提到),以及尽可能的显示该区域的重点坐标(如交通枢纽、商业中心及重要社区)。
其他

【运营干货】寻找创业方向时,如何零成本用大数据获悉市场行情?

(3)现象级事件。网络时代,爆红的现象越来越频繁,每年至少有个几遭:有凤姐、叶良辰这样的草根英雄,也有各种正规军的IP内容,如琅琊榜、欢乐颂,友谊的小船说翻就翻等。