中超大战来袭!一文看懂评论里的中超风云
作者介绍:blmoistawinde, 西南某高校学森一枚,喜欢有意思的数据挖掘分析。希望给世界带来些清新空气~
个人博客地址:https://blog.csdn.net/blmoistawinde。
本文首发于:https://blog.csdn.net/blmoistawinde/article/details/83443196
体坛,就是现代的江湖。耀眼的球星如同盖世大侠,杰出的队伍仿佛骁勇铁军。他们的风云故事在人们之间口口相传,也在网络的世界里广泛传播。
本文就旨在利用评论数据分析搜集中超之奇闻轶事,且看这个故事被人们如何传颂。
本文使用的评论数据爬取自直播吧APP里中超比赛的公开可见的赛后评论(截至26轮,共107491条),也从网络上搜集了球队、球员、足球术语等信息形成一个知识库以进行专门的匹配。
下面,就让我们一览评论数据里的中超风云:
重返现场,几多传说?
用每轮所有比赛的评论数总和作为该轮中超的热度,我们就可以得到中超开赛至今,各轮比赛的热度变化。
可以看到,首轮中超吸引了最多的眼球,这一方面是因为揭幕战总是会吸引更多的注意,另一方面也是因为首轮便出现了几场经典战役。例如上海上港以8:0屠杀了大连一方,宣誓了本赛季上港的高调崛起,也让大连这只重金打造的新军一度成为人们的笑柄。另一场则是荡气回肠的9球广州德比,让球迷大呼过瘾。
此后中超渐渐归于平淡,直至第九轮有一次热度的反弹,这可能是因为本轮比赛中,大连一方以3:0战胜恒大,这在当时绝对是惊天冷门,因为这可是大连的联赛首胜,然而从此大连开始大杀“四方”,将各路豪强(联赛前4)一一斩于马下。
人们的评论的热情在少数几轮发生了骤降,这可能是因为这几轮多在工作日展开。中超比赛一般都在周末进行,是人们周末休闲生活的极佳消遣,然而还是有几轮比赛安排在了工作日,于是。根据数据,超过75%的评论都会在完赛后三小时内被发表,那么工作日的比赛或许就会因为观看直播的人数变少,人们即使会在事后关注,也失去了评论的热情。例如本次数据中的最低谷,第23轮,就在国庆前两天的调休工作日打响,这个时候或许大家都在忙碌着最后的工作,或者准备着国庆的游玩计划吧。
回顾往事,尽管一些片段可能还在记忆中留存,然而总有一些情节已经模糊不清。不过接下来,我将利用主题模型[1]的技术,从评论中自动抽出比赛中的鲜明主题,带领大家重返现场,再度感受当时的心路历程。
这里,仅以首轮富力5-4战胜恒大的这场广州德比为例,下面是主题模型[1]得到的本场10大主题的前10名的关键词(每列为同一个主题的对应关键词):
从各个主题的关键词中能够看到其各不相同的侧重点,为我们全方位地勾画出了本场比赛的舆论蓝图。
比如第一个主题0,球迷们在第一轮已经操心起了恒大主帅卡纳瓦罗的下课问题。主题5是一个相当应景的段子,正值元宵节的本场比赛也仿佛疯狂地包起了“汤圆”。主题9是首轮比赛人们对当时初步执行的U23新政的热烈讨论,在政策执行良久且常有变化的如今来看,大家应当又会别有感想。本场被打成筛子的恒大的替补门将刘殿座“一战成名”,迅速吸引了广泛的关注[tu cao](在多个主题中出现),还得到了“漏电座”,“摄政王”等“雅号”,在主力门将曾诚伤愈后便极少再被起用。另外,我还注意到了一个奇怪的主题4,其中居然混入了一些欧洲球队和篮球队?翻阅具体评论,原来其中最典型的一条评论是这样写的:“我是阿森纳,恒大,马刺球迷,这日子没法过了“,看来直播吧的球迷们很多涉猎都相当广泛,只是这位球迷的运气实在是差了点~
群星璀璨,谁最耀眼?
今年中超,谁是最受人们关注的球员?谁又是广受赞誉的好球员?不妨先想想自己心中的答案,然后,我将用评论中统计得到的热度和情感度[2](正数表示正面评价,越高代表评价越积极)来揭开谜底:
备受关注的人员多是来自各支豪门的球星(还有教练卡纳瓦罗),从情感度上也能看到各位球迷心中对他们各有评价,例如半程加盟恒大的塔利斯卡以及其优异的表现赢得了球迷的喜爱,被封“塔神”,鲁能主力门将王大雷作为鲁能的门神,因经验丰富和“大心脏”而受到赞誉。不过,无可置疑的当今中国第一前锋,本赛季射手王有利争夺者——武磊,以绝对优势排在了热议榜的第一名,情感度也比较正面。
本赛季的武磊热门到了什么程度呢?有球迷说:“吹武磊不用走程序,武磊牛!“不过即使是武磊也不是尽善尽美的,我又从各轮比赛的评论中抽出了更多提及武磊的热门评论,其中既有赞誉,也有质疑。让我们从评论中全方面立体的回顾武磊本赛季的经典表现:
第1轮,上港8-0大连:“扎哈维已邀请奥斯卡、武磊加入中超首轮帽子戏法群。“
第3轮,上港5-2富力:“富力教练:谁TM告诉我,武磊单刀随便放的“(为自己的单刀正名)
第8轮,亚泰2-1上港:“武磊一个明显的手球,VR(编者注:应为VAR,视频助理裁判)判罚后居然对裁判暴怒,这永远不是一个成熟球员该有的心里素质,难成大器!“
第15轮,上港4-1权健:“武磊:我现在满脑子都在想着狼队,哪还有心情踢点球啊……[滑稽] “(错失点球)
第25轮,上港5-0贵州:“支持武磊拿本赛季中超金靴的左边!!!!!!“(直截了当的号召,就收获了3523个点赞,超过了很多场比赛的总评论数)。
毋庸置疑,武磊在本赛季创造了他个人的又一高峰,也祝愿他能够勇夺球王,未来能够在中国和世界的舞台上发出更耀眼的光芒!
群雄逐鹿,鹿死谁手?
当今中超,最炙手可热的球队是哪一支?这个问题就不像球员一样那么容易回答,或许每个球队的球迷都会有自己心中的看法。
为了回答这个问题,我需要从每场比赛的数据中获得对应球队的关注度,然而比赛总是两队同时参与的,如何衡量单队的受关注程度?我的方法是,计算一只球队在其所有出战场次中的评论数总和,这样就算单场比赛的热度会受到另一只球队的影响,在综合了多场比赛后,真正的豪门还是会显示出它强大的吸引力。
接下来,让热度数据给我们一个客观的答案吧。
在球迷的版图上,“七冠王“恒大以绝对的优势占据第一,传统豪强北京国安和山东鲁能也有诸多簇拥,联赛新锐上海上港,以及本赛季声势颇大的大连一方也有着诸多关注度。而其余本赛季战绩不佳的球队,在关注度上则略显黯淡。
除了关注球队的热度,球迷对球队的褒贬评价也十分重要。不过球迷们对球队的评价常常会随着球队的表现而起伏波动,即使是对于当今联赛最出色的两支球队——上港和恒大也是一样,让我们来看看他们的情感度变化趋势。
有趣的是,这两只争冠队伍上的劲敌,在评价上常常是此起彼伏,往往在一方高奏凯歌时,另一方却会遭遇状况。不过两队目前的唯一一次交锋中,球迷对两队的评价比较均衡,因为这场比赛双方都有着精彩高水平的发挥。最近的一轮(26轮)中,恒大6:1大胜北京人和,而上港则被苏宁0:0逼平,双方的分差来到2分,恒大又看到了夺冠的希望,球迷们也开始情绪激昂。
接下来,让我们看看全体球队的情感度表现,在一图上比较和纵览整个赛季各队舆论趋势。为了防止过多的折线图互相纠缠而难以看清,这里我采用了热力图的方式呈现。越偏向橙红代表评价越高,而越偏向蓝紫则代表评价越低。
上图就仿佛球迷为球队吹响的冲锋号角,反映了球队高昂或低落的舆论士气,让我们看到看到各支球队评价的起伏变化。
首轮5-4战胜恒大的富力曾经让人惊艳,却在后来渐渐陷入低迷。
赛季半程(15轮左右),北京国安大胜华夏登顶,鲁能也有不错战绩,此时的红色显示出他们的气势如虹。却在赛季末段开始掉队。
贵州、重庆都在本赛季表现低迷,那成片的紫色仿佛病人的脸色。
上港和恒大都曾经历诸多坎坷,却在赛季末段勇往直前,如今已是冠军的最有力争夺者。谁那鲜红的号角能够响彻始终?让我们拭目以待。
评论即是江湖,众人自有心中的传奇。
今年中超的风云故事,还将在人们的言论中继续流传……
技术注释:
[1] 由于评论篇幅一般较短,这里使用了更适合短文本聚类的GSDMM模型,主题中的关键词由各主题下各个词语按其importance排序得到。考虑到情感度的计算,保留了”!?”这类的标点符号。【Yin, Jianhua and Jianyong Wang. “A dirichlet multinomial mixture model-based approach for short text clustering.” KDD (2014).】
[2] 为了衡量评论的褒贬情感度,使用了SO-PMI方法建立了情感词典,为每个常见词赋予了一个情感值,评论中所有词语的情感值平均决定了该评论的估计情感值。
◆ ◆ ◆ ◆ ◆
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以通过扫描下方管理员二维码,让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
● 纵观30年5000多部国产电视剧,豆瓣评分最低的演员原来是……
● Python or Java?大数据解读学什么语言最赚钱