查看原文
其他

上万条数据撕开微博热搜的真相!

徐麟 数据森麟 2022-07-25



作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)


吃瓜前言


关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜,各种类型的瓜应有尽有,只有你想不到的,没有你吃不到的。微博热搜榜更是各路明星的“必争之地”,能够上热搜也是代表了其知名度,“包月热搜套餐”,“买热搜”是否存在迄今也是一个未解之谜


除了吃瓜群众,新浪微博也聚集着一群被整个互联网圈所同情的一群苦逼程序员,每当有明星放出新闻,特别是结婚、离婚、分手、恋爱这类婚恋题材,新浪微博程序员都会严阵以待,此时的服务器会因为吃瓜群众的大量涌入而变得脆弱起来,随时有崩溃的风险,下图就是一张此前广为流传的程序员在自己婚礼处理服务器崩溃的经典图片:




我们此次通过爬取2019年2W+条热搜数据,包括内容以及搜索指数,为大家揭开微博热搜2019的诸多秘密,一起利用数据“硬核吃瓜”,包括:2019微博热搜最大的瓜,微博程序员集体加班的日子,微博热搜的常客,热搜里的2019互联网……


瓜源获取


我们此次并没有直接去爬取微博的原始数据,而是从一个专门记录微博热搜历史数据的网站获取,网站界面如下:



通过网站的数据接口,我们获取到了今天1月1日至今的2W多条数据,爬取代码如下:


resou = pd.DataFrame(columns=['date','title','searchCount','rank'])
resou_date = getBetweenDay('2019/01/01','2019/07/12')
for i in resou_date:
    print(i)
    url= 'https://www.enlightent.cn/research/top/getWeiboHotSearchDayAggs.do?date={}'.format(str(i))
    html = requests.get(url=url, cookies=cookie, headers=header).content
    data = json.loads(html.decode('utf-8'))
    for j in range(100):
        resou = resou.append({'date':i,'title':data[j]['keyword'],
        'searchCount':data[j]['searchCount'],'rank':j+1},ignore_index=True)


最终获取到的吃瓜数据如下:



硬核吃瓜


有了前面的瓜源获取过程,我们获取到了2W+吃瓜数据,下面就可以开始利用这些数据愉快地开始我们的吃瓜之旅


第一瓜:2019微博热搜最火事件


说到吃瓜,大家首先关注的一定是那些最大的瓜,要吃就吃最大的瓜也是广大吃瓜群众所遵从的基本原则,我们通过对比热搜数据的搜索指数,选取出了15个最大的瓜,数据如下:



看来最大的瓜都是婚恋题材,排名前四的瓜涵盖了结婚、离婚、分手这些广大吃瓜群众所最为关心的内容,并且有了明星加成,结出这些巨型瓜也就不足为奇,大家可以看到排名第14的热搜“今天到底是什么日子”可能会好奇,为何这种标题也会有那么高的搜索量,想要知道这个问题的答案,就请继续去品尝下面的瓜


第二瓜:2019最让微博程序员抓狂的日子


刚才的瓜中,我们留下了一个悬念,为何“今天到底是什么日子”这种看似没有任何营养的内容,都会有那么高的搜索指数。为了回答这个问题,我们统计了2019年每天的TOP100热搜话题平均指数,并绘制了日历热度图:



可以看到6月27日的指数远高于其他天数,而且基本上是其他时间的两到三倍,这一天就是“今天到底是什么日子”这个话题的诞生之日,并且这一天微博服务器毫无疑问地“应声倒地”,我想这一定是让微博程序员怀疑人生的日子


下面我们就来具体看看,这一天到底发生了些什么:



看到这份榜单,我们仿佛看到了程序员们6月27日的绝望。宋慧乔&宋仲基离婚这个巨型瓜的出现,程序员们还可以用自己的信念支撑着服务器不要崩溃,然而正当程序员们以为稳操胜券的时候,范冰冰&李晨分手这个更加巨大的瓜出现了,我想程序员们内心一定是这样的:



因为有了这两个巨型瓜的存在,使得“张若昀&唐艺昕”,“马思纯当司仪”,“杜江否认出轨”这种平时能够轻松hold住的瓜也产生了威力加成,进一步压垮程序员,就连平时低调的B站也请来了五月天,真可谓是“瓜团锦簇”的一天。我想“今天到底是什么日子”这条热搜的创造者很有可能就是新浪微博的程序员


第三瓜:2019最勤劳的瓜生产商


前面提到了6月27日是微博程序员最为抓狂的日子,那么又有那些生产商为广大吃瓜群众源源不断地创造吃瓜素材呢,我们也统计了相关数据,想必这些生产商也是广大程序员们最怕的人:




榜单中易烊千玺以80次的出现次数荣登榜首,也就是说平均每两天他就会为广大群众生产一次“吃瓜素材”,也是非常地勤劳,想到作者一个月一篇原创的节奏,默默留下了悔恨的泪水。周董也在榜单中以78次的数据位居次席,毕竟周董是一代人的青春记忆,大家也都在时刻关注着周董。


或许大家会认为榜单都被娱乐圈所霸占,没啥新意之时,东哥站了出来,成为荣登本榜单的唯一互联网人士,不过个人还是希望今后不要在榜单中再看到东哥的身影,毕竟老话说得好“no news is good news”。


第四瓜:那些专属热搜的词语


如同“****,是怎样的体验”这样的知乎体,“震惊!***”这样的uc体,热搜也有一些比较常出现,能代表热搜独特气质的词语,我们从中选取了一些比较有代表的词语并统计其出现次数



华为在榜单中出现了86次,也印证了大家在上半年对于华为的关注度,未来也希望有更多类似于“华为**系统上线”这样振奋人心的消息出现在热搜中。


同时在小编看来否认,道歉,心疼这三个词是非常有特色的热搜词语,毕竟很难在其他的地方会时不时就看“心疼**”这种标题,我们针对于这三个词语制作了相应的词云:


否认版

208次否认相关话题出现在了热搜榜单,足以说明在这个信息爆炸的时代有太多的事情难以去分辨真假,其中一些内容确实是虚造的,当事人也及时站出来进行否认。不过对于其他的一些事情,想必是“真亦假来假亦真”,需要大家自己去判断


道歉版

强烈建议广大读者收藏上图,特别是在被老板骂或者因为生产BUG而被同事怼的时候拿出来看一下,调节一下自己的心情。想到连菲利普亲王都要道歉,及时认个怂好像也没啥,毕竟你的工资卡里也没剩几个钱


心疼版

最后这个可以说是极具微博特色了,广大吃瓜群众可谓忧国忧民,心疼的对象从韩庚到吴谨言,张雨绮,就连梅西都心疼名单中,这体现出了吃瓜群众乐于助人的正确价值观


不过小编表示还是要先心疼一下自己,上面那些被心疼的人收入都是小编的上百倍甚至更多,还是先心疼一下自己的花呗比较现实


除此之外,微博热搜也十分热衷于关心明星是不是哭了以及是不是胖了这种话题,可谓“先天下之忧而忧,后天下之乐而乐”,满满的责任感



第五瓜:明星婚恋话题到底有多火


此前提到,排名靠前的内容大多都是明星婚恋题材的内容,比如**和**离婚,**和**结婚又离婚,或者**和**结婚又离婚又复婚……,我们就来看一下这些话题出现的次数



不出所料,广大吃瓜群众对于这类题材都有着非常高的好奇心,为别人的婚恋情况操碎了心,可以说是很努力了,想必未来的**婚恋上市公司的老总一定会在吃瓜群众中诞生,我们也来具体看看那些相关的话题。


结婚 VS 离婚



恋情VS分手

最后我们以一句话来结束这部分的吃瓜内容:“贵圈真乱”


第六瓜:2019热搜中的互联网专属瓜


前面说的那些大多都是娱乐圈的内容,作为互联网从业(banzhuan)人员,对于互联网的专属瓜品也有着强烈兴趣,我们从中选取了互联网圈为2019热搜所生产的瓜品:



出人意料的是TOP2居然都和B站有关,经过查证,这两条都发生在最让微博程序员抓狂,瓜团锦簇的6月27日(比较奇怪的是B站十周年应该是6月26日,但上榜时间确是27日),平时八成熟的瓜立刻熟透。相信互联网人看到这份榜单,也会回忆起很多上半年发生的事情,2019上半年的互联网也是热闹非凡。


吃瓜结语


今天的吃瓜之旅就到这里结束了,看来吃瓜也是门学问,微博热搜数据也是一个大的分析宝库,里面还有很多可以继续分析的点,等待大家去挖掘


公众号后台回复“热搜”可以获取本文相关代码


留言打卡第二季 DAY 1


今日的留言话题是谈谈你对微博热搜的一些看法,或者说是有哪些点你觉得是可以进行进一步分析的,关于留言打卡的规则可以参考数据森麟公众号留言打卡第二季开启!,请按照昵称+天数(请以自己实际打卡的天数为准,如day1 or day2 or day3)+ 留言内容(不少于15字)的方式留言


◆ ◆ ◆  ◆ ◆


长按二维码关注我们



数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。


管理员二维码:



猜你喜欢

 你相信逛B站也能学编程吗? 

 大数据解读B站火过蔡徐坤的“鬼畜“区巨头们 

 看完这篇买车不用坐引擎盖哭啦

 数说奥斯卡女神们 : “惊艳了时光 , 温柔了岁月”

 豆瓣已玩烂,来爬点有逼格的 ——IMDB 电影提升你的品位

点个“在看”,支持森麟原创  ☟

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存