查看原文
其他

【爬虫实战】“双十一”微博热搜实时跟进

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:王子一,中南财经政法大学金融学院

本文编辑:赵冰洁

技术总编:张馨月

爬虫俱乐部沙龙活动

  好消息!好消息!千呼万唤下,爬虫俱乐部第一期学友线上沙龙活动将在本周六(11月14日上午9:30到11:30举办。本系列线上沙龙活动是为了促进各位学友关于Python学习的交流与探讨,分享在现阶段学习Python过程中遇到的困难、感悟,实现思维的碰撞,提升数据分析能力。现诚挚邀请各位感兴趣的小伙伴来沙龙切磋武艺,指点江山!!详情请见邀请函】听说你还在为处理表格头大?

从“光棍节”到“双节棍”,从“打工人”到“吃圭人”,一年一度的双十一终于快要落下帷幕,数据显示,天猫双十一狂欢季在0:00至0:30的成交额突破3723亿元,京东在开场9分钟内下单金额达到了2000亿元。那么,大家在拼手速、算满减、抢红包的过程中都在关注些什么呢?兢兢业业的小编爬取了昨晚微博的实时热搜,一起往下看吧~我们爬取了新浪微博热搜晚上9:00-12:00的实时热搜,并绘制了间隔时间为10分钟的热搜轮播图,最终结果如下:

从中选取部分话题绘制河流图,得到的结果如下图所示:

那么,上图所爬取的内容如何通过Python实现呢?下面我们进入正题~

爬虫思路

微博热搜榜网址为https://s.weibo.com/top/summary

首先,在开发者模式下定位到我们所想要的内容,展示如下:接下来,通过分析网页进行提取整合,定位如下:

最终整合在一起,并保存到表格之中:

具体代码如下:

import requests
from bs4 import BeautifulSoup
import datetime

r = requests.get("https://s.weibo.com/top/summary")
soup = BeautifulSoup(r.text, 'lxml')
items = soup.find(class_="data").find_all(name="tr")
Time=datetime.datetime.now().strftime('%F %T')#现在时间
print(Time)
print("序号 关键词 时间")
   
list_content = []
list_t = []
for item in items[2:]:
id=item.find(class_="td-01 ranktop").string
title=item.find(class_="td-02").a.string
num=item.find(class_="td-02").span.string
list_t = [id,title,num]
list_content.append(list_t)
print(list_t)

定时爬取

微博热搜是实时变动的,所以我们为减少打工人的劳动力,引入可以实现定时执行任务的schedule模块,为代码加入一个定时器,从而实现每隔1分钟、5分钟等等间隔时间的定时爬取。

import schedule
import time

def weibo():
   print("正在爬取...") #将爬取微博热搜榜的code封装

schedule.every(1).minutes.do(weibo)    # 每隔一分钟执行一次任务
while True:
   schedule.run_pending()          # run_pending:运行所有可以运行的任务

这样,我们执行所有代码,便可以自动搜集实时的热搜榜单啦!

热搜轮转

首先,应用Pyecharts中的柱状图构造静态图,如下:第二步,加入时间标签,展示如下图:部分代码如下:

df = pd.read_csv('weibo.csv')
t = Timeline()
for i in range(20):    
   bar = (        
       Bar()        
      .add_xaxis(list(df['关键词'])[i*10:i*10+10][::-1])
      .add_yaxis("微博热搜榜", list(df['热度'])[i*10:i*10+10][::-1])
      .reversal_axis()
      .set_global_opts(title_opts=opts.TitleOpts("".format(i)))
      .set_series_opts(label_opts=opts.LabelOpts(position="right"))  #将标签放置在图形右边
  )
   t.add(bar, "")
 
t.render_notebook()

除此之外,我们还可以运用河流图来展示热搜榜单话题的流量占比,关于河流图的绘制方法我们将会在后续的推文中推出,感兴趣的小伙伴敬请期待~

ps:本文相关代码可在后台回复“微博热搜”获取。





对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐

Stata中的数值型变量分类神器--recode

fs命令——我们的小帮手

【邀请函】听说你还在为处理表格头大?

用stack取代excel的数据重整操作吧

  日期数据处理

          Seminar | 委托贷款:打开中国影子银行的黑匣子

          Seminar | 电话会议中的"non-answer"

         Python 爬虫必杀技:XPath

          面对相对路径和绝对路径的分岔口,你选对了吗?
         空间数据可视化之spmap命令

快速计算两地距离——geodist命令介绍

Seminar | CFO:努力影响财务信息环境吗?

Seminar | 企业层面成本加成的测算

朴素贝叶斯算法——以20Newsgroups数据集为例

【爬虫实战】利用scrapy框架爬取豆瓣图书信息

《我和我的家乡》影评高频词原来是这些!

一位大学党委书记的自我结束——风波里的学者本真

Seminar | JPX400指数的公司治理效应
Seminar | 企业社会责任披露如何影响企业绩效?
【爬虫实战】恒大的底气?--恒大楼盘数量爬取
关于我们


微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存