爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

Original 李运辰 Python研究者 2022-07-01

收录于合集

#框架 4 个

#爬虫 53 个

#数据分析 28 个

#可视化 32 个

前言

上一篇文章以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』利用了scrapy爬取B站数据。本文将在此基础上完善代码，爬起更多的内容并保存到csv。

总共爬取1907条『课程学习』数据，分析哪类学习资源最火热最受大学生群体青睐。并通过可视化的方式将结果进行展示！

数据获取

程序是接着以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』进行完善，所以不清楚的可以先看一下这篇文章（详细讲述Scrapy入门，并以『B站』为案例进行实战编程）

1.各个scrapy文件

items文件

class BiliItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() #pass # 视频标题 title = scrapy.Field() # 链接 url = scrapy.Field() # 观看量 watchnum = scrapy.Field() # 弹幕数 dm = scrapy.Field() # 上传时间 uptime = scrapy.Field() # 作者 upname = scrapy.Field()

增加了四个字段（观看量、弹幕数、上传时间、作者）

lyc文件

class LycSpider(scrapy.Spider): name = 'lyc' allowed_domains = ['bilibili.com'] start_urls = ['https://search.bilibili.com/all?keyword=大学课程&page=40']

# 爬取的方法 def parse(self, response): item = BiliItem() # 匹配 for jobs_primary in response.xpath('//*[@id="all-list"]/div[1]/ul/li'): item['title'] = (jobs_primary.xpath('./a/@title').extract())[0] item['url'] = (jobs_primary.xpath('./a/@href').extract())[0]

            item['watchnum'] = (jobs_primary.xpath('./div/div[3]/span[1]/text()').extract())[0].replace("\n", "").replace(" ", "")

            item['dm'] = (jobs_primary.xpath('./div/div[3]/span[2]/text()').extract())[0].replace("\n", "").replace(" ", "")

            item['uptime'] = (jobs_primary.xpath('./div/div[3]/span[3]/text()').extract())[0].replace("\n", "").replace(" ", "")

item['upname'] = (jobs_primary.xpath('./div/div[3]/span[4]/a/text()').extract())[0]

# 不能使用return yield item

# 获取当前页的链接 url = response.request.url #page +1

new_link = url[0:-1]+str(int(url[-1])+1) # 再次发送请求获取下一页数据 yield scrapy.Request(new_link, callback=self.parse)

为新增的四个字段进行网页标签解析

pipelines文件

import csv

class BiliPipeline:

def __init__(self): #打开文件，指定方式为写，利用第3个参数把csv写数据时产生的空行消除 self.f = open("lyc大学课程.csv", "a", newline="") # 设置文件第一行的字段名，注意要跟spider传过来的字典key名称相同 self.fieldnames = ["title", "url","watchnum","dm","uptime","upname"] # 指定文件的写入方式为csv字典写入，参数1为指定具体文件，参数2为指定字段名 self.writer = csv.DictWriter(self.f, fieldnames=self.fieldnames) # 写入第一行字段名，因为只要写入一次，所以文件放在__init__里面 self.writer.writeheader()

def process_item(self, item, spider): # print("title:", item['title'][0]) # print("url:", item['url'][0]) # print("watchnum:", item['watchnum'][0].replace("\n","").replace(" ","")) # print("dm:", item['dm'][0].replace("\n", "").replace(" ", "")) # print("uptime:", item['uptime'][0].replace("\n", "").replace(" ", "")) # print("upname:", item['upname'][0])

print("title:", item['title']) print("url:", item['url']) print("watchnum:", item['watchnum']) print("dm:", item['dm']) print("uptime:", item['uptime']) print("upname:", item['upname'])

# 写入spider传过来的具体数值 self.writer.writerow(item) # 写入完返回 return item

def close(self, spider): self.f.close()

将爬取的内容保存到csv文件（lyc大学课程.csv）

2.启动scrapy

scrapy crawl lyc

通过上述命令可以启动scrapy项目

3.爬取结果

一共爬取1914条数据，最后经过简单清洗最终可用数据1907条！

数据分析

1.大学生学习视频播放量排名

读取数据

dataset = pd.read_csv('Bili\\lyc大学课程.csv',encoding="gbk")title = dataset['title'].tolist()url = dataset['url'].tolist()watchnum = dataset['watchnum'].tolist()dm = dataset['dm'].tolist()uptime = dataset['uptime'].tolist()upname = dataset['upname'].tolist()

数据处理

#分析1: & 分析2def getdata1_2(): watchnum_dict = {} dm_dict = {} for i in range(0, len(watchnum)): if "万" in watchnum[i]: watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000) else: watchnum[i] = int(watchnum[i])

if "万" in dm[i]: dm[i] = int(float(dm[i].replace("万", "")) * 10000) else: dm[i] = int(dm[i])

watchnum_dict[title[i]] = watchnum[i] dm_dict[title[i]] = dm[i]

###从小到大排序 watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0])) dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0])) #分析1：大学生学习视频播放量排名" analysis1(watchnum_dict,"大学生学习视频播放量排名")

数据可视化

def pie(name,value,picname,tips): c = ( Pie() .add( "", [list(z) for z in zip(name, value)], # 饼图的中心（圆心）坐标，数组的第一项是横坐标，第二项是纵坐标

            # 默认设置成百分比，设置成百分比时第一项是相对于容器宽度，第二项是相对于容器高度

center=["35%", "50%"], ) .set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"]) # 设置颜色 .set_global_opts( title_opts=opts.TitleOpts(title=""+str(tips)), legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"), # 调整图例位置 ) .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")) .render(str(picname)+".html") )

分析

【片片】《人间课堂》播放量最高，播放量:202万。
在B站从大学课程的内容学习吸引人远不上一些课堂内容有趣的话题。

2.大学生学习视频弹幕量排名

数据处理

watchnum_dict = {}dm_dict = {}for i in range(0, len(watchnum)): if "万" in watchnum[i]: watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000) else: watchnum[i] = int(watchnum[i])

if "万" in dm[i]: dm[i] = int(float(dm[i].replace("万", "")) * 10000) else: dm[i] = int(dm[i])

watchnum_dict[title[i]] = watchnum[i] dm_dict[title[i]] = dm[i]

###从小到大排序watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0])) dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))#分析2：大学生学习视频弹幕量排名analysis1(dm_dict,"大学生学习视频弹幕量排名")

数据可视化

###饼状图def pie(name,value,picname,tips): c = ( Pie() .add( "", [list(z) for z in zip(name, value)], # 饼图的中心（圆心）坐标，数组的第一项是横坐标，第二项是纵坐标

            # 默认设置成百分比，设置成百分比时第一项是相对于容器宽度，第二项是相对于容器高度

分析

在弹幕数排行中《数据结构与算法基础》最高，弹幕数：33000
通过弹幕量的排行来看，可以看到大家都喜欢在什么样的课堂视频上留言。
与播放量对比，大学生喜欢在课堂内容学习视频上进行发言！

3.up主大学生学习视频视频数

数据处理

#分析3: up主大学生学习视频视频数def getdata3(): upname_dict = {} for key in upname: upname_dict[key] = upname_dict.get(key, 0) + 1 ###从小到大排序 upname_dict = sorted(upname_dict.items(), key=lambda kv: (kv[1], kv[0])) itemNames = [] datas = [] for i in range(len(upname_dict) - 1, len(upname_dict) - 21, -1): itemNames.append(upname_dict[i][0]) datas.append(upname_dict[i][1]) #绘图 bars(itemNames,datas)

数据可视化

###柱形图def bars(name,dict_values):

# 链式调用 c = ( Bar( init_opts=opts.InitOpts( # 初始配置项 theme=ThemeType.MACARONS, animation_opts=opts.AnimationOpts( animation_delay=1000, animation_easing="cubicOut" # 初始动画延迟和缓动效果 )) ) .add_xaxis(xaxis_data=name) # x轴 .add_yaxis(series_name="up主昵称", yaxis_data=dict_values) # y轴 .set_global_opts( title_opts=opts.TitleOpts(title='李运辰', subtitle='up视频数', # 标题配置和调整位置 title_textstyle_opts=opts.TextStyleOpts( font_family='SimHei', font_size=25, font_weight='bold', color='red', ), pos_left="90%", pos_top="10", ), xaxis_opts=opts.AxisOpts(name='up主昵称', axislabel_opts=opts.LabelOpts(rotate=45)), # 设置x名称和Label rotate解决标签名字过长使用 yaxis_opts=opts.AxisOpts(name='大学生学习视频视频数'),

) .render("up主大学生学习视频视频数.html") )

分析

在大学课程视频的up主中，up主视频中与大学课堂有关的视频数排行
在大学课程视频数排行中，视频数最多的是：小白在学习呢

4.大学课程名称词云化

数据处理

text = "".join(title)with open("stopword.txt","r", encoding='UTF-8') as f: stopword = f.readlines()for i in stopword: print(i) i = str(i).replace("\r\n","").replace("\r","").replace("\n","") text = text.replace(i, "")

数据可视化

word_list = jieba.cut(text)result = " ".join(word_list) # 分词用隔开# 制作中文云词icon_name = 'fab fa-qq'"""# icon_name='',#国旗# icon_name='fas fa-dragon',#翼龙icon_name='fas fa-dog',#狗# icon_name='fas fa-cat',#猫# icon_name='fas fa-dove',#鸽子# icon_name='fab fa-qq',#qq"""

gen_stylecloud(text=result, icon_name=icon_name, font_path='simsun.ttc', output_name="大学课程名称词云化.png")  # 必须加中文字体，否则格式错误

分析

以北京大学和清华大学的课程为主，课程标题含有着两个大学的居多。
这些视频标题中大多数以：基础、公开课、课件、考研、大学物理等关键词。

总结

1.通过Scrapy框架爬取1907条『B站』大学课程学习资源数据。

2.对数据进行可视化展示以及凝练精简分析。

3.可能数据还有更多未分析或者挖掘的信息，欢迎在下方留言，提出你宝贵的建议！

4.本文数据和代码在下方，欢迎自取！！！

如果大家对本文代码源码感兴趣，扫码关注『Python爬虫数据分析挖掘』后台回复：大学课程分析 ，获取完整代码和数据。

------------- 推荐文章 -------------

1·以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』
2.python爬取各类基金数据，以『动图可视化』方式展示基金的涨跌情况
3.python爬取『大年初一』热映电影，以『可视化及词云秀』方式带你了解热映电影
4.爬虫遇到反爬机制怎么办? 看看我是如何解决的！

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

一个医保局长之死

给宠物做保姆的中国留学生

本以为吴京大儿子叫“吴所谓”够随意了，听到二儿子名字，真服了

法院4.2元拍卖一瓶雪碧，限自提！被执行人回应：没有更多可供执行财产

爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

1.各个scrapy文件

items文件

lyc文件

pipelines文件

2.启动scrapy

3.爬取结果

1.大学生学习视频播放量排名

读取数据

数据处理

数据可视化

分析

2.大学生学习视频弹幕量排名

数据处理

数据可视化

分析

3.up主大学生学习视频视频数

数据处理

数据可视化

分析

4.大学课程名称词云化

数据处理

数据可视化

分析

您可能也对以下帖子感兴趣

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

一个医保局长之死

给宠物做保姆的中国留学生

本以为吴京大儿子叫“吴所谓”够随意了，听到二儿子名字，真服了

法院4.2元拍卖一瓶雪碧，限自提！被执行人回应：没有更多可供执行财产

生成图片，分享到微信朋友圈

爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

1.各个scrapy文件

items文件

lyc文件

pipelines文件

2.启动scrapy

3.爬取结果

1.大学生学习视频播放量排名

读取数据

数据处理

数据可视化

分析

2.大学生学习视频弹幕量排名

数据处理

数据可视化

分析

3.up主大学生学习视频视频数

数据处理

数据可视化

分析

4.大学课程名称词云化

数据处理

数据可视化

分析

您可能也对以下帖子感兴趣