Python实战 | “端午节” 送亲戚,送长辈,粽子可视化大屏来帮忙!(文末送书)
The following article is from 数据分析与统计学之美 Author 黄伟呢
你好,我是可乐
祝您端午节快乐,分享一篇和“粽子”相关的python实战文章
另,文末送本书,快来看看吧!
本文简介
选择什么牌子的粽子呢? 选择什么口味的粽子呢? 选择什么价格区间呢?
爬取网页:https://www.jd.com/ 爬取说明: 基于京东网站,我们搜索网站“粽子”数据,大概有100页。我们爬取的字段,既有一级页面的相关信息,还有二级页面的部分信息; 爬取思路: 先针对某一页数据的一级页面做一个解析,然后再进行二级页面做一个解析,最后再进行翻页操作; 爬取字段: 分别是粽子的名称(标题)、价格、品牌(店铺)、类别(口味); 使用工具: requests+lxml+pandas+time+re+pyecharts 网站解析方式: xpath
数据爬取
import requests
from lxml import etree
import chardet
import time
import re
def get_CI(url):
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; X64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}
rqg = requests.get(url,headers=headers)
rqg.encoding = chardet.detect(rqg.content)['encoding']
html = etree.HTML(rqg.text)
# 价格
p_price = html.xpath('//div/div[@class="p-price"]/strong/i/text()')
# 名称
p_name = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/em')
p_name = [str(p_name[i].xpath('string(.)')) for i in range(len(p_name))]
# 深层url
deep_ur1 = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/@href')
deep_url = ["http:" + i for i in deep_ur1]
# 从这里开始,我们获取“二级页面”的信息
brands_list = []
kinds_list = []
for i in deep_url:
rqg = requests.get(i,headers=headers)
rqg.encoding = chardet.detect(rqg.content)['encoding']
html = etree.HTML(rqg.text)
# 品牌
brands = html.xpath('//div/div[@class="ETab"]//ul[@id="parameter-brand"]/li/@title')
brands_list.append(brands)
# 类别
kinds = re.findall('>类别:(.*?)</li>',rqg.text)
kinds_list.append(kinds)
data = pd.DataFrame({'名称':p_name,'价格':p_price,'品牌':brands_list,'类别':kinds_list})
return(data)
x = "https://search.jd.com/Search?keyword=%E7%B2%BD%E5%AD%90&qrst=1&wq=%E7%B2%BD%E5%AD%90&stock=1&page="
url_list = [x + str(i) for i in range(1,200,2)]
res = pd.DataFrame(columns=['名称','价格','品牌','类别'])
# 这里进行“翻页”操作
for url in url_list:
res0 = get_CI(url)
res = pd.concat([res,res0])
time.sleep(3)
# 保存数据
res.to_csv('aliang.csv',encoding='utf_8_sig')
数据清洗
df = pd.read_excel("粽子.xlsx",index_col=False)
df.head()
df["类别"] = df["类别"].apply(lambda x: x[1:-1])
df.head()
① 粽子品牌排名前10的店铺
② 粽子口味排名前5的味道
if x.find("甜") > 0:
return "甜粽子"
else:
return x
df["类别"] = df["类别"].apply(func1)
df["类别"].value_counts()[1:6]
③ 粽子售卖价格区间划分
if x <= 50:
return '<50元'
elif x <= 100:
return '50-100元'
elif x <= 300:
return '100-300元'
elif x <= 500:
return '300-500元'
elif x <= 1000:
return '500-1000元'
else:
return '>1000元'
df["价格区间"] = df["价格"].apply(price_range)
df["价格区间"].value_counts()
数据可视化
① 粽子销售店铺Top10柱形图; ② 粽子口味排名Top5柱形图; ③ 粽子销售价格区间划分饼图; ④ 粽子商品名称词云图;
① 粽子销售店铺Top10柱形图
② 粽子口味排名Top5柱形图
③ 粽子销售价格区间划分饼图
④ 粽子商品名称词云图
⑤ 图形组合为大屏
送书
要给大家赠送一本Python相关的书籍《Python数据分析从小白到专家》。本书共13章,主要内容涵盖Python语法及数据分析方法。章主要介绍数据分析的概念,使读者有一个大致的印象,并简单介绍本书频繁使用的Python的5个第三方库,分别是 :Numpy、Pandas、Matplotlib、Scipy、Sklearn。
群内抽奖,加我微信拉你进群
个人微信:data_cola,备注:书
往期推荐
点个在看你最好看