查看原文
其他

近期究竟是华为手机卖得好,还是苹果手机卖得好?

陈鸥辉 信息科技时代 2024-03-15

    近期在上大数据,第一次课我在课堂上提了一个问题:你们认为目前国内市场最火的是华为还是苹果,上过的班级大部分同学都答:华为!然后我打开资讯网站,得到的数据排行是这样的:

http://index.baidu.com/v2/rank/index.html?#/industryrank

    我对这个排行榜是没有其他数据支撑的,刚好今天在研究爬取淘宝数据,所以试着自己写了一个爬取近期各手机在淘宝的热卖排行榜,数据一爬就是上千条,进行排序后发现许多无关信息,所以进行了简单地筛选,比如500以下的一般都是相关装饰品,所以筛选掉了;还有热卖标题里没有标注“华为”“苹果”的,往往是其他品牌的手机,也被我筛选掉了,剩下的数据如下:

经过统计后,数据对比如下:

备注:一共爬了5个页面,所以共爬取了1000条数据,一个页面200条。这个淘宝的销售数量我不太清楚是如何更新的,但是不同时间搜到的热搜数据统计结果是不一样的,所以如果你们本地尝试查看到的热搜结果跟我本文的搜索结果肯定有出入。

参考程序:

import requests
from bs4 import BeautifulSoup
import pandas as pd
keyword=input('请输入您要爬取的热卖商品的名称:')
url = 'https://re.taobao.com/search?keyword='+keyword #网址
payload = {'page': '1'} # 字典传递url参数,为页码
#初始化数据容器
title = []#存商品名称
store = []#存店铺名称
price = []#存销售价格
paynum = []#存销售额
s2000=0#买
500-2000的商品人数
s5000=0#买2000-5000的商品人数
s10000=0#买5000以上的商品人数
# 爬取网页上的数据
for i in range(0, 5): # 循环5次,就是5个页面的商品数据
payload['page'] = i # 此处为页码,根据网页参数具体设置
resp = requests.get(url, params=payload)
soup = BeautifulSoup(resp.text, "html.parser")
print(resp.url) # 打印访问的网址
resp.encoding = 'utf-8' # 设置编码
# 标题/店铺名称/价格/销售量
all_title = soup.select('span.title')
all_store = soup.select('span.shopNick')
all_price = soup.select('span.pricedetail')
all_paynum = soup.select('span.payNum')
for j in range(len(all_title)):
if keyword[0:2] not in all_title[j].text or all_title[j].text in title:
continue #关键词排除
money=float(all_price[j].text[1:])
num=int(all_paynum[j].text[0:-3])
if money<500 or num==0:
continue #价格筛选
if money<2000:
s2000+=num
elif money<5000:
s5000+=num
else:
s10000+=num#按价格区域统计
title.append(all_title[j].text)
store.append(all_store[j].text)
price.append(all_price[j].text[1:])
paynum.append(all_paynum[j].text[0:-3])
print('共爬取数据条数:',5*len(all_title),' 有效数据条数:',len(title))
print('购买500-2000的人数为:',s2000,'\n购买2000-5000的人数为:',s5000,'\n购买5000以上的人数为:',s10000)
#写入表格
df=pd.DataFrame({'商品名':title,'商铺':store,'价格':price,'销售额':paynum})
df.to_csv(keyword+'.csv',index=0)

相关文章:

爬虫系列:
Python|BeautifulSoup使用select方法详解
Python|词频云图
程序5-3-3 爬取购物平台商品销售数据
Python|任意网页中的所有网址的保存
Python|任意网页中的所有图片下载
Python|文本数据的爬取与清洗
爬虫|爬取全国中小学电脑制作活动技术讲座视频
爬虫|以豆瓣为例简单地介绍清洗数据的方法
爬虫|以豆瓣为例简单地介绍爬取网站数据的方法
爬虫|python读写csv文件的方法完成生涯规划表
推荐|Python 爬虫系列教程一爬取批量百度图片
使用BeautifulSoup解析网页及清洗数据
爬虫的基本原理
关于爬虫的合法性
中国爬虫违法违规案例汇总
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存