近期究竟是华为手机卖得好，还是苹果手机卖得好？

Original 陈鸥辉信息科技时代 2024-03-15

近期在上大数据，第一次课我在课堂上提了一个问题：你们认为目前国内市场最火的是华为还是苹果，上过的班级大部分同学都答：华为！然后我打开资讯网站，得到的数据排行是这样的：

http://index.baidu.com/v2/rank/index.html?#/industryrank

我对这个排行榜是没有其他数据支撑的，刚好今天在研究爬取淘宝数据，所以试着自己写了一个爬取近期各手机在淘宝的热卖排行榜，数据一爬就是上千条，进行排序后发现许多无关信息，所以进行了简单地筛选，比如500以下的一般都是相关装饰品，所以筛选掉了；还有热卖标题里没有标注“华为”“苹果”的，往往是其他品牌的手机，也被我筛选掉了，剩下的数据如下：

经过统计后，数据对比如下：

备注：一共爬了5个页面，所以共爬取了1000条数据，一个页面200条。这个淘宝的销售数量我不太清楚是如何更新的，但是不同时间搜到的热搜数据统计结果是不一样的，所以如果你们本地尝试查看到的热搜结果跟我本文的搜索结果肯定有出入。

参考程序：

import requests
from bs4 import BeautifulSoup
import pandas as pd
keyword=input('请输入您要爬取的热卖商品的名称:')
url = 'https://re.taobao.com/search?keyword='+keyword #网址
payload = {'page': '1'} # 字典传递url参数，为页码
#初始化数据容器
title = []#存商品名称
store = []#存店铺名称
price = []#存销售价格
paynum = []#存销售额
s2000=0#买500-2000的商品人数
s5000=0#买2000-5000的商品人数
s10000=0#买5000以上的商品人数
# 爬取网页上的数据
for i in range(0, 5): # 循环5次，就是5个页面的商品数据
payload['page'] = i # 此处为页码，根据网页参数具体设置
resp = requests.get(url, params=payload)
soup = BeautifulSoup(resp.text, "html.parser")
print(resp.url) # 打印访问的网址
resp.encoding = 'utf-8' # 设置编码
# 标题/店铺名称/价格/销售量
all_title = soup.select('span.title')
all_store = soup.select('span.shopNick')
all_price = soup.select('span.pricedetail')
all_paynum = soup.select('span.payNum')
for j in range(len(all_title)):
if keyword[0:2] not in all_title[j].text or all_title[j].text in title:
continue #关键词排除
money=float(all_price[j].text[1:])
num=int(all_paynum[j].text[0:-3])
if money<500 or num==0:
continue #价格筛选
if money<2000:
s2000+=num
elif money<5000:
s5000+=num
else:
s10000+=num#按价格区域统计
title.append(all_title[j].text)
store.append(all_store[j].text)
price.append(all_price[j].text[1:])
paynum.append(all_paynum[j].text[0:-3])
print('共爬取数据条数：',5*len(all_title),' 有效数据条数：',len(title))
print('购买500-2000的人数为：',s2000,'\n购买2000-5000的人数为：',s5000,'\n购买5000以上的人数为：',s10000)
#写入表格
df=pd.DataFrame({'商品名':title,'商铺':store,'价格':price,'销售额':paynum})
df.to_csv(keyword+'.csv',index=0)

爬虫系列：

Python|BeautifulSoup使用select方法详解

爬虫|爬取全国中小学电脑制作活动技术讲座视频

爬虫|以豆瓣为例简单地介绍清洗数据的方法

爬虫|以豆瓣为例简单地介绍爬取网站数据的方法

爬虫|python读写csv文件的方法完成生涯规划表

推荐|Python 爬虫系列教程一爬取批量百度图片