查看原文
其他

R语言学习:爬取天猫纸尿裤商品数据并进行价格分析 ...

2017-08-06 花花_Angel R语言中文社区

作者:花花_Angel

博客专栏:

https://ask.hellobi.com/blog/huahua

rvest是R语言一个用来做网页数据抓取的包,其中html_nodes()函数查找标签的功能非常好用。本文使用rvest包爬取天猫纸尿裤的商品数据并进行价格分析,爬取时间是2017年7月24日,数据虽不全面,可能存在一定程度的偏差,但仍可以为这一行业提供一些参考。

一、数据采集

1、天猫搜索框搜索关键字“拉拉裤”,按照销量降序排序,按下CTRL+SHIFT+C,当鼠标放到该宝贝页面的任何位置时,可以看到相应的源代码。宝贝的图片、价格、品牌名称、卖家以及月销量等数据都是包含在<div class="product-iWrap">...</div>块中。

2、启动Rstudio,使用rvest包抓取商品数据。其操作过程可参考无鱼二饼的文章《R语言学习:使用rvest包抓取网页数据》

数据爬取代码如下:




将爬取单页数据改成for循环语句爬取多个网页数据,在操作过程中,发现无法执行循环,总是无限爬取首页数据,搜索了解决办法,无果,所以只能一页一页的进行数据抓取,然后将所有数据汇总。

合并的数据代码如下:


抓取关键字“纸尿裤”、“纸尿片”商品数据过程与上面类似,不在赘述。

二、数据处理

保存后的CSV数据如下:



对itemTitle列的数据做分列处理,分离出品牌、包装规格和尺码,部分不规范的需要手动调整;对volume列的文字字符进行替换;将price除以包装规格得到单片价格perprice的新字段;对perprice进行分组处理得到新字段group;对缺失值和异常值进行删除处理。

处理后的数据如下:




三、数据分析

1、单片价的直方图和核密度图






2、单片价与销量关系图



3、尺码均价图和销量占比图





4、品牌销量和单品榜




5、品牌四象限图




纸尿裤和纸尿片的分析与拉拉裤类似,不在赘述

6、拉拉裤/纸尿裤/纸尿片单片价分布对比图



四、小结

对于纸尿裤市场三个品类的分析结论如下:

1、单片均价整体情况:拉拉裤1.48>纸尿裤1.22>纸尿片0.81

2、低价区间产品扎堆,趋于饱和,中高端价格区间存在一定市场潜力,有待开发

3、帮宝适、好奇等国际品牌主导市场


微信回复关键字即可学习

回复 R              R语言快速入门免费视频 
回复 统计          统计方法及其在R中的实现
回复 用户画像   民生银行客户画像搭建与应用 
回复 大数据      大数据系列免费视频教程
回复 可视化      利用R语言做数据可视化
回复 数据挖掘   数据挖掘算法原理解释与应用
回复 机器学习   R&Python机器学习入门 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存