查看原文
其他

爬下几万条数据,聊聊淘宝上的飞机杯

2017-09-07 小歪 Python爱好者社区

作者:小歪 

个人公众号:萌新的学习日记

温馨提示,本文某些内容可能会引起不适

目标:爬取淘宝上关键词为“飞机杯”的商品数据,和销量前十的所有评论。


工具:Python  Scrapy 爬数据,Excel + World Cloud 分析数据

数据抓取




简单找出翻页方法,数据都藏在这里

https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1504329067199_977&callback=jsonp978&q=%E9%A3%9E%E6%9C%BA%E6%9D%AF&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=%2C48

https://s.taobao.com/search?data-key=s&data-value=88&ajax=true&_ksTS=1504329110124_1174&callback=jsonp1175&q=%E9%A3%9E%E6%9C%BA%E6%9D%AF&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=%2C48&s=44

https://s.taobao.com/search?data-key=s&data-value=132&ajax=true&_ksTS=1504329292131_1421&callback=jsonp1422&q=%E9%A3%9E%E6%9C%BA%E6%9D%AF&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=%2C48&s=88



做好相应的应对措施就好了

数据解读

在进行简单数据处理后,看看发现了什么?



竟然在10-20元有这么多商品,哇,难以想象。


你平时买多少的?


我们看看销量



看来大多数飞机杯销量都不大好,在40下,我们来研究下销量大于10K的,有这些:


  • 名器男用自慰器撸飞机杯 ¥9.80。34496人付款

  • 全自动双穴夹吸飞机杯     ¥39.00。11437人付款

  • 全自动飞机杯                   ¥399.00。12429人付款

  • 夹吸全自动飞机杯            ¥79.00。12699人付款

  • 全自动飞机杯                   ¥48.00。13572人付款

  • 免提飞机杯                       ¥49.00。13475人付款

  • 发声飞机杯                       ¥109.00。31892人付款


价格是亮点

最后我们来研究下评论


使用评论做成的图云



商品种类的词云




太污了,我还只是个孩纸


商品名称词云



最后来试试情感分析, 参考了@王树义 老师写的  如何用Python做情感分析?


主要用到了snownlp 和 TextBlob


Sentiment(polarity=0.9578947368421052,subjectivity=0.6252631578947367)

0.96,看来人们的评价还是极高的。


如果你想购买某件商品,可以先把评论抓了,然后做个分析什么的。

这可能就是学Python的应用吧~

关注公众号,“Python爱好者社区”,回复“爬虫”即可获取崔老师爬虫免费学习视频。


Python爱好者社区


为大家提供与Python相关的最新技术和资讯。

长按指纹 > 识别图中二维码 > 添加关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存