查看原文
其他

Python告诉你想开一家美食店该怎么做?

刘早起早起 凹凸数据 2021-08-09
每晚九点,我们准时相约  


大家好,我是朱小五


又到了Python爬虫+数据分析可视化的专题,今天案例是对美团网杭州市美食团购的数据进行分析。


如果已经或者最近有打算开一家美食团购店铺的读者,希望本文能对你有所帮助。


数据获取


本次案例需要爬取的目标网站为美团网web端杭州市美食页面



方法还是和之前的一样,F12查看数据包,找到对应的url再使用requests爬取数据



由于这部分操作我们已经使用来很多次,并且也出过技术解析,所以此处就不再赘述,来看部分代码


for url in url_list:
    print(n)
    data = requests.get(url,headers = headers).json()
    data1 = data['data']['poiInfos']
    for i in range(len(data1)):
        title = data1[i]['title']
        area = data1[i]['address'][0:3]
        score = data1[i]['avgScore']
        comment = data1[i]['allCommentNum']
        price = data1[i]['avgPrice']
        coupons = coupon(data1[i]['dealList'])
        try:
            coupons_num = coupon1(data1[i]['dealList'][0]['title'])
        except:
            coupons_num = 0
        diejia = coupon2(data1[i]['dealList'])
        wifi = coupon3(data1[i]['dealList'])
        ziti = coupon4(data1[i]['dealList'])

        temp = [title,area,score,comment,price,coupons,coupons_num,diejia,wifi,ziti]
        df.loc[p] = temp
        p = p + 1


数据说明


其实目标URL就是一个API👇



可以看到提供的信息并不多,甚至连销售量都不提供,但对我们的分析并没有太多影响,来看下最终取得的数据与指标说明



词频分析


首先我们来看一下杭州餐厅店铺名的词云图与条形图



可以看到在800多家美食店铺中,餐厅名中出现最多的还是火锅、烧烤、蛋糕、咖啡,再绘制量化的条形图


from pyecharts.charts import Pie ,Grid,Bar,Line
from pyecharts.faker import Faker #数据包
from pyecharts.charts import Map,Geo
from pyecharts import options as opts
from pyecharts.globals import ThemeType
c = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN))
    .add_xaxis(text)
    .add_yaxis("", fre)
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    #.set_global_opts(title_opts=opts.TitleOpts(title="关键词频率"))
    .set_global_opts(title_opts=opts.TitleOpts(title=""))
)
c.render_notebook()



所以如果你的店铺想走小众路线那就要尽量避免上述种类的美食。


价格分析


本节对杭州市美食店铺的整体价格情况进行分析,绘制出价格的直方图👇



可以看到,大多数的店铺团购均价低于100元,通过计算更能得到平均价低于100元的店铺占比达到89%,所以如果你想进军杭州美食团购业,价格定在100元以下会更符合市场


影响因素分析


在这一节我们将使用箱线图对影响美食销量、评分的相关因素进行分析,先来看下评分相关的因子,首先来看下店铺优惠限制使用人数对评分的影响



可以看到,将优惠套餐设置为限制4人使用所获的评价最高,其次是0人也就是一次只能一个人使用和7人,所以如果想售卖优惠券的话,就限制4人使用吧!


接着看下其他几个指标对评分的影响,先看下商家是否提供Wi-Fi对评分的影响



上图分别是商家是否提供Wi-Fi与平均分的箱线图,其中越长的箱子表示提供WI-FI的商家数量越多,可以看到大多数商家提供了Wi-Fi并且其得分也要略高一点,再看看另外两个指标。



上图分别是优惠券是否可以叠加商品自提与平均分的箱线图,可以看到,大多数商家都提供这两项功能,并且平均分比没有该选项的商家要高。所以如果想开一家美食店,这两项功能需要考虑哦。


区域对销量的影响


本届我们来分析不同区域对销量的影响,由于我们获得的数据并没有提供直接销售量,因此我们选择评论数来代表销量与杭州市不同区域进行分析



可以看到,江干区、萧山区、西湖区的商家最多,但是销量相对高一点的区是富阳区、拱墅区、萧山区、滨江区,所以如果想在杭州开一家美食店铺,萧山区是一个不错的选择。


结束语


通过上述分析,我们大致得到了如果想在杭州开一个美食店铺,选择在萧山区,价格在100元以下,并且设置优惠套餐同时提供优惠券叠加、WI-FI上网、商品自提等功能会获得更好的销量与评价。


由于数据并不够丰富,我们分析做到这里就结束了,如果能获取一些更多的信息比如:折扣力度、销售量、评论关键词等,我们就可以做一些更多的比如回归分析等统计分析。


另外想要说的是,美团网的反爬实在是很强大,如果自己在请求数据的时候一定要注意设置请求头、代理IP与请求频率。


一旦被识别直接封IP(别问我为什么知道)






后台回复「进群」,加入读者交流群~

昨日推文留言“孙湛林”、“天人”+15积分

点击积分,了解积分规则~


【凹凸数据】本次为大家送上3本《Python数据分析与挖掘实战(第2版)》,限时350积分兑换,另外点赞最高的留言直接获赠一本,截止时间4月10日晚9点

朱小五


本书作者、资深大数据挖掘与分析专家、模式识别专家、AI技术专家张良均将做客华章直播间,为大家讲述数据分析与挖掘实战,跟着张良均老师学大数据准没错~  

直播时间:4月11日 19:30-20:30  


直播内容:·分享基于开源工具快速开发企业级大数据挖掘应用的实战经验 ·分析未来五年企业对大数据应用型人才需求状况,以及如何快速入门大数据挖掘领域 ·推荐适合初学者的基于Python引擎、用于数据分析与挖掘建模的开源平台  


欢迎大家扫码预约


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存