秋天的第一杯奶茶该买哪家？Python 爬取美团网红奶茶店告诉你

Gordon，Alice AI科技大本营 2020-12-18

作者 | Gordon，Alice

来源 | CSDN

现在越来越多年轻人手里的那一杯快乐肥宅水，从可乐换成了奶茶。上世纪80年的奶茶并不像现在的奶茶口味繁多，配料多样，而大部分80、90后童年的奶茶只有一个名字，那就是“台湾珍珠奶茶”。只需要一间几平方米的小店，一台手动封杯口机器，几罐不同口味的奶茶粉末，就可以开一家奶茶店。

奶茶起源于中国北方游牧民族，知名于中国台湾。早期的台湾奶茶品牌，如CoCo、50岚、老虎茶等等。前两家CoCo和50岚（现在的1点点）都已经成为中国大陆大型的连锁奶茶店。随着奶茶越来越受大众喜爱，涌现出更多的本土奶茶品牌，如蜜雪冰城、益禾堂。再到如今的网红时代，由于不同奶茶品牌的口味差异不大，如何更好地营销自己的奶茶品牌，让消费者能从众多奶茶中翻到自己的牌子，变得更加重要。例如奈雪的茶主打高端路线，奶茶均价在40元左右；喜茶主打品牌差异化，注重茶饮口感的同时营造店面排长龙的“时尚文化”。

图1 奶茶发展史

数据获取

本文数据来源于美团网，抓取了12个热门城市的奶茶店名单，城市包括：北京、上海、广州、深圳、天津、西安、重庆、杭州、南京、武汉、成都和长沙。共计68614家奶茶店，3万多个奶茶品牌。在构建抓取URL时，需要注意将城市的维度具体到城市商圈，因为每个URL最多只显示32页内容，保证抓取每个城市时的数据量是准确的。

# 构建抓取URL
def get_url_1():
    for city,city_code in city_dict.items():
        for block_dict in area_dict[city]:
            for children in block_dict['children']:
                for page in range(1,33):
                    block_code = children['id']
                    offset = 32 * (page-1)
                    # print(city, area, block, block_code)
                    url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code)
                    redis_db.sadd('meituan_milk', url)

数据清洗

数据清洗部分，主要清洗了奶茶店铺名称，虽然数据均来源于美团网，但是同一个奶茶品牌会有多种格式，如1点点和1點點，大卡司和大卡司DAKASI。由于奶茶品牌数量众多，并且真假难辨，所以只能进行针对性清洗，对部分名气高的奶茶品牌名称要保证其统一。

# 清洗字段
def clean(x):
    title = re.sub(u"（.*?）", "", x['title'])
    title = title.replace('點點','点点').replace('（','').replace('）','')
    title = title.replace('一点点','1点点')
    if '一杯会说话的茶' in title:
        title = '1314一杯会说话的茶'
    elif '大卡司' in title:
        title = '大卡司DAKASI'
    elif '1点点' in title:
        title = '1点点'
    elif '都可' in title:
        title = 'CoCo都可'
    elif '书亦烧仙草' in title:
        title = '书亦烧仙草'
    elif '蜜雪冰城' in title:
        title = '蜜雪冰城'
    elif 'royal' in title or 'Royal' in title or 'ROYAL' in title:
        title = 'Royaltea皇茶'
    elif 'ALS' in title:
        title = 'ALS GONG CHA贡茶'
    elif 'GONG' in title:
        title = '贡茶'
    elif '茶百道' in title:
        title = '茶百道'
    elif '吾饮良品' in title:
        title = '吾饮良品'
    elif '悸动烧仙草' in title:
        title = '悸动烧仙草'
    elif '沪上阿姨' in title:
        title = '沪上阿姨'
    elif '7分甜' in title:
        title = '7分甜'
    elif '古茗' in title:
        title = '古茗'
    elif '奈雪' in title:
        title = '奈雪の茶'
    elif '悦色' in title:
        title = '茶颜悦色'
    else:
        pass
    return title
df['title'] = df.apply(clean, axis=1)

数据可视化

当笔者在制作可视化图表的时候，会发现有些奶茶品牌的名称极为相似，让人有一种傻傻分不清楚的感觉。

图2 类似的奶茶品牌名称

例如喜茶的前身“Royaltea皇茶”，因为皇茶这个商标无法注册版权，只能加前缀或后缀，所以就出现了“世代皇茶”，“雅岛英皇茶”等等的同胞“兄弟”。正是饱受这种侵权而不能诉诸法律的情况，聂云宸才会想到直接弃了皇茶这个品牌，改名为喜茶。无独有偶，“贡茶”这个牌子也被各种盗版，而且部分盗版牌子居然还有主页官网，让你很难区分哪家才是正品，这也足以显示奶茶行业品牌竞争的激烈情况。

图3 热门城市奶茶店铺数量情况

从全国12个热门城市来看奶茶店铺数量分布情况，广州的店铺数量是最多的，拥有11419家，之后是深圳（9367家）、上海（7940家）、成都（7361家）。4个一线城市中，北京的奶茶店只有4643家，笔者猜测因为北京位于北方，并不像南方一年四季几乎都是热天，而奶茶主要是作为冷饮，尤其现在最流行的奶盖茶，只适用于冷饮，过热的水温会导致奶盖融化。还有一点原因是，由于茶树的生长发育需要大量水分，对空气湿度和降水量均有比较高的要求，所以国内茶叶的产地主要集中在南方，相应的运输成本也有价格优势，因此相较于南方的热门城市，北京、天津奶茶店铺的数量相对较少。

图4 奶茶品牌店铺数量 TOP15

在这12个热门城市中，总共有3万多个奶茶品牌，最为消费者所熟悉的奶茶品牌有1点点和CoCo，它们都拥有超过1500家门店，并且都是存活了10多年的老品牌。此外，书亦烧仙草、蜜雪冰城和贡茶这些也都是有上千家门店的奶茶品牌，它们的门店都喜欢开在一起，类似于麦当劳和肯德基。一旦你在某个城市商圈看到其中一家奶茶店，在几百米的距离内肯定能找到上述的某几家奶茶店。

图5 特色奶茶分布情况

有些奶茶店很有自己的地域特色，如果你想品尝它们的原版奶茶，就可能需要跑到别的城市才能喝到，因为它们大部分分店都只开在本土城市。例如“吾饮良品（I Drink）”大部分分店开设在武汉。“茶颜悦色”的店面93.57%在长沙。“沪上阿姨”虽然生在上海，却火在天津，分店总数有208家，而上海只有6家分店。“古茗”的分店主要集中在杭州和重庆，“茗”象征着茶，因为这2个城市是盛产茶叶的地方。如果大家到了这些城市，记得打卡喝一杯原汁原味的奶茶。

图6 大众奶茶分布情况

接下来介绍一下大众奶茶中的1点点，CoCo，书亦烧仙草和益禾堂的热门城市分布情况，因为笔者在广州经常能看到这几家店，而且店面都是挨得很近。1点点和CoCo在上海的分店数量都是最多的，而书亦烧仙草在成都和长沙比较普遍，益禾堂则是在广州和深圳。这4家奶茶品牌在广州分店数量均有上百家，也难怪走到哪都能看到这几家奶茶店。

图7 奶茶品牌均价情况

“奈雪の茶”和“喜茶”作为近期最火的新式网红茶饮，前者人均消费39元，后者约31元。而大部分奶茶品牌的均价在10-17元，之所以这两家奶茶品牌均价会这么高，原因在于它们采用了“茶饮+”的营销方式，除了近30元一杯的奶茶外，还有吐司，甜品和咖啡等搭配产品，而其它品牌只是单纯销售各式各样的奶茶。

结语

此次笔者只分析了12个热门城市的奶茶门店数据，如果将范围扩展到全国进行分析，或许能得到更多有意思的结果。另外，由于奶茶的含糖量高，茶叶中又含有咖啡因，容易导致肥胖和失眠，毕竟某个周姓天王歌手由于爱好奶茶已经日益发胖，就是最好的样例。身边也有朋友说晚上喝完奶茶，会睁眼到天亮的情况，所以奶茶不能多喝。目前也有部分品牌开始推出无糖茶，用代糖来代替白糖，这也许是奶茶的未来趋势，既好喝又健康的奶茶，谁不爱呢？最后，如果有同事或朋友想请你喝奶茶，请参考图7价格表，好好“善待”一番吧。

作者简介：

Gordon，对爬虫/机器学习/数据建模/可视化均有所涉猎的数据分析师。

Alice，在读研究僧一枚，跨行新手数据分析师。

更多精彩推荐

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

秋天的第一杯奶茶该买哪家？Python 爬取美团网红奶茶店告诉你

图1 奶茶发展史

数据获取

数据清洗

数据可视化

当笔者在制作可视化图表的时候，会发现有些奶茶品牌的名称极为相似，让人有一种傻傻分不清楚的感觉。

图2 类似的奶茶品牌名称

图3 热门城市奶茶店铺数量情况

图4 奶茶品牌店铺数量 TOP15

图5 特色奶茶分布情况

图6 大众奶茶分布情况

图7 奶茶品牌均价情况

结语

AI视觉大牛朱松纯担任北大AI研究院院长，提出通过构建大任务平台走向通用AI

可租赁、可定制的虚拟人居然还能这么玩？9月25日来百度大脑人像特效专场一探究竟！

倒计时 4 天！高通人工智能应用创新大赛颁奖典礼线上隆重举行

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

秋天的第一杯奶茶该买哪家？Python 爬取美团网红奶茶店告诉你

图1 奶茶发展史

数据获取

数据清洗

数据可视化

当笔者在制作可视化图表的时候，会发现有些奶茶品牌的名称极为相似，让人有一种傻傻分不清楚的感觉。

图2 类似的奶茶品牌名称

图3 热门城市奶茶店铺数量情况

图4 奶茶品牌店铺数量 TOP15

图5 特色奶茶分布情况

图6 大众奶茶分布情况

图7 奶茶品牌均价情况

结语

AI视觉大牛朱松纯担任北大AI研究院院长，提出通过构建大任务平台走向通用AI

可租赁、可定制的虚拟人居然还能这么玩？9月25日来百度大脑人像特效专场一探究竟！

倒计时 4 天！高通人工智能应用创新大赛颁奖典礼线上隆重举行

您可能也对以下帖子感兴趣