张重庆,你骗我吃了那么多年的鸡公煲,竟然不是重庆的?
告诉你们一个秘密哦,吃了那么久的重庆鸡公煲,居然不是重庆的!而是一个叫张重庆的上海人创办的。
预警!本文是一篇技术文,有很多干货的那种!
本文要给大家介绍一款开源的检索引擎,同时也能拿来做数据分析和数据可视化——ElasticSearch!
不过先别急,在讲技术之前,我们先来讲讲重庆鸡公煲!
事情要从昨天晚上说起,最近我在使用一个开源的检索系统ElasticSearch,正好它的可视化工具可以拿来做数据可视化,于是我就把之前用爬虫抓取的60万美食数据导入到了ES中。
好奇之下,我搜索了一下常见的小吃在全国地理位置的分布,当我搜索到“重庆鸡公煲”的时候发现,重庆没有什么鸡公煲,倒是上海和济南特别多,可视化如下图所示:
上面这张图就是用ElasticSearch生成的,不用写代码就能生成那种哦。
红圈圈圈住的地方就是重庆,几乎没有什么鸡公煲的餐厅,而可以看到发红和发黄的那俩大片区域,就是济南和上海及其周边区域。
二胖转念一想,此事必有蹊跷,于是我百度了下重庆鸡公煲,发现重庆鸡公煲!居然!
张重庆可真会套路啊!
张重庆这一招一下就勾起了我的好奇心,当时我就写了一段Python代码来挖一挖这些“山寨菜”!
用的策略是什么呢?
——找出某个省独有的餐厅。
跑数据的结果出来了!
先给大家看看宁夏的结果:
一眼看过去就是四个大字——眉山川菜。
眉山是四川成都附近的一个城市,那么问题来了,眉山川菜是四川的餐厅吗?
于是二胖百度了一下:
果然不出所料,眉山川菜是宁夏银川的连锁餐厅,和四川没有半毛钱关系。
不会是一个叫眉山川的人做的菜吧?
除了眉山川菜,上图中还有一个重庆辣堂客毛肚火锅,二胖百度了一下,也是只有银川才有。
暂且不说这家店是不是一个叫重庆的人开的,反正它家店的名字起的挺正宗。
堂客在重庆方言中指的是老婆、媳妇儿的意思。我说重庆啊,你辣你媳妇儿不怕挨揍吗?
除了宁夏的山寨菜,我还挖到了一些其他省份的山寨菜。
比如山西的四川辣妹子火锅、浙江的宁夏压砂瓜。山寨产品太多啦,我就不一样举例了。
不过相比之下,还是张重庆牛逼,毕竟重庆鸡公煲这家店可是遍布大江南北了。
不知道各位知不知道什么能颠覆三观的山寨产品呢?
好了,张重庆讲完了,我们该来讲一下ElasticSearch了,一个超牛逼的近实时检索系统。
来看看官网的定义,目前只有英文文档,中文版的文档太滞后了,所以大家好好学英语吧:
Elasticsearch is a highly scalable open-source full-text search and analytics engine. It allows you to store, search, and analyze big volumes of data quickly and in near real time.
简单来说ElasticSearch是一个开源的分布式全文检索搜索引擎,同时还可以拿来做数据分析与可视化,并且它的速度非常快。
你可以把它理解为一个小的谷歌或百度,它能检索一篇文章中的一个或多个词,甚至一句话。对了,它还可以拿来做论文查重哦。
有了这种好东西,当我们有检索需求时,直接拿来用即可,就不用重复造轮子了。
除了它本身,它还有一个可视化的插件——Kibana。Kibana本身也是一个服务,和ElasticSearch之间可以通过http连接,这样就可以把Kibana部署到不同的机器上了。
二胖在自己家里的两台电脑上分别部署了ElasticSearch和Kibana,下图是Kibana的操作界面(正在检索重庆鸡公煲):
我们可以对任意一个或多个字段同时进行检索。
相信不少同学更关心数据可视化吧,ES可以进行多种类型的数据可视化,并且完全不用写代码,用鼠标点点点就行了。
这里二胖截了一张图,是Kibana可视化功能的一部分,如常规的饼图、条形图、图表、地理数据可视化及词云都可以通过它实现,基本能满足各种业务需求。
当然,Kibana的牛逼之处可不只是数据分析和可视化,它还能管理整个集群,因为ElasticSearch是一个分布式的搜索引擎,所以集群中可能有几十、上百个节点,我们可以通过Kibana提供的可视化界面去监控整个集群的健康状态和实时运行情况。
下图是集群的实时检索情况:
下图是集群中每个节点的健康状态,由于二胖只在一台电脑上装了ElasticSearch,所以就只有一个节点。
是不是不少同学看到这里已经不知道二胖在说什么了?
不要紧,二胖在后面的文章中还会详细讲解ElasticSearch的部署和运用,请持续关注哦。今天主要是为了讲一讲张重庆和他的重庆鸡公煲。
对了,记得转发一下本文哦,最好能让张重庆看到!
近期热文
大数据前沿
一个不只讲技术的公众号
长按识别二维码关注