查看原文
其他

地毯式搜索之"徽州宴"

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者方一卓,河南大学经济学院

本文编辑:刘子艳

技术总编:李婷婷

Stata&Python云端课程来啦!

为了感谢大家长久以来的支持和信任,爬虫俱乐部为大家送福利啦!!!Stata&Python特惠课程双双上线腾讯课堂~原价2400元的Python编程培训课程,现在仅需100元,详情请查看推文《Python云端课程福利大放送!0基础也能学~》。关于Stata,爬虫俱乐部推出了系列课程,内容包括字符串函数、正则表达式、爬虫专题和文本分析,可以随心搭配,价格美丽,物超所值,更多信息可查看Stata系列推文《与春天有个约会,爬虫俱乐部重磅推出正则表达式网络课程!》《与春天有个约会,爬虫俱乐部重磅推出基本字符串函数网络课程》等。变的是价格,不变的是课程质量和答疑服务。对报名有任何疑问欢迎在公众号后台和腾讯课堂留言哦!

7月2日,一则短视频引爆了全网的关注,在视频中,一名女子因遛狗没牵狗绳,导致其差点咬到了小区的一位小女孩,之后小女孩母亲上前理论,谁知女子态度嚣张,直接动起了手。该母亲选择了报警,在面对警察的调解时,女子的一番张狂言论彻底点燃了群众的怒火。因言辞过于生猛,咱们直接放图:

在图中我们可以看到,该女子"无惧无畏”的原因是她干了几个“徽州宴”,那么这“徽州宴”究竟是何方神圣,竟可以让一介凡人敢于挑战道德观念,无视法律法规?今天就让我们来利用Stata来盘一盘这火爆全网的饭店,话不多说,直接上才艺(daima):

首先我们要下载两个外部命令cngcodecnmapsearch之前的文章《定位神器——cngcode》给大家介绍了如何申请百度密钥以及如何利用百度API获取指定中文地址的地理经纬度,《让Stata完美牵手中国地图之cnmapsearch》给我们介绍了根据关键词搜索给定经纬度周边的兴趣点,返回兴趣点的名称、中文地址、距离、标签等,而今天我们就使用这两个命令来对“徽州宴”进行地毯式搜索。

local url "https://stata-club-1257787903.cos.ap-chengdu."net install cnmapsearch,from("`url'myqcloud.com/cnmapsearch/") replacessc install cngcode

接下来,我们先读入安徽省各个市和其属下的县区,力求搜索范围全覆盖。然后利用循环求出每个县区默认的经纬度(在百度地图中县区经纬度往往是县区的中心位置),keyword定义关键词“徽州宴”,filter("cater")设置过滤条件,radius(50000)设置搜索半径为50000米,这样我们就能对给定县区经纬度周边50000米范围进行餐饮搜索。此外,对每个地区搜索结果进行筛选,如果搜索中没有出现“徽州宴”或者相关的兴趣点,就进行排除,只保存有“徽州宴”以及相关兴趣点的搜索结果。

clear allcap mkdir "E:\徽州宴"cd "E:\徽州宴"use 安徽行政区划.dta,clearcd "E:\徽州宴\数据"local a = _Nforvalues i=1/`a' { preserve keep in `i' local bdk 你的百度密钥 cngcode,baidukey(`bdk') fulladdress(城市) /// lat(hzy_lat) long(hzy_long) cap cnmapsearch,baidukey(`bdk') /// latitude(hzy_lat) longitude(hzy_long) /// keyword("徽州宴") radius(50000) filter("cater") cap confirm string variable name if _rc==0 { save `i'.dta,replace } restore }我们看一下蚌埠市龙子湖区的搜索结果如下,需要注意的是,由于我们设置的搜索半径比较大,可能会出现其他区的结果出现在给定区域,准确地址还是要以address中给定的位置为准。

clear fs *.dtaforeach file in `r(files)' { append using `file',force }keep if index(name,"徽州宴")drop if telephone == ""duplicates drop telephone,force

  初次合并结果:

清洗结果:

最终我们可以清楚的看到通过百度地图搜索出来的"徽州宴”的统计,以此类推我们还可以对全国范围进行一个精确的筛选,统计全国“徽州宴”的数量,地址,电话等详细信息。  

此外,考虑到最近有不少全国各地小伙伴慕名去“徽州宴”进行“参观打卡”,我们还利用cnmapsearch命令对“徽州宴"周边2000米以内的酒店按照星级进行了统计(按星级降序),以方便外地游客可以选择合适的酒店居住。

clear allset obs 1 gen address = "安徽省蚌埠市徽州宴"local bdk 你的百度密钥cngcode,baidukey(`bdk') fulladdress(address) ///lat(hzy_lat) long(hzy_long)cap cnmapsearch,baidukey(`bdk') ///latitude(hzy_lat) longitude(hzy_long) ///keyword("酒店") radius(2000) filter("hotel" "level")

结果如下:

在信息高度发达的今天,任何不良的言论和行为都会公之于众,在网络舆论的监督下,可以让一个不受关注的事情迅速升级为公众事件,然后得到有关部门的重视,这里我们希望大家能合理利用网络来伸张正义!

最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。

喜欢就给我们点赞关注哦~


对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!

往期推文推荐

爬虫技巧 | 通过解析动态网页真实地址爬取网页表格

如何处理缺失值?这一篇搞定!

  善用dataex命令,高效沟通你我他

  用Markdown制作简历,强力助力你的求职季

大数据下的大学分数线排行榜,快来围观!

《觉醒年代》—带你回到百年前

用Stata画的三维图很奇怪怎么办?

如何随机生成满足特定数据特征的新变量?

爬取无法翻页网页——自然科学基金项目及可视化

爬取京东评论数据进行情感分类

Stata与音乐之间的酷炫连接

这些年,爬虫俱乐部走出的博士们!
         看这里,近五年各校高被引论文上榜名单!

高校经管类核心期刊发文排行榜

疯狂的科研创新加速器——Stata!

  可盐可甜,“粽”有所爱,快来pick你最爱的粽子吧!

  好玩有趣的手绘图形库——cutecharts

  爬虫实战|摩尔庄园微博话题讨论

  一季度财报出炉,哪些公司最烧钱?

  一季度财报出炉,哪些公司最赚钱?

  技能篇 | 图片合并大法

  批量空气质量数据文件合并分析

  Stata17之日期时间新功能

  Stata17之Lasso新功能

爱奇艺视频弹幕爬取之《小舍得》数据可视化利器——Matplotlib

  从第七次人口普查看中国人口变化|Stata与Python交互绘图

  200万投资者关注!!哪家公司这么牛?

  
带你领略一天天气之变化

  利用pyecharts看微博粉丝地区分布

关于我们 


微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存