3分钟掌握Excel网络爬虫

Original 森淼风巢 2020-01-07

一、不废话，举个栗子

抓取北京PM2.5各监测站点实时数据。网址：

http://www.86pm25.com/city/beijing.html

完成数据抓取只要 20 秒钟。

注：手机屏幕有限，细节无法展示，电脑上打开可看高清大图。

二、抓取流程

抓取网站表格数据分为以下 5 步：

1、打开欲抓取网站，复制网址。

2、打开 Excel，依次点击「数据」选项卡->「自网站」按钮。

3、在弹出的「从 Web」窗口中，黏贴复制的网址，点击右下角「确定」。

4、在弹出的「导航器」窗口，选中要抓取的表格（通常会同时显示几个表格，可以反复尝试，挑出你要的那个），点击右下角「加载」。

5、自此，表格数据抓取完成。

三、自动刷新

如果网站数据还会不定时更新，想要表格打开即为最新内容并可定时刷新，可进行如下设置：

1、依次点击「数据」选项卡 ->「全部刷新」按钮下小箭头-> 「连接属性」按钮。

2、在弹出的「查询属性」窗口中选中 “允许后台刷新”，选中并设定 “刷新频率”，选中“打开文件时刷新数据”。

3、自此自动刷新功能设定完成。以后每次打开文档均为最新版。此外还可点击「全部刷新」按钮实时刷新。

四、小结

1、应用场景：

包含表格元素的网站，比如下面两个，试试看呗。eg：

1）新浪彩票双色球数据：

http://zst.aicai.com/ssq/dmyl_hq/

2）国家统计局全国固定资产投资数据：

http://www.stats.gov.cn/tjsj/zxfb/201801/t20180118_1574955.html

2、使用限制：

Excel 抓取网站数据并非适用所有网站，抓取网页内必须包含表格元素，如无此元素则无法抓取。此类网站数量大概占所有网站数量10%。

如想从 90%~100% 的网站自动化抓取数据，请关注此公众号（风巢：Wind-Nest）后续发布的 Web Scraper 及 Python 爬虫系列教程。

【福利】在公众号后台回复 “wsdd” 获取 Web Scraper 网络爬虫官方文档中文版 pdf 版下载链接。