学会网络爬虫，一年发10篇论文！

2018-03-11 本社中外学术情报

写论文，还在为数据和资料发愁？那可能是因为你获取数据的方法太落后了。试试网络爬虫吧！

作为一种研究方法辅助，现在很多学科都在风行使用网络爬虫技术。海量的数据呈现之下，传统方法显得既笨拙、又呆板。有同学和老师反映，现在如果还用那些传统方法获取数据写论文，期刊编辑都没兴趣了！

网络爬虫这么有用，可很少有地方可以系统而直观地学。有同学和老师还抱怨，网上扒的一些资料，要么不知所云，要么废话连篇，学了许久都还搞不清楚，真是愁坏了。

在此情况下，中外学术情报专门邀请了美国名校Jack老师来给大家讲授“如何用Ptython抓取网页数据”这个课。Jack老师是信息科学博士，在信息与数据处理相关研究方法方面经验老道，并拥有丰富教学经验。让他讲这个方法，实在太适合不过了。

本系列课程共分三讲，讲课中，老师极其注意效率，内容丰富，全面系统。外加这是个视频课，直观可视，简直是一学就会，一听就懂。

具体来说，该课程包括但不限于以下重要内容：

第一讲

1. 网络数据资源的存储和展示

本小节介绍服务器上的数据资源存储，用html/css/JS/AJAX说明网页资源的展示。

2.如何用个人设备访问网络资源（‘三次握手‘）

通过三次握手的说明，表达个人设备访问和获取网络所需要经历的过程。

3.网络爬虫的工作原理介绍

通过爬虫工作原理和工作流程的讲解，更清楚地明确了爬虫的工作过程，从而为写爬虫程序提供了一定的基础。

第二讲

1.用Python构建网络爬虫

Python抓取网页数据，既简单而又具有一定的灵活性。同时Python可以有多种方式构建网络爬虫，抓取数据。

2.Python 两大爬数据的包对比

BeautifulSoup V.S. Scrapy

3. 其他与爬虫相关的方法和包介绍

本节通过查阅BeautifulSoup的官方文档，进行相关方法的具体说明和介绍，从而明确在爬虫中常用的方法和本课程实验能用到的方法等。

4. 如何防止被网络服务器禁止爬数据

网络爬虫被服务器禁止是常用的事，因而本节提供了两个常用的方法帮助爬虫躲避服务器的侦测，从而抓取数据。

第三讲

1. 实际演示如何从Yelp上抓取纽约地区的餐馆数据

餐馆名称/评级/口味/电话号码/地理位置等数据

2.实际演示如何从IMDB上抓取电影评论数据

某部电影的评分数/评论内容/评论人数/

如上所示，学生通过该课程，既能明确网络资源的存储展示，网站的显示细节、网络爬虫的工作原理等，又能会学会如何用Python BeautifulSoup包抓取网上的数据以及防止服务器禁止爬虫方法等实际操作方法，可谓收获满满。

学会了数据抓取和存储，现在不论是对个人的学术学习研究还是公司开拓新市场，均有非常重要的作用。当下比较流行的人工智能、机器学习、深度学习，更是离不开数据的支撑。该课程不仅从理论上介绍网络爬虫抓取数据的过程，更有通过真实的例子手把手教学生用Python抓取数据，真是非常有用，最好一定要来学学。

听说开了这个课，很多同学和老师都来听了。点击阅读原文，抓紧学起来吧！