其他

学会网络爬虫,一年发10篇论文!

2018-03-21 本社 中外学术情报

写论文,还在为数据和资料发愁?那可能是因为你获取数据的方法太落后了。试试网络爬虫吧!


作为一种研究方法辅助,现在很多学科都在风行使用网络爬虫技术。海量的数据呈现之下,传统方法显得既笨拙、又呆板。有同学和老师反映,现在如果还用那些传统方法获取数据写论文,期刊编辑都没兴趣了!


网络爬虫这么有用,可很少有地方可以系统而直观地学。有同学和老师抱怨,网上扒的一些资料,要么不知所云,要么废话连篇,学了许久都还搞不清楚,真是愁坏了。


在此情况下,中外学术情报专门邀请了美国名校Jack老师来给大家讲授“如何用Ptython抓取网页数据”这个课。Jack老师是信息科学博士,在信息与数据处理相关研究方法方面经验老道,并拥有丰富教学经验。让他讲这个方法,实在太适合不过了。


本系列课程共分三讲,讲课中,老师极其注意效率,内容丰富,全面系统。外加这是个视频课,直观可视,简直是一学就会,一听就懂。


具体来说,该课程包括但不限于以下重要内容:


第一讲

1. 网络数据资源的存储和展示

本小节介绍服务器上的数据资源存储,用html/css/JS/AJAX说明网页资源的展示。

2.如何用个人设备访问网络资源(‘三次握手‘)

通过三次握手的说明,表达个人设备访问和获取网络所需要经历的过程。

3.网络爬虫的工作原理介绍

通过爬虫工作原理和工作流程的讲解,更清楚地明确了爬虫的工作过程,从而为写爬虫程序提供了一定的基础。

 

第二讲

1.用Python构建网络爬虫

Python抓取网页数据,既简单而又具有一定的灵活性。同时Python可以有多种方式构建网络爬虫,抓取数据。

2.Python 两大爬数据的包对比

BeautifulSoup V.S. Scrapy

3. 其他与爬虫相关的方法和包介绍

本节通过查阅BeautifulSoup的官方文档,进行相关方法的具体说明和介绍,从而明确在爬虫中常用的方法和本课程实验能用到的方法等。

4. 如何防止被网络服务器禁止爬数据

网络爬虫被服务器禁止是常用的事,因而本节提供了两个常用的方法帮助爬虫躲避服务器的侦测,从而抓取数据。

 

第三讲

1. 实际演示如何从Yelp上抓取纽约地区的餐馆数据

餐馆名称/评级/口味/电话号码/地理位置等数据

2.实际演示如何从IMDB上抓取电影评论数据

某部电影的评分数/评论内容/评论人数/

 

如上所示,学生通过该课程,既能明确网络资源的存储展示,网站的显示细节、网络爬虫的工作原理等,又能会学会如何用Python BeautifulSoup包抓取网上的数据以及防止服务器禁止爬虫方法等实际操作方法,可谓收获满满。


学会了数据抓取和存储,现在不论是对个人的学术学习研究还是公司开拓新市场,均有非常重要的作用。当下比较流行的人工智能、机器学习、深度学习,更是离不开数据的支撑。该课程不仅从理论上介绍网络爬虫抓取数据的过程,更有通过真实的例子手把手教学生用Python抓取数据,真是非常有用,最好一定要来学学。


听说开了这个课,很多同学和老师都来听了。点击阅读原文,抓紧学起来吧!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存