浅谈Python网络爬虫

2017-05-11 ArkTeam/XHJ 合天智汇

点击“合天智汇”关注，学习网安干货

一相关背景

网络爬虫(Web Spider)又称网络蜘蛛、网络机器人，是一段用来自动化采集网站数据的程序。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络爬虫不仅能够为搜索引擎采集网络信息，而且还可以作为定向信息采集器，定向采集某些网站下的特定信息，如：汽车票价，招聘信息，租房信息，微博评论等。

二应用场景

应用场景

爬虫技术在科学研究、Web安全、产品研发、舆情监控等领域可以做很多事情。如：在数据挖掘、机器学习、图像处理等科学研究领域，如果没有数据，则可以通过爬虫从网上抓取；在Web安全方面，使用爬虫可以对网站是否存在某一漏洞进行批量验证、利用；在产品研发方面，可以采集各个商城物品价格，为用户提供市场最低价；在舆情监控方面，可以抓取、分析新浪微博的数据，从而识别出某用户是否为水军。

三本文目的

本文简要介绍对于定向信息采集所需了解基本知识和相关技术，以及python中与此相关的库。同时提供对与数据抓取有关库的封装实现，目的是减少不必要的配置，便于使用，目前仅包含对urllib2, requests, mechanize的封装。

地址： https://github.com/xinhaojing/Crawler

四运行流程

对于定向信息的爬取，爬虫主要包括数据抓取、数据解析、数据入库等操作流程。

其中:

（1）数据抓取：发送构造的HTTP请求，获得包含所需数据的HTTP响应；

（2）数据解析：对HTTP响应的原始数据进行分析、清洗以提取出需要的数据；

（3）数据入库：将数据进一步保存到数据库（或文本文件），构建知识库。

基本运行流程

详细运行流程

五相关技术

爬虫的相关技术包括：

（1）数据抓取：了解HTTP请求和响应中各字段的含义；了解相关的网络分析工具，主要用于分析网络流量，如：burpsuit等。一般情况，使用浏览器的开发者模式即可；

（2）数据解析：了解HTML结构、JSON和XML数据格式，CSS选择器、Xpath路径表达式、正则表达式等，目的是从响应中提取出所需的数据；

（3）数据入库：MySQL，SQLite、Redis等数据库，便于数据的存储；

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！

炸大瓜！君子固穷豪刷阿哲，锤“姓氏哥”！VIC哥凌晨豪刷俊雅！

抖音兜底？阿哲爆瓜违约金！晒大量流量卡，回应官方推流！

舞帝一哥被封！谁也没面子！阿哲回应外界舆论，放话：真金白银谁敢干！