scrapy实战(1)---爬取西刺代理IP

原创： stormdony Python绿洲 2018-08-21

阅读文本需要1.5分钟

之前介绍了scrapy框架，所以下面将使用scrapy来爬取免费代理ip。由于免费代理网站比较多,这里就以西刺代理为例

创建scrapy项目

scrapy startproject get_ip demo

创建spider

scrapy genspider get_ip www.xicidaili.com

通过观察网站,找到需要获取的数据

这里主要使用xpath来定位，以后还会详细的讲解一下xpath的使用方法

编写items.py

编写get_ip.py

通过查看网站,右键,选择复制xpath路径

修改settings.py

添加爬虫设置
1. robotstxt_obey = False
2. 禁止cookie
3. 添加请求头

运行

为了让输出的数据使用utf-8编码,需要在settings.py最后加一句

FEEDEXPORTENCODING = 'utf-8'

在Terminal运行下面的代码,以json格式输出爬取到的数据

scrapy crawl get_ip -o get_ip.json

运行结果

有了这些代理ip,以后就不怕被ban了。

想要源码学习的同学，可以在底下留言哦

如果觉得文章还不错，欢迎打赏