其他
scrapy实战(1)---爬取西刺代理IP
阅读文本需要1.5分钟
之前介绍了scrapy框架,所以下面将使用scrapy来爬取免费代理ip。由于免费代理网站比较多,这里就以西刺代理为例
创建scrapy项目
scrapy startproject get_ip demo
创建spider
scrapy genspider get_ip www.xicidaili.com
通过观察网站,找到需要获取的数据
这里主要使用xpath来定位,以后还会详细的讲解一下xpath的使用方法
编写items.py
编写get_ip.py
通过查看网站,右键,选择复制xpath路径
修改settings.py
添加爬虫设置
1. robotstxt_obey = False
2. 禁止cookie
3. 添加请求头
运行
为了让输出的数据使用utf-8编码,需要在settings.py最后加一句
FEEDEXPORTENCODING = 'utf-8'
在Terminal运行下面的代码,以json格式输出爬取到的数据
scrapy crawl get_ip -o get_ip.json
运行结果
有了这些代理ip,以后就不怕被ban了。
想要源码学习的同学,可以在底下留言哦
如果觉得文章还不错,欢迎打赏