【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”
你不一定要点蓝字关注我的
请输入标题 bcdef
今天带给大家的是一款爬虫神器-selenium,使用该库可以对付绝大部分的网站,不论这网站反爬策略多么的厉害,在selenium面前经常失效。
请输入标题 abcdefg
selenium是什么?
请输入标题 bcdef
官网中介绍selenium
Selenium automates browsers. That's it! What you do with that power is entirely up to you. Primarily, it is for automating web applications for testing purposes, but is certainly not limited to just that. Boring web-based administration tasks can (and should!) also be automated as well.
Selenium自动化浏览器。 你用这种力量做什么完全取决于你。 首先,它是为了测试目的自动化web应用程序,但是当然不仅限于此。 基于Web的管理任务也可以(也应该)自动化。
请输入标题 abcdefg
为什么selenium好用?
请输入标题 bcdef
一般的写爬虫的方法是用python脚本直接对目标网站进行访问,而且只对目标数据进行采集,访问速度很快,这样目标网站很容易就识别出你是机器人,然后把你封锁了~~
而
使用selenium写爬虫,python脚本操控浏览器进行访问,也就是说python脚本和目标网站之间多了个浏览器的操作,这样的行为更像是人类行为。这样很多难爬的网站也可以轻而易举的抓数据了。
请输入标题 abcdefg
使用selenium的准备
请输入标题 bcdef
selenium支持IE,Chrome,Firefox多个浏览器,我习惯用Firefox,而且我没在其他浏览器使用成功过,所以建议大家跟我一起用Firefox吧。
首先要确保你自己安装了Firefox浏览器比较新的版本,现在最新的是52。安装好firebug,下载网址为https://www.mozilla.org/en-US/firefox/developer/
再安装firepath,安装网址https://addons.mozilla.org/en-US/firefox/addon/firepath/
然后 再安装firefox36,经过测试selenium对新版本firefox支持的不好,经常出问题,为了避免初学者遇到困难,建议大家安装firefox36,勿谓言之不预。(firefox36不太好找,看完文章可以后台回复“火狐36”就能得到下载资源)
请输入标题 abcdefg
selenium基本知识
请输入标题 bcdef
from selenium import webdriver
from bs4 import BeautifulSoup
初始化浏览器
driver = webdriver.Firefox()
打开某个网址
driver.get(url)
如果网站需要输入登录账号密码
这里用到firepath找到目标位置的xpath
找到输入账号框,清除框内信息,再输入你的账号
driver.find_element_by_xpath(xpath).clear()
driver.find_element_by_xpath(xpath).send_keys("你的账号")
找到输入密码框,清除框内信息,再输入你的密码
driver.find_element_by_xpath(xpath).clear()
driver.find_element_by_xpath(xpath).send_keys("你的密码")
定位“点击登录”框的位置的xpath,执行登录
driver.find_element_by_xpath(xpath).click()
访问你想爬的网页的网址
driver.get(url)
获取该网页的源码
html = driver.page_source
BeautifulSoup定位标签
bsObj = BeautifulSoup(html,‘html.parser’)
再之后如何操作很简单,我就不写了啊,视频里有
请输入标题 abcdefg
xpath如何获得呢?
请输入标题 bcdef
首先确保你已经安装好firefox新版本,并且安装好插件firebug和firepath。
然后,请看下图学习
首先点击图中1,打开firebug
然后,点击图中2,打开firepath
再然后,点击图中的3,箭头
再然后,点击目标位置,例如图中的4为账号输入框
最后,在图中5复制xpath的值
任何元素的定位都重复上述步骤
代码
运行效果
请输入标题 bcdef
你看屏幕自动弹出一个浏览器,并且浏览器自己自动翻页浏览,很诡异,就像电脑被一个透明人操控似的。
截图看不出效果建议大家观看视频
请输入标题 abcdefg
https://v.qq.com/txp/iframe/player.html?vid=v0386nxt1q1&width=500&height=375&auto=0
支持
一下
请输入标题 bcdef
如果你觉得文章有用,认可大邓的创作,可以让大邓知道,开心一下(无所谓多少,我都会因此开心的)
请输入标题 abcdefg
每次听到震动
都让我更加坚定
坚持
写下去的动力
希望更多的人因我学会python
尊敬的称呼一声大邓老师
大邓真心高兴😄
大邓带你玩转python
一起分享数据科学的点滴
微信公众号ID : shuxierenshengba
回复“火狐36”,即可获得项目源码和火狐浏览器36版本下载资源