同时用R语言和Python爬取知乎美图

查看原文

其他

同时用R语言和Python爬取知乎美图

2017-08-15 杜雨 R语言中文社区

作者:杜雨，EasyCharts团队成员，R语言中文社区专栏作者，兴趣方向为：Excel商务图表，R语言数据可视化，地理信息数据可视化。
个人公众号：数据小魔方（微信ID：datamofang），“数据小魔方”创始人。

学习Python已有两月有余，是时候检验下学习效果了，之前练习了不少R语言数据爬取，Python的爬虫模块还没有来得及认真入门，乱拼乱凑就匆忙的开始了，今天就尝试着使用R+Python来进行图片爬取，完成一个简单得小爬虫。

目标网址在这里：

https://www.zhihu.com/question/35931586/answer/206258333

R语言版：

library(rvest)
library(downloader)
url<-"https://www.zhihu.com/question/35931586/answer/206258333"

link<- read_html(url)%>% html_nodes("div.RichContent-inner>span")%>%
html_nodes("img")%>%html_attr("data-original")%>%na.omit
#借助Chrome的审查元素功能，借助其路径copy功能精准定位图片所在节点

link<-link[seq(1,length(link),by=2)] #剔除无效网址
Name<-sub("https://pic\\d.zhimg.com/v2-","",link) #提取图片名称
dir.create("D:/R/Image/zhihu/zhihu0807") #建立存储文件夹
setwd("D:/R/Image/zhihu/zhihu0807") #锁定临时目录
for(i in 1:length(link)){
download(link[i],Name[i], mode = "wb")
} #下载过程：

-----------

Python:

---------

import requests
from bs4 import BeautifulSoup
import os
import re
import urllib

目标网址：

url="https://www.zhihu.com/question/35931586/answer/206258333"

header = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'}
page=requests.get(url,headers=header) #读取网址
soup=BeautifulSoup(page.text,'lxml') #解析地址

link_list=soup.select("div[class='RichContent-inner'] span img")[::2]
#使用CSS选择器提取图片地址所在节点

os.makedirs("D:/Python/Image/zhihu0807")
os.chdir('D:/Python/Image/zhihu0807')
for link in link_list:
mylink=link.get('data-original') #使用get方法提取图片地址：
name=re.findall(r"v2-.*?\.jpg",mylink)[0] #匹配图片名称
urllib.request.urlretrieve(mylink,name) #下载

完整代码：

R语言版：

library(rvest)
library(downloader)
url<-"https://www.zhihu.com/question/35931586/answer/206258333"
link<- read_html(url)%>% html_nodes("div.RichContent-inner>span")%>%html_nodes("img")%>%html_attr("data-original")%>%na.omit
link<-link[seq(1,length(link),by=2)] #剔除无效网址
Name<-sub("https://pic\\d.zhimg.com/v2-","",link) #提取图片名称
dir.create("D:/R/Image/zhihu/zhihu0807") #建立存储文件夹
setwd("D:/R/Image/zhihu/zhihu0807") #锁定临时目录
for(i in 1:length(link)){
download(link[i],Name[i], mode = "wb")
} #下载过程：

Python版：

import requests
from bs4 import BeautifulSoup
import os
import re
import urllib
url="https://www.zhihu.com/question/35931586/answer/206258333"
header = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'}
page=requests.get(url,headers=header)
soup=BeautifulSoup(page.text,'lxml')
link_list=soup.select("div[class='RichContent-inner'] span img")[::2]
os.makedirs("D:/Python/Image/zhihu0807")
os.chdir('D:/Python/Image/zhihu0807')
for link in link_list:
mylink=link.get('data-original')
name=re.findall(r"v2-.*?\.jpg",mylink)[0]
urllib.request.urlretrieve(mylink,name)

更多精彩内容请戳：

搞定矢量图形编辑，让你的报告美出新高度！

1、矢量图形获取与转换

2、矢量图形编辑与改造

3、如何在Excel,PPT中操控矢量图

4、矢量图形与数据分析地图案例应用

5、图形高精度输出与版面控制

点击阅读原文立即报名

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

同时用R语言和Python爬取知乎美图

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

生成图片，分享到微信朋友圈

同时用R语言和Python爬取知乎美图

您可能也对以下帖子感兴趣