查看原文
其他

Python3 网络爬虫:API 数据的抓取使用

The following article is from Jack Cui Author Jack Cui

点击上方“Python数据科学”,星标公众号重磅干货,第一时间送达☞500g+超全学习资源免费领取


本文转自:Jack Cui



1


前言

网络爬虫,爬天爬地爬空气。

除了常规的下载文字、图片、音频这些,还能干啥?

还能干的有很多,比如一些「多种多样」的特殊服务

2


特殊服务
特殊服务,就是那些定制化的 API。

API 的概念也很好理解:

比如你想爬一个网站的数据,你需要分析这个网站,要向哪个 url 发起请求,要向服务器传递哪些数据,拿到服务器的返回数据又要怎么解析出想要的数据。

其实,这个过程,就是在「抽象化」出一个 API。

例如,上篇文章的视频下载实战。

对于写好的「视频下载程序」而言,输入就是视频名,输出就是下载好的视频文件。

你可以把「视频下载程序」叫做一个 API,本质上就是一个完成特定任务的接口

当然,这些所谓的 API,并非网站管理者提供给你的,而是你自己通过写程序实现的。

这些 API 是需要自己去挖掘,去发现,属于野生的,可以略带调侃地称呼它们为野生 API。

特殊服务,那可就了不得了

它们不是野生的,而是网站官方提供的官方 API。

这些网站明码标价,提供着各式各样定制化服务


比如,这是「聚合数据」提供的一些查询类 API。

这些常规 API 今天不做讨论,咱们玩一些好玩的。

只会网络爬虫,也能玩转所谓的人工智能算法

3


AI 开放平台
人工智能开放平台,很多家都有。

比较熟知的,腾讯、百度、京东、Face++ 都提供了 AI 开放平台。

腾讯 AI 开放平台:
https://ai.qq.com/

百度 AI 开放平台:
https://ai.baidu.com/

京东 AI 开放平台:
http://neuhub.jd.com/

旷视 AI 开放平台:
https://www.faceplusplus.com.cn/

常见的图像技术、语音技术、文字识别,这些网站都有提供。

单看服务数量,百度提供的接口最丰富。


单看图像技术,就眼花缭乱,这么多服务。

如果看服务质量,那应该各有千秋。比如旷视,人脸相关的技术,应该是比较好,毕竟早些年支付宝的人脸识别技术,都是旷视提供技术支持的,底子在那呢。

4


API 的使用方法
API 使用方法很简单,只要有爬虫基础,完全可以轻松应对。
咱们以旷视科技的人脸技术为例进行测试。
首先,创建一个账号
然后,找一个想体验的服务,咱先试试美颜。这年头,没有美颜还真不敢上镜。
旷视科技提供了现成的功能体验。
美颜美型:https://www.faceplusplus.com.cn/face-beautify/
分为美颜和美型,我的理解就是磨皮滤镜加瘦脸,看一下美颜效果。

左边是美颜前,右边是美颜后,拖拽中间的竖栏,可以调节查看。
下面有很多备选图片,你可以挨个翻牌子,看效果。都不喜欢,也可以点击自定义,上传自己想测试的图片。
这是通过 web 体验服务,如果想嵌入自己的程序里,那就需要学习如何使用这个 API 了。
登录账号,选择控制台,然后创建一个应用,选择「试用」类型。

填写一些信息后,就会生成一个 API KeyAPI Secret,这两个是使用 API 接口要用到的参数。
相当于你的个人账号和密码。
在控制台,有各种服务的使用说明,比如人脸美颜。
Beautify API v2:https://console.faceplusplus.com.cn/documents/134252584
这个文档,有详细的接口描述,根据这些描述,就可以写代码。

可以看到请求 POST 请求,图片可以是以 URL、二进制文件或 base64 编码上传。
瞧,这就是我之前提到过的,POST 请求的内容,除了是一些文字内容,还可以是一张图片。
根据手册编写代码:
import requestsimport base64import jsonimport cv2import numpy as npimport matplotlib.pyplot as plt%matplotlib inline
beautify_url = "https://api-cn.faceplusplus.com/facepp/v2/beautify"# 你创建的应用的 API Key 和 API Secret(也叫 Secret Key)AK = ''SK = ''
# 可选参数,不填写,默认50# 美白程度 0 - 100whitening = 80# 磨皮程度 0 - 100smoothing = 80# 瘦脸程度 0 - 100thinface = 20# 小脸程度 0 - 100shrink_face = 50# 大眼程度 0 - 100enlarge_eye = 50# 去眉毛程度 0 - 100remove_eyebrow = 50# 滤镜名称,不填写,默认无滤镜filter_type = ''
# 二进制方式打开图片img_name = 'test_1.png'f = open(img_name, 'rb')# 转 base64img_base64 = base64.b64encode(f.read())
# 使用 whitening、smoothing、thinface 三个可选参数,其他用默认值data = { 'api_key': AK, 'api_secret': SK, 'image_base64': img_base64, 'whitening': whitening, 'smoothing': smoothing, 'thinface': thinface, }
r = requests.post(url=beautify_url, data=data)html = json.loads(r.text)
# 解析base64图片base64_data = html['result']imgData = base64.b64decode(base64_data)nparr = np.frombuffer(imgData, np.uint8)img_res = cv2.imdecode(nparr, cv2.IMREAD_COLOR)img_res_BGR = cv2.cvtColor(img_res, cv2.COLOR_RGB2BGR)
# 原始图片img = cv2.imread(img_name)img_BGR = cv2.cvtColor(img, cv2.COLOR_RGB2BGR)
# 显示图片fig, axs = plt.subplots(nrows=1, ncols=2, sharex=False, sharey=False, figsize=(10,10))axs[0].imshow(img_BGR)axs[1].imshow(img_res_BGR)plt.show()

你需要填写自己的 AK 和 SK,并下载一张图片。
图片地址:https://cuijiahua.com/wp-content/uploads/2020/05/test_1.png
API 接口返回的数据是 base64 的二进制文件,需要解码,运行结果:

效果还不错吧!
除了美颜,还有很多服务,人脸检测、人脸识别、人脸关键点等等。

人脸关键点就是在脸上画一堆点,这有什么用?
一个比较成熟的例子就是虚拟主播。

看着还不错吧?
AI 开放平台提供了丰富的 AI 领域的基础能力,怎么用,用来干什么,就看自己的想象力了。
当然,这些免费使用的 API 接口有很多限制,比如不能请求太快等等。
想要 API 提供性能更好,QPS 更大的优质服务,那就得充钱了。
老板,加个钟

5


最后
这种 API 接口也可以用来清晰数据,训练自己的网络模型,花点小钱,清晰一批数据,真香!
- end -

推荐阅读

精心整理了14个数据分析和机器学习项目!附数据集

VS Code 连接远程服务器运行 Jupyter Notebook教程
解放双手!用 Python 控制你的鼠标和键盘
Google确认Chrome存在严重漏洞,向20亿用户发出警告:你们需立即更新浏览器
微软官方再次上线了Python教程,这次比较高级
太赞了,大神总结的常见数据分析规范!

100G数据分析、机器学习资料免费领取

1、扫描下方二维码,添加 Python数据科学 作者微信

2、可申请入群,并获得数据分析、机器学习资料

3、一定要备注:入群 + 地点 + 学校/公司。例如:入群+北京+清华。


长按扫码,申请入群
(添加人数较多,请耐心等待)

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存