想用Python爬小姐姐图片？那你得先搞定分布式进程

From: 范传辉大数据 2019-10-30

导读：分布式进程指的是将Process进程分布到多台机器上，充分利用多台机器的性能完成复杂的任务。我们可以将这一点应用到分布式爬虫的开发中。

作者：范传辉

如需转载请联系大数据（ID：hzdashuju）

分布式进程在Python中依然要用到multiprocessing模块。multiprocessing模块不但支持多进程，其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者，将任务分布到其他多个进程中，依靠网络通信进行管理。

举个例子：在做爬虫程序时，常常会遇到这样的场景，我们想抓取某个网站的所有图片，如果使用多进程的话，一般是一个进程负责抓取图片的链接地址，将链接地址存放到Queue中，另外的进程负责从Queue中读取链接地址进行下载和存储到本地。

现在把这个过程做成分布式，一台机器上的进程负责抓取链接，其他机器上的进程负责下载存储。那么遇到的主要问题是将Queue暴露到网络中，让其他机器进程都可以访问，分布式进程就是将这一个过程进行了封装，我们可以将这个过程称为本地队列的网络化。整体过程如图1-24所示。

▲图1-24 分布式进程

要实现上面例子的功能，创建分布式进程需要分为六个步骤：

建立队列Queue，用来进行进程间的通信。服务进程创建任务队列task_queue，用来作为传递任务给任务进程的通道；服务进程创建结果队列result_queue，作为任务进程完成任务后回复服务进程的通道。在分布式多进程环境下，必须通过由Queuemanager获得的Queue接口来添加任务。
把第一步中建立的队列在网络上注册，暴露给其他进程（主机），注册后获得网络队列，相当于本地队列的映像。
建立一个对象（Queuemanager(BaseManager)）实例manager，绑定端口和验证口令。
启动第三步中建立的实例，即启动管理manager，监管信息通道。
通过管理实例的方法获得通过网络访问的Queue对象，即再把网络队列实体化成可以使用的本地队列。
创建任务到“本地”队列中，自动上传任务到网络队列中，分配给任务进程进行处理。

接下来通过程序实现上面的例子（Linux版），首先编写的是服务进程（taskManager.py），代码如下：

import random,time,Queue
from multiprocessing.managers import BaseManager
# 第一步：建立task_queue和result_queue，用来存放任务和结果
task_queue=Queue.Queue()
result_queue=Queue.Queue()

class Queuemanager(BaseManager):
    pass
# 第二步：把创建的两个队列注册在网络上，利用register方法，callable参数关联了Queue对象，
# 将Queue对象在网络中暴露
Queuemanager.register('get_task_queue',callable=lambda:task_queue)
Queuemanager.register('get_result_queue',callable=lambda:result_queue)

# 第三步：绑定端口8001，设置验证口令‘qiye’。这个相当于对象的初始化
manager=Queuemanager(address=('',8001),authkey='qiye')

# 第四步：启动管理，监听信息通道
manager.start()

# 第五步：通过管理实例的方法获得通过网络访问的Queue对象
task=manager.get_task_queue()
result=manager.get_result_queue()

# 第六步：添加任务
for url in ["ImageUrl_"+i for i in range(10)]:
    print 'put task %s ...' %url
    task.put(url)
# 获取返回结果
print 'try get result...'
for i in range(10):
    print 'result is %s' %result.get(timeout=10)
# 关闭管理
manager.shutdown()

任务进程已经编写完成，接下来编写任务进程（taskWorker.py），创建任务进程的步骤相对较少，需要四个步骤：

使用QueueManager注册用于获取Queue的方法名称，任务进程只能通过名称来在网络上获取Queue。
连接服务器，端口和验证口令注意保持与服务进程中完全一致。
从网络上获取Queue，进行本地化。
从task队列获取任务，并把结果写入result队列。

程序taskWorker.py代码（win/linux版）如下：

# coding:utf-8
import time
from multiprocessing.managers import BaseManager
# 创建类似的QueueManager:
class QueueManager(BaseManager):
    pass
# 第一步：使用QueueManager注册用于获取Queue的方法名称
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')
# 第二步：连接到服务器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 端口和验证口令注意保持与服务进程完全一致:
m = QueueManager(address=(server_addr, 8001), authkey='qiye')
# 从网络连接:
m.connect()
# 第三步：获取Queue的对象:
task = m.get_task_queue()
result = m.get_result_queue()
# 第四步：从task队列获取任务,并把结果写入result队列:
while(not task.empty()):
    image_url = task.get(True,timeout=5)
    print('run task download %s...' % image_url)
    time.sleep(1)
    result.put('%s--->success'%image_url)

# 处理结束:
print('worker exit.')

最后开始运行程序，先启动服务进程taskManager.py，运行结果如下：

put task ImageUrl_0 ...
put task ImageUrl_1 ...
put task ImageUrl_2 ...
put task ImageUrl_3 ...
put task ImageUrl_4 ...
put task ImageUrl_5 ...
put task ImageUrl_6 ...
put task ImageUrl_7 ...
put task ImageUrl_8 ...
put task ImageUrl_9 ...
try get result...

接着再启动任务进程taskWorker.py，运行结果如下：

Connect to server 127.0.0.1...
run task download ImageUrl_0...
run task download ImageUrl_1...
run task download ImageUrl_2...
run task download ImageUrl_3...
run task download ImageUrl_4...
run task download ImageUrl_5...
run task download ImageUrl_6...
run task download ImageUrl_7...
run task download ImageUrl_8...
run task download ImageUrl_9...
worker exit.

当任务进程运行结束后，服务进程运行结果如下：

result is ImageUrl_0--->success
result is ImageUrl_1--->success
result is ImageUrl_2--->success
result is ImageUrl_3--->success
result is ImageUrl_4--->success
result is ImageUrl_5--->success
result is ImageUrl_6--->success
result is ImageUrl_7--->success
result is ImageUrl_8--->success
result is ImageUrl_9--->success

其实这就是一个简单但真正的分布式计算，把代码稍加改造，启动多个worker，就可以把任务分布到几台甚至几十台机器上，实现大规模的分布式爬虫。

注：由于平台的特性，创建服务进程的代码在Linux和Windows上有一些不同，创建工作进程的代码是一致的。

taskManager.py程序在Windows版下的代码如下：

# coding:utf-8
# taskManager.py for windows
import Queue
from multiprocessing.managers import BaseManager
from multiprocessing import freeze_support
# 任务个数
task_number = 10
# 定义收发队列
task_queue = Queue.Queue(task_number);
result_queue = Queue.Queue(task_number);
def get_task():
    return task_queue
def get_result():
    return result_queue
# 创建类似的QueueManager:
class QueueManager(BaseManager):
    pass
def win_run():
    # Windows下绑定调用接口不能使用lambda，所以只能先定义函数再绑定
    QueueManager.register('get_task_queue',callable = get_task)
    QueueManager.register('get_result_queue',callable = get_result)
    # 绑定端口并设置验证口令，Windows下需要填写IP地址，Linux下不填默认为本地
    manager = QueueManager(address = ('127.0.0.1',8001),authkey = 'qiye')
    # 启动
    manager.start()
    try:
        # 通过网络获取任务队列和结果队列
        task = manager.get_task_queue()
        result = manager.get_result_queue()
        # 添加任务
        for url in ["ImageUrl_"+str(i) for i in range(10)]:
            print 'put task %s ...' %url
            task.put(url)
        print 'try get result...'
        for i in range(10):
            print 'result is %s' %result.get(timeout=10)
    except:
        print('Manager error')
    finally:
        # 一定要关闭，否则会报管道未关闭的错误
        manager.shutdown()

if __name__ == '__main__':
    # Windows下多进程可能会有问题，添加这句可以缓解
    freeze_support()
    win_run()

关于作者：范传辉，资深网虫，Python开发者，参与开发了多项网络应用，在实际开发中积累了丰富的实战经验，并善于总结，贡献了多篇技术文章广受好评。研究兴趣是网络安全、爬虫技术、数据分析、驱动开发等技术。

本文摘编自《Python爬虫开发与项目实战》，经出版方授权发布。

延伸阅读《Python爬虫开发与项目实战》

点击上图了解及购买

转载请联系微信：DoctorData

推荐语：零基础学习爬虫技术，从Python和Web前端基础开始讲起，由浅入深，包含大量案例，实用性强。

据统计，99%的大咖都完成了这个神操作

▼

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

提个醒：营养是鸡蛋的15倍，是牛奶的8倍，春夏多吃，免疫力明显提高，全家受益！

瘦皇被指“爱C女主播”！破防诅咒“小SS父母”：煤气厂爆炸！鱼皇下场开喷！