python 分布式进程

分布式进程指的是将Process进程分布到多台机器上，充分利用多态机器的性能完成复杂的任务

分布式进程在python 中依然要用到multiprocessing 模块。multiprocessing模块不但支持多进程，其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者，将任务分布到其他多
个进程中，依靠网络通信进行管理。例子：在做爬虫程序时，抓取某个网站的所有图片，如果使用多进程的话，一般是一个进程负责抓取图片的链接地址，将链接地址放到queue中，另外的进程负责从queue中取链接地址进行下载和存储到本地。现在把这个过程做成分布式，一台机器上的进程负责抓取链接地址，其他机器上的进程负责系在存储。那么遇到的主要问题是将queue 暴露到网络中，让其他机器进程都可以访问，分布式进程就是将这个过程进行了封装，我们可以将这个过程称为本地队列的网络化

要实现上面例子的功能，创建分布式进程需要分为六个步骤

建立队列Queue ，用来进行进程间通信。服务进程创建任务队列task_queue 用来作为传递任务给任务进程的通道；服务进程创建结果队列result_queue ，作为任务进程完成任务后回复服务进程的通道。在分布式多进程环境下，必须由Queuemanager获得Queue 接口来添加任务
把第一步中建立的队列在网络上注册，暴露给其他进程（主机），注册后获得网络队列，相当于本地队列的映像
建立一个对象（Queuemanager（BaseManager））实例manager，绑定端口和验证口令
启动第三步中建立的实例，即启动管理manager，监管信息通道
通过管理实例的方法获得通过网络访问的Queue对象，即再把网络队列实体化成可以使用的本地队列
创建任务到 “本地”队列中，自动上传任务到网络队列中，分配给任务进程进行处理

接下来通过程序实现上面的列子（window版），首先编写的是服务进程（taskManager.py）

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import random, time, queue
from multiprocessing.managers import BaseManager

# 发送任务的队列:
task_queue = queue.Queue()
# 接收结果的队列:
result_queue = queue.Queue()


# 自定义函数re_task_queue
def re_task_queue():
    global task_queue
    return task_queue


# 自定义函数re_result_queue
def re_result_queue():
    global result_queue
    return result_queue


# 从BaseManager继承的QueueManager:
class QueueManager(BaseManager):
    pass


if __name__ == '__main__':

    # 把两个Queue都注册到网络上, callable参数关联了Queue对象:
    QueueManager.register('get_task_queue', callable=re_task_queue)
    QueueManager.register('get_result_queue', callable=re_result_queue)

    # 绑定端口5000, 设置验证码'abc':
    manager = QueueManager(address=('127.0.0.1', 5000), authkey=b'abc')

    # 启动Queue:
    manager.start()

    # 获得通过网络访问的Queue对象:
    task = manager.get_task_queue()
    result = manager.get_result_queue()

    # 放几个任务进去:
    for i in range(10):
        n = random.randint(0, 10000)
        print('Put task %d...' % n)
        task.put(n)

    # 从result队列读取结果:
    print('Try get results...')
    for i in range(10):
        r = result.get(True)  #这样的话会一直夯筑，等待结果队列有结果
        # r = result.get(timeout=10)   #而这样等待10秒中结果队列如果还没有数据进来就直接报错了
        print('Result: %s' % r)

    # 关闭:
    manager.shutdown()
    print('master exit.')

服务进程已经编写好，接下来任务进程(taskWorker.py)创建四步骤：

使用QueueManager注册用于获取Queue的方法名称，任务进程只能通过名称来网络获取Queue
连接服务器，端口和验证口令注意保持与服务器进程中完全一致
从网络获取Queue，进行本地化
从task队列获取任务，并且把结果写入result队列

import time, sys, queue
from multiprocessing.managers import BaseManager

# 创建类似的QueueManager:
class QueueManager(BaseManager):
    pass

# 由于这个QueueManager只从网络上获取Queue，所以注册时只提供名字:
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')

# 连接到服务器，也就是运行task_master.py的机器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 端口和验证码注意保持与task_master.py设置的完全一致:
m = QueueManager(address=(server_addr, 5000), authkey=b'abc')
# 从网络连接:
m.connect()
# 获取Queue的对象:
task = m.get_task_queue()
result = m.get_result_queue()
# 从task队列取任务,并把结果写入result队列:
for i in range(10):
    try:
        n = task.get(timeout=1)
        print('run task %d * %d...' % (n, n))
        r = '%d * %d = %d' % (n, n, n*n)
        time.sleep(1)
        result.put(r)
    except result.Empty:
        print('task queue is empty.')
# 处理结束:
print('worker exit.')

相关阅读:
DHCP全局配置文件解析
 DHCP介绍
 使用Samba服务程序，让linux系统之间共享文件
 操作系统
 XML基础、 webservice
JDBC编程--JDBC进阶
 JDBC编程--JDBC基础
 JDBC编程--SQL基础
 Java web--web编程原理
 Java web--web编程进阶(二)
原文地址：https://www.cnblogs.com/tjp40922/p/12709510.html

python 分布式进程

分布式进程指的是将Process进程分布到多台机器上，充分利用多态机器的性能完成复杂的任务

要实现上面例子的功能，创建分布式进程需要分为 六个步骤

接下来通过程序实现上面的列子（window版），首先编写的是服务进程（taskManager.py）

服务进程已经编写好，接下来任务进程(taskWorker.py)创建四步骤：

要实现上面例子的功能，创建分布式进程需要分为六个步骤