• python 分布式进程


    分布式进程指的是将Process进程分布到多台机器上,充分利用多态机器的性能完成复杂的任务

    • 分布式进程在python 中依然要用到multiprocessing 模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者,将任务分布到其他多
      个进程中,依靠网络通信进行管理。例子:在做爬虫程序时,抓取某个网站的所有图片,如果使用多进程的话,一般是一个进程负责抓取图片的链接地址,将链接地址放到queue中,另外的进程负责从queue中取链接地址进行下载和存储到本地。现在把这个过程做成分布式,一台机器上的进程负责抓取链接地址,其他机器上的进程负责系在存储。那么遇到的主要问题是将queue 暴露到网络中,让其他机器进程都可以访问,分布式进程就是将这个过程进行了封装,我们可以将这个过程称为本地队列的网络化

    要实现上面例子的功能,创建分布式进程需要分为 六个步骤

    • 建立队列Queue ,用来进行进程间通信。服务进程创建任务队列task_queue 用来作为传递任务给任务进程的通道;服务进程创建结果队列result_queue ,作为任务进程完成任务后回复服务进程的通道。在分布式多进程环境下,必须由Queuemanager获得Queue 接口来添加任务
    • 把第一步中建立的队列在网络上注册,暴露给其他进程(主机),注册后获得网络队列,相当于本地队列的映像
    • 建立一个对象(Queuemanager(BaseManager))实例manager,绑定端口和验证口令
    • 启动第三步中建立的实例,即启动管理manager,监管信息通道
    • 通过管理实例的方法获得通过网络访问的Queue对象,即再把网络队列实体化成可以使用的本地队列
    • 创建任务到 “本地”队列中,自动上传任务到网络队列中,分配给任务进程进行处理

    接下来通过程序实现上面的列子(window版),首先编写的是服务进程(taskManager.py)

    #!/usr/bin/env python3
    # -*- coding: utf-8 -*-
    
    import random, time, queue
    from multiprocessing.managers import BaseManager
    
    # 发送任务的队列:
    task_queue = queue.Queue()
    # 接收结果的队列:
    result_queue = queue.Queue()
    
    
    # 自定义函数re_task_queue
    def re_task_queue():
        global task_queue
        return task_queue
    
    
    # 自定义函数re_result_queue
    def re_result_queue():
        global result_queue
        return result_queue
    
    
    # 从BaseManager继承的QueueManager:
    class QueueManager(BaseManager):
        pass
    
    
    if __name__ == '__main__':
    
        # 把两个Queue都注册到网络上, callable参数关联了Queue对象:
        QueueManager.register('get_task_queue', callable=re_task_queue)
        QueueManager.register('get_result_queue', callable=re_result_queue)
    
        # 绑定端口5000, 设置验证码'abc':
        manager = QueueManager(address=('127.0.0.1', 5000), authkey=b'abc')
    
        # 启动Queue:
        manager.start()
    
        # 获得通过网络访问的Queue对象:
        task = manager.get_task_queue()
        result = manager.get_result_queue()
    
        # 放几个任务进去:
        for i in range(10):
            n = random.randint(0, 10000)
            print('Put task %d...' % n)
            task.put(n)
    
        # 从result队列读取结果:
        print('Try get results...')
        for i in range(10):
            r = result.get(True)  #这样的话会一直夯筑,等待结果队列有结果
            # r = result.get(timeout=10)   #而这样等待10秒中结果队列如果还没有数据进来就直接报错了
            print('Result: %s' % r)
    
        # 关闭:
        manager.shutdown()
        print('master exit.')

    服务进程已经编写好,接下来任务进程(taskWorker.py)创建四步骤:

    • 使用QueueManager注册用于获取Queue的方法名称,任务进程只能通过名称来网络获取Queue
    • 连接服务器,端口和验证口令注意保持与服务器进程中完全一致
    • 从网络获取Queue,进行本地化
    • 从task队列获取任务,并且把结果写入result队列
    import time, sys, queue
    from multiprocessing.managers import BaseManager
    
    # 创建类似的QueueManager:
    class QueueManager(BaseManager):
        pass
    
    # 由于这个QueueManager只从网络上获取Queue,所以注册时只提供名字:
    QueueManager.register('get_task_queue')
    QueueManager.register('get_result_queue')
    
    # 连接到服务器,也就是运行task_master.py的机器:
    server_addr = '127.0.0.1'
    print('Connect to server %s...' % server_addr)
    # 端口和验证码注意保持与task_master.py设置的完全一致:
    m = QueueManager(address=(server_addr, 5000), authkey=b'abc')
    # 从网络连接:
    m.connect()
    # 获取Queue的对象:
    task = m.get_task_queue()
    result = m.get_result_queue()
    # 从task队列取任务,并把结果写入result队列:
    for i in range(10):
        try:
            n = task.get(timeout=1)
            print('run task %d * %d...' % (n, n))
            r = '%d * %d = %d' % (n, n, n*n)
            time.sleep(1)
            result.put(r)
        except result.Empty:
            print('task queue is empty.')
    # 处理结束:
    print('worker exit.')
  • 相关阅读:
    DHCP全局配置文件解析
    DHCP介绍
    使用Samba服务程序,让linux系统之间共享文件
    操作系统
    XML基础、 webservice
    JDBC编程--JDBC进阶
    JDBC编程--JDBC基础
    JDBC编程--SQL基础
    Java web--web编程原理
    Java web--web编程进阶(二)
  • 原文地址:https://www.cnblogs.com/tjp40922/p/12709510.html
Copyright © 2020-2023  润新知