multiprocessing
多进程基本使用
- 示例代码1
import time
import random
from multiprocessing import Process
def run(name):
print(f'{name} is running')
time.sleep(random.randint(1,3))
print(f'{name} is end')
if __name__ =='__main__':
p_list = []
for i in range(3):
# 传参的两种方式
# p = Process(target=run,kwargs={'name':f'线程{i}'})
p = Process(target=run,args=(f"线程{i}",))
p_list.append(p)
p.start()
# for i in p_list:
# p.join() # join后主进程会等待子进程都结束再结束
print('主进程结束')
# strat():方法的功能 1.开启进程 2.执行功能
- 示例代码2
import os
import time
import random
from multiprocessing import Process
class Run(Process):
def __init__(self,name):
super().__init__()
self.name = name
def run(self): # 必须实现run方法
print(os.getppid(),os.getpid())
print(f'{self.name} is running')
time.sleep(random.randint(1,3))
print(f'{self.name} is end')
if __name__ =='__main__':
p_list = []
for i in range(5):
p = Run(f'线程{i}')
p_list.append(p)
p.start()
for i in p_list:
p.join()
print('主进程结束',os.getpid())
进程池(from multiprocessing import Pool)
- 进程池原理
- 示例代码(串行)
import os
import time
from multiprocessing import Pool
def task(n):
print('{} is running'.format(os.getpid()))
time.sleep(2)
print('{} is done'.format(os.getpid()))
return n**2
if __name__ == '__main__':
# print(os.cpu_count()) #查看cpu个数
p = Pool(4) # 最大四个进程
for i in range(1,7): # 开7个任务
ret = p.apply(task,args=(i,)) #同步的,一个运行完才执行另一个
print(f'本次任务结束:{ret}')
p.close() # 禁止往进程池内在添加任务
p.join() # 等待进程池
print('主进程')
- 示例代码(并行)
import os
import time
from multiprocessing import Pool
def task(n):
print('{} is running'.format(os.getpid()))
time.sleep(2)
print('{} is done'.format(os.getpid()))
return n**2
if __name__ == '__main__':
# print(os.cpu_count()) #查看cpu个数
ret_lis = []
p = Pool(4) # 最大四个进程
for i in range(1,7): # 开7个任务
ret = p.apply_async(task,args=(i,)) # 异步的,一个运行完才执行另一个
ret_lis.append(ret)
p.close() # 禁止往进程池内在添加任务
p.join() # 等待进程池
# print('主进程')
print(_.get() for _ in ret_lis)
更多参数请参考:https://www.cnblogs.com/damumu/p/7321732.html
线程池(from multiprocessing.dummy import Pool)
- 线程池的原理
- 线程池首先会维护一个任务队列
- 生成工作使用的线程(可以是自定义个数,也可以是系统默认)
- 线程分别从队列中取出任务,并执行,一个任务执行完成需要告诉主线程完成一个任务
- 再从任务队列中取出任务,直到所有任务为空,退出线程
- 为什么需要使用线程池
- 创建/销毁线程伴随着系统开销,过于频繁的创建/销毁线程,会很大程度上影响处理效率。
记创建线程消耗时间T1,执行任务消耗时间T2,销毁线程消耗时间T3,如果T1+T3>T2,那说明开启一个线程来执行这个任务太不划算了!在线程池缓存线程可用已有的闲置线程来执行新任务,避免了创建/销毁带来的系统开销。
- 线程并发数量过多,抢占系统资源从而导致阻塞。
线程能共享系统资源,如果同时执行的线程过多,就有可能导致系统资源不足而产生阻塞的情况。
- 对线程进行一些简单的管理。
比如:延时执行、定时循环执行的策略等,运用线程池都能进行很好的实现。 - 示例代码
import requests
from multiprocessing.dummy import Pool
def get_source(url):
ret = requests.get(url)
return ret.text
def main():
urls = [
# ...,
# ...,
# ...,
]
pool = Pool(5)
ret_list = pool.map(get_source, urls)
pool.close()
# 调用join之前,先调用close函数,否则会出错。执行完close后不会有新的线程加入到pool,
# join函数等待所有子线程结束
pool.join()
for ret in ret_list:
print(ret)
print('*'*100)
# 更多关于dummy的介绍:https://my.oschina.net/zyzzy/blog/115096
if __name__ == '__main__':
main()