一、multiprocessing模块介绍
- python中的多线程无法利用cpu资源,在python中大部分情况使用多进程。python中提供了很好的多进程包multiprocessing。
- multiprocessing模块用来开启子进程,并在子进程中执行功能(函数),该模块与多进程模块的threading的编程接口类似。
- multiprocessing的功能众多:支持子进程、通信和共享数据、执行不同形式的同步,提供了Process、Queue、Pipe、Lock等组件。
二、Process类的介绍
1.创建进程的类
Process([group[,target[,name[,args[,kwargs]]]]]),由该类实例化得到的对象,表示一个子进程中的任务
强调
1.需要使用关键字的方式来指定参数
2.args指定的为传给target函数的位置参数,是一个元组的形式,必须有逗号
2.参数介绍
1.target表示调用对象,即子进程要执行的任务
2.args表示调用对象的位置参数,args=(1,2,'egon')
3.kwargs表示调用对象的字典,kwargs={‘name’:'egon','age',18}
4.name为子进程的名字
5.group参数未使用
3.方法介绍
1.p.start(): 启动进程,并调用子进程的p.run()
2.p.run(): 进程启动时运行的方法,正是它去调用target指定的函数
3.p.terminate(): 强制终止进程p,不会进行任何清理操作,如果p创建了子进程,该子进程就成了僵尸进程,使用该方法需要特别小心这种情况。
4.p.is_alive():如果p仍然运行,返回True
5.p.join([Timeout]) : 主线程等待p终止 (强调:是主线程处于等的状态,而p是处于运行的状态)。timeout是可选的超时时间。
需要强调的是,p.join只能join住start开启的进程,而不能join住run开启的进程
4. 属性介绍
p.daemon: 默认值为False,如果设为True,代表p为后台运行的守护进程,当p的父进程终止时,p也随之终止,并且设定为True后,p不能创建自己的新进程,必须在p.start()之前设置
p.name: 进程的名称
p.pid: 进程的pid
三、Process类的使用
一定要把开进程的代码写在if name=='main':下面
四、数据共享及进程池和回调函数
1、数据共享
- 进程间的通信应该避免共享数据的方式
- 进程间的数据是独立的,可以借助队列或管道实现通信,两者都是基于消息传递的
虽然进程间独立,但是可以用Manager实现数据共享 - (IPC)进程之间的通信有两种实现方式:管道和队列
2、进程池
在利用python进行系统管理的时候,特别是同时操作多个文件目录,或者远程控制多台主机,并行操作可以节约大量的时间。多进程是实现并发的手段之一。需要注意的问题是:
1、很明显需要并发执行的任务通常要远大于核数
2、一个操作系统不可能无限开启进程,通常有几个核就开几个进程
3、进程开启过多,效率反而会下降(开启进程是需要占用系统资源的,而且开启多余核数目的进程也无法做到并行)
例如当被操作对象数目不大时,可以直接利用multiprocessing中的Process动态生成多个进程,十几个还好,但如果是上百个,上千个。。。手动的去限制进程数量却又太过繁琐,此时可以发挥进程池的功效。
那么什么是进程池?进程池就是控制进程数目
对于远程过程调用的高级应用程序而言,应该使用进程池,Pool可以提供指定数量的进程,供用户调用,当有新的请求提交到pool中时,如果池还没有满,那么就会创建一个新的进程用来执行该请求;但如果池中的进程数已经达到规定最大值,那么该请求就会等待,直到池中有进程结束,就重用进程池中的进程。
进程池的结构:
创建进程池的类:如果指定numprocess为3,则进程池会从无到有创建三个进程,然后自始至终使用这三个进程去执行所有任务,不会开启其他进程。
1、创建进程池
Pool([numprocess [,initializer [, initargs]]]):创建进程池
2.参数介绍
numprocess:要创建的进程数,如果省略,将默认为cpu_count()的值,可os.cpu_count()查看
initializer:是每个工作进程启动时要执行的可调用对象,默认为None
initargs:是要传给initializer的参数组
3、方法介绍