从Python3.2开始,标准库为我们提供了concurrent.futures模块,它提供了ThreadPoolExecutor和ProcessPoolExecutor两个类,实现了对threading和multiprocessing的进一步
抽象(这里主要关注线程池),不仅可帮我们自动调度线程,还可以做到:
1、主线程可以获取某一个线程(或者任务的)的状态,以及返回值。
2、当一个线程完成的时候,主线程能够立即知道。
3、让多线程和多进程的编码接口一致。
获取任务是否完成,取消任务和获取任务的返回结果
from concurrent.futures import ThreadPoolExecutor import time # 参数times用来模拟网络请求的时间 def get_html(times, name): time.sleep(times) print(f"{name} get page {times} finished") return times tp = ThreadPoolExecutor(max_workers=2) # 通过submit函数提交执行的函数到线程池中,submit函数立即返回,不阻塞 task1 = tp.submit(get_html, *(3, "线程1")) task2 = tp.submit(get_html, *(2, "线程2")) # done方法用于判定某个任务是否完成 print("done?", task1.done()) # cancel方法用于取消某个任务,该任务没有放入线程池中才能取消成功 print("cancel?", task2.cancel()) time.sleep(4) print("done?", task1.done()) # result方法可以获取task的执行结果 print("result?", task1.result())
执行结果:
done? False cancel? False 线程2 get page 2 finished 线程1 get page 3 finished done? True result? 3
1、ThreadPoolExecutor构造实例的时候,传入max_workers参数来设置线程池中最多能同时运行的线程数目。
2、使用submit函数来提交线程需要执行的任务(函数名和参数)到线程池中,并返回该任务的句柄(类似于文件、画图),注意submit()不是阻塞的,而是立即返回。
3、通过submit函数返回的任务句柄,能够使用done()方法判断该任务是否结束。上面的例子可以看出,由于任务有2s的延时,在task1提交后立刻判断,task1还未完成,
而在延时4s之后判断,task1就完成了。
4、使用cancel()方法可以取消提交的任务,如果任务已经在线程池中运行了,就取消不了。这个例子中,线程池的大小设置为2,任务已经在运行了,所以取下失败。如果
改变线程池的大小为1,那么先提交的是task1,task2还在排队等候,这个时候可以成功取消。
5、使用result()方法可以获取任务的返回值。查看内部代码,发现这个方法是阻塞的。
as_completed方法一次取出所有任务的结果
from concurrent.futures import ThreadPoolExecutor, as_completed import time # 参数times用来模拟网络请求的时间 def get_html(times): time.sleep(times) print(f"get page {times} finished") return times tp = ThreadPoolExecutor(max_workers=2) lst = [3, 2, 4] all_task = [tp.submit(get_html, (i)) for i in lst] for future in as_completed(all_task): data = future.result() print(f"in main: get page {data} success")
执行结果:
get page 2 finished in main: get page 2 success get page 3 finished in main: get page 3 success get page 4 finished in main: get page 4 success
map
from concurrent.futures import ThreadPoolExecutor import time # 参数times用来模拟网络请求的时间 def get_html(times): time.sleep(times) print(f"get page {times} finished") return times tp = ThreadPoolExecutor(max_workers=2) lst = [3, 2, 4] for i in tp.map(get_html, lst): print(f"in main: get page {i} success")
执行结果:
get page 2 finished get page 3 finished in main: get page 3 success in main: get page 2 success get page 4 finished in main: get page 4 success
wait方法可以让主线程阻塞,知道满足设定的要求
from concurrent.futures import ThreadPoolExecutor import time # 参数times用来模拟网络请求的时间 def get_html(times): time.sleep(times) print(f"get page {times} finished") return times tp = ThreadPoolExecutor(max_workers=2) lst = [3, 2, 4] for i in tp.map(get_html, lst): print(f"in main: get page {i} success")
执行结果:
get page 2 finished get page 3 finished in main: get page 3 success in main: get page 2 success get page 4 finished in main: get page 4 success