多线程初识
threading 包 :threading.Thread创建多线程的两种方式
多线程的组件:threading包中的模块:注意只有队列不是用 threading包
一、多线程初识:
#线程特点 #1.轻型实体,占用非常小的资源 #2.独立调度和分派的基本单位:即cup实际上调度的是线程 #3.共享进程资源 #4.可并发执行
线程与进程的区别可以归纳为以下4点: 1)地址空间和其它资源(如打开文件):进程间相互独立,同一进程的各线程间共享。某进程内的线程在其它进程不可见。 2)通信:进程间通信IPC,线程间可以直接读写进程数据段(如全局变量)来进行通信——需要进程同步和互斥手段的辅助,以保证数据的一致性。 3)调度和切换:线程上下文切换比进程上下文切换要快得多。 4)在多线程操作系统中,进程不是一个可执行的实体。
#进程是最小的内存分配单位 #线程是操作系统调度最小单位 #线程被CPU执行了 #进程内至少含有一个线程,称为主线程 #进程中可以开启多个线程 #开启一个线程所需要的时间要远远小于开启一个进程 #多个线程内部有自己的数据栈,数据不共享。 #全局变量在多个线程之间是共享的 #注意:子进程中不能用input,子线程中是可以使用的 import time import os from threading import Thread def func(a,b): n = a + b print('in the n',n) # print('func pid: ', os.getpid()) global g g = 0 print(g) g = 100 t_lst = [] for i in range(10): # print('pid',os.getpid()) t = Thread(target=func,args=(i,5,)) t_lst.append(t) t.start() [t.join() for t in t_lst] print('g ',g) #进程 #当前写的代码,导入的模块,文件所在的位置,内置函数 #这些和操作系统,python解释器,占用内存大的都放进程里,线程不放 #线程 #主线程:i呀,t呀这些参数 #子线程: # 栈:图在有道笔记0928。这里用文字描述。 # 栈用矩形表示,先进后出。比如在子线程中 a=0,b=5,操作方式为add,输出为n,这些一次入栈 # 由于n后入栈,n出来后,得到add,再得到 a,b从而就获得了n的值
进程,线程,协程概览:
#进程的缺点: # 进程只能在一个时间干一件事,如果想同时干两件事或多件事,进程就无能为力了。 # 进程在执行的过程中如果阻塞,例如等待输入,整个进程就会挂起,即使进程中有些工作不依赖于输入的数据,也将无法执行。 # 60年代,在OS中能拥有资源和独立运行的基本单位是进程,然而随着计算机技术的发展,进程出现了很多弊端, # 一是由于进程是资源拥有者,创建、撤消与切换存在较大的时空开销,因此需要引入轻型进程;二是由于对称多处理机(SMP)出现, # 可以满足多个运行单位,而多个进程并行开销过大。 # 因此在80年代,出现了···能独立运行的基本单位——线程(Threads)。 # ······注意:进程是资源分配的最小单位,线程是CPU调度的最小单位. #所以说进程间都有各自的内存空间,只能通信来获取数值 # 每一个进程中至少有一个线程 #可以把进程看做一个车间,每个进程肯定有一个主线程,类比车间必定有一个工人(主线程) #把线程看作车间的工人 #CPU就是生产零件的机器,工人搬材料给cpu制作。此时如果要多生产零件,我们平时都是在一直增加车间(即增加进程),从而多了工人来运作零件制造 #但是增加线程,就好比只在一个车间里增加工人,就每必要每次都要新开车间,时空开销这么大了 #在操作系统中的 分时调度系统里,我们所说的切换进程,其实就是切换进程的主线程 #内存中的进程: #从头到尾 栈,堆,数据,文本 #进程中有: #代码,数据,文件 线程(线程有 寄存器,栈,线程本身) # 线程有 寄存器,栈,线程本身 # 线程与进程的区别可以归纳为以下4点: # 1)地址空间和其它资源(如打开文件):进程间相互独立,同一进程的各线程间共享。某进程内的线程在其它进程不可见。 # 2)通信:进程间通信IPC,线程间可以直接读写进程数据段(如全局变量)来进行通信——需要进程同步和互斥手段的辅助,以保证数据的一致性。 # 3)调度和切换:线程上下文切换比进程上下文切换要快得多。 #有时也称做进程切换或任务切换,是指CPU 从一个进程或线程切换到另一个进程或线程。 # 4)在多线程操作系统中,进程不是一个可执行的实体。 #真正执行的是线程 #http://www.ruanyifeng.com/blog/2013/04/processes_and_threads.html #线程特点 #1.轻型实体,占用非常小的资源 #2.独立调度和分派的基本单位:即cup实际上调度的是线程 #3.共享进程资源 #4.可并发执行 #协程: #本质上是一个线程 #能够在多个任务之间切换来节省一些IO时间 #协程中任务之间的切换也消耗时间,但是开销远远小于进程线程之间的切换 #协程的意义: #在遇到IO操作的时候,切换到另外一个任务 #规避之前任务的IO时间,来提高cpu的利用率 #在实际工作中会采用:进程+线程+协程,来提高代码的并发效果 #进程是cpu核数+1,线程是cpu核数*5,每个线程中协程最多可以起500个 #比如: #发送了一个网页请求后,在网络延时,等待网页响应的时间(等待IO),就可以用协程去切换任务利用等待的时间,继续发送多个网页请求,从而提高效率 #进程5,线程20,协程500 = 总共可以有50000个协程:一台4c的机器最多可以接收的并发数 #数据库,负载均衡,让很多个请求,平均分摊给各个服务器 #nginx组件 大型互联网公司会用到,就是用来帮你分发任务的,并发最大承载量就是50000,用的就是协程机制 #一般情况下就是根据这个规则,上下浮动
(1)和进程一样,多线程也有两种创建方法:
#主要用threading # Python提供了几个用于多线程编程的模块,包括thread、threading和Queue等。 # thread和threading模块允许程序员创建和管理线程。thread模块提供了基本的线程和锁的支持,threading提供了更高级别、功能更强的线程管理的功能。 # Queue模块允许用户创建一个可以用于多个线程之间共享数据的队列数据结构。 # import time import os from threading import Thread def func(n): time.sleep(1) print('in the n',n) print('func pid: ',os.getpid()) for i in range(10): print('pid',os.getpid()) t = Thread(target=func,args=(1,)) t.start() #因为不开启进程,所以不用 if __name__ == '__main__' #其余的启动线程,start线程,就和期用进程一模一样了。各个线程之间也有三态, # 执行的时候因为是并发的,所以不一定按顺序 #第二种方式,也是启动进程一样。1.继承Thread,2.有run方法,里面是线程代码,3.参数用__init__传入,父类参数记得super().__init__() # class Mythread(Thread): # def __init__(self,n): # super().__init__() # self.n = n # def run(self): # print('in the run',self.n+1) # # m = Mythread(1) # m.start() # https://docs.python.org/3/library/threading.html?highlight=threading# 线程官方说明 # import requests # url = r'https://docs.python.org/3/library/threading.html?highlight=threading#' # res = requests.get(url) # print(res.status_code) # print(res.content)
import time from multiprocessing import Process from threading import Thread def func(n): n + 1 if __name__ == '__main__': start = time.time() p_lst = [] for i in range(100): p = Process(target=func,args=(i,)) p.start() p_lst.append(p) for p in p_lst:p.join() t1 = time.time() - start start2 = time.time() t_lst = [] for i in range(100): t = Thread(target=func, args=(i,)) t.start() t_lst.append(t) for t in t_lst: t.join() t2 = time.time() - start2 print(t1,t2)
threading.current_thread(), .active_count(), .enumerate()
import threading,time def haha(n): # print(n) time.sleep(0.5) print('名字和ID,',threading.current_thread()) print('id',threading.get_ident()) for i in range(10): threading.Thread(target=haha,args=(1,)).start() print(threading.current_thread()) print(threading.active_count())#当前活着的线程数,记得算上主线程 print(threading.enumerate()) #存储所有线程名字和id的一个列表
(2)守护线程:
#1 主进程在其代码结束后就已经算运行完毕了(守护进程在此时就被回收),
# 然后主进程会一直等非守护的子进程都运行完毕后回收子进程的资源(否则会产生僵尸进程),才会结束,
#2 主线程在其他非守护线程运行完毕后才算运行完毕(守护线程在此时就被回收)。
# 因为主线程的结束意味着进程的结束,进程整体的资源都将被回收,而进程必须保证非守护线程都运行完毕后才能结束。
#和进程一样,主线程会等到子线程执行完才结束。 设置守护线程也是 t.daemon=Ture #守护进程会随着主进程的结束而结束 #守护线程会在主线程结束之后等待子线程的结束才结束,主进程只是代码运行结束,但是没关闭,因为主进程要留着内存资源给子线程用 #但是如果进程既有子线程,也有子进程,会等到所有代码结束完,才结束。因为主进程没结束,所以守护线程还会运行 import time from threading import Thread from multiprocessing import Process def func1(): while True: print('*'*10) time.sleep(1) def func2(): print('fun222') time.sleep(3) # print('funcccc') t= Thread(target=func1) t.daemon=True #设置守护线程,随着主线程结束而结束 #守护线程会在主线程结束之后等待其他子线程的结束才结束 t.start() t2= Thread(target=func2) # t2.daemon=True t2.start() t2.join()#感知func2结束,才会继续执行主线程代码 print('主线程') # if __name__ == '__main__': # t = Process(target=func1) # # t = Thread(target=func1) # t.daemon = True # 设置守护线程,随着主线程结束而结束 # # 守护进程会随着主进程的结束而结束 # t.start() # t2 = Thread(target=func2) # # t2 = Process(target=func2) # # t2.daemon = True # t2.start() # print('主线程')
(3)使用多线程实现的socket客户端的并发:
import socket from threading import Thread def func(conn): conn.send(b'hello threading') msg = conn.recv(1024).decode('utf8') print(msg) conn.close() sk = socket.socket() sk.bind(('127.0.0.1',8080)) sk.listen() while True: conn,addr = sk.accept() t = Thread(target=func,args=(conn,)) t.start() sk.close()
import socket sk = socket.socket() sk.connect(('127.0.0.1',8080)) msg = sk.recv(1024) print(msg) ret = input('>>>> ') sk.send(ret.encode('utf8')) sk.close()
(1)锁: 同步锁/互斥锁threading.Lock 以及 递归锁threading.RLock .
所谓死锁: 是指两个或两个以上的进程或线程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程,如下就是死锁
import time from threading import Thread,Lock noodle_lock = Lock() fork_lock = Lock() def eat1(name): noodle_lock.acquire() print('%s 抢到了面条'%name) fork_lock.acquire() print('%s 抢到了叉子'%name) print('%s 吃面'%name) fork_lock.release() noodle_lock.release() def eat2(name): fork_lock.acquire() print('%s 抢到了叉子' % name) time.sleep(1) noodle_lock.acquire() print('%s 抢到了面条' % name) print('%s 吃面' % name) noodle_lock.release() fork_lock.release() for name in ['哪吒','egon','yuan']: t1 = Thread(target=eat1,args=(name,)) t2 = Thread(target=eat2,args=(name,)) t1.start() t2.start() 死锁问题
著名的科学家吃面问题:
#Lock互斥锁,但凡互斥锁都有死锁问题。(当用到两把以上锁,可能会出现死锁现象) #进程三大消息中间件:一般不用我们之前学习的那些IPC。所以进程一般用不到我们自己加锁 # kafka:大数据的 消息中间件 可保留数据 # rebbitmq # memcache:不可保留 #由于存在操作系统时间片的轮换,刚好线程拿到数据的时候,时间片轮换了,(其他线程也拿到了这个数据) # 不是GIL让线程休眠,而是系统时间片轮换强制休眠,所以线程把数据还回去了(操作完了)。其他线程就可以使用数据了(前提是这个代码足够到让时间片轮换) #所以即使有GIL锁还是存在数据不安全性的 import time from threading import Thread,Lock # # def func(lock): # global n # with lock: #lock.acquire() lock.release() #没有锁结果为9 # temp = n # time.sleep(0.2) # n = temp - 1 # # n = 10 # t_lst = [] # lock = Lock() # for i in range(10): # t = Thread(target=func,args=(lock,)) # t.start() # t_lst.append(t) # [t.join() for t in t_lst] # print(n) #科学家吃面,经典的死锁问题(进程也有死锁问题) # noodle_lock = Lock() # fork_lock = Lock() # def eat1(name): # noodle_lock.acquire() # print('%s拿到面条啦'%name) # fork_lock.acquire() # print('%s拿到叉子了'%name) # print('%s吃面'%name) # fork_lock.release() # noodle_lock.release() # # def eat2(name): # fork_lock.acquire() # print('%s拿到叉子了'%name) # time.sleep(1) # noodle_lock.acquire() # print('%s拿到面条啦'%name) # print('%s吃面'%name) # noodle_lock.release() # fork_lock.release() #在只有同步锁,没有递归锁的情况下,会产生如下注释 # Thread(target=eat1,args=('alex',)).start() #1.拿到面条钥匙,拿到叉子钥匙,吃面成功 # Thread(target=eat2,args=('Egon',)).start() #1.拿到叉子钥匙,阻塞 # Thread(target=eat1,args=('bossjin',)).start() # 1.alex吃完面,因为叉子钥匙在egon手里,所以jin 拿到了面条钥匙 # Thread(target=eat2,args=('nezha',)).start() # 1.通过前3步,此时nezha啥也没拿到 #递归锁,解决死锁问题 from threading import RLock #递归锁 # lock2 = RLock() # 理解为一串钥匙 # lock2.acquire() # lock2.acquire() # lock2.acquire() # lock2.acquire() # print(123) #在只有一个线程的时候,Rlock不起效果 #但是如果多个线程,其中一个线程拿了acqure,其他子线程就拿不到了 #Rlock 可以理解为一串钥匙,假设进3道门。一个线程拿着这一串钥匙(3把),要逐一进到门里,拿到结果,(流程图在有道词典0928) #然后逐一返回回来,下一个进程才可以继续用这钥匙串,去进入这3道门 noodle_lock2 = fork_lock2 = RLock() #一串钥匙,一旦拿在手里,别人就拿不到钥匙了,不存在死锁 def eat1(name): noodle_lock2.acquire() print('%s拿到面条啦'%name) fork_lock2.acquire() print('%s拿到叉子了'%name) print('%s吃面'%name) fork_lock2.release() noodle_lock2.release() def eat2(name): fork_lock2.acquire() print('%s拿到叉子了'%name) time.sleep(1) noodle_lock2.acquire() print('%s拿到面条啦'%name) print('%s吃面'%name) noodle_lock2.release() fork_lock2.release() #在只有同步锁,没有递归锁的情况下,会产生如下注释 Thread(target=eat1,args=('alex',)).start() #1.拿到面条钥匙,拿到叉子钥匙,吃面成功 Thread(target=eat2,args=('Egon',)).start() #1.拿到叉子钥匙,阻塞 Thread(target=eat1,args=('bossjin',)).start() # 1.alex吃完面,因为叉子钥匙在egon手里,所以jin 拿到了面条钥匙 Thread(target=eat2,args=('nezha',)).start() # 1.通过前3步,此时nezha啥也没拿到
(2)信号量: threading.Semaphore,同进程一样.
Semaphore管理一个内置的计数器,
每当调用acquire()时内置计数器-1;
调用release() 时内置计数器+1;
计数器不能小于0;当计数器为0时,acquire()将阻塞线程直到其他线程调用release()。
import time from threading import Thread,Semaphore def fun(sem,a,b): sem.acquire() time.sleep(0.5) n = a+b print(n) sem.release() sem = Semaphore(4) for i in range(10): t = Thread(target=fun,args=(sem,i,i+5,)) t.start()
(3)事件: threading.Event
import time,random from threading import Thread,Event def check_db(e): count = 0 while count<3: e.wait(1) #在状态为false的情况下,只等待1秒钟 if e.is_set() == True: print('第%s次连接,连接成功'%(count+1)) break else: print('第%s次连接,连接失败'%(count+1)) count += 1 else: raise TimeoutError('