一、 collections 模块
python中的扩展数据类型
在内置数据类型(dict、list、set、tuple)的基础上,collections模块还提供了几个额外的数据类型:Counter、deque、defaultdict、namedtuple和OrderedDict等。
1.namedtuple: 生成可以使用名字来访问元素内容的tuple
我们知道tuple
可以表示不变集合,例如,一个点的二维坐标就可以表示成:
>>> p = (1, 2)
但是,看到(1, 2),很难看出这个tuple是用来表示一个坐标的。
这时,namedtuple
就派上了用场:
#可命名元组 from collections import namedtuple Point = namedtuple("point",["x","y","z"]) #参数中的“point”只是一个名字,["x","y","z"]元组里有几个元素就有几个参数 p1 = Point(1,2,3) p2 = Point(3,2,1) print(p1.x,p1.y,p1.z) print(p2.x,p2.y,p2.z) print(p1,p2) ##### 1 2 3 3 2 1 point(x=1, y=2, z=3) point(x=3, y=2, z=1) #花色和数字 Card = namedtuple("card",["suits","number"]) c1 = Card("红桃",2) print(c1.suits,c1.number) print(c1) ###### 红桃 2 card(suits='红桃', number=2) #类似的,如果要用坐标和半径表示一个圆,也可以用namedtuple定义: Circle = namedtuple("circle",["x","y","r"]) # #namedtuple('名称', [属性list]): c = Circle(1,2,5) print(c) ###### circle(x=1, y=2, r=5)
2.deque
使用list存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,因为list是线性存储,数据量大的时候,插入和删除效率很低。
deque是为了高效实现插入和删除操作的双向列表,适合用于队列和栈:(堆栈:先进后出 队列:先进先出FIFO)
#队列 import queue q = queue.Queue() #创建一个队列 q.put(6) q.put(7) q.put(8) print(q) # <queue.Queue object at 0x000001D5560650F0> print(q.get()) # 6 先进先出 print(q.get()) # 7 print(q.get()) # 8 print(q.qsize()) # q.size()返回序列里面的元素个数,取了三次取完了 0 print(q.get()) #取完了,一直在这等着: 阻塞
from collections import deque dq=deque(["a","b","c"]) dq.append("x") dq.appendleft("y") print(dq) #结果:deque(['y', 'a', 'b', 'c', 'x'])
deque除了实现list的append()
和pop()
外,还支持appendleft()
和popleft()
,这样就可以非常高效地往头部添加或删除元素。
from collections import deque dq = deque([1,2]) dq.append('a') # 从后面放数据 [1,2,'a'] dq.appendleft('b') # 从前面放数据 ['b',1,2,'a'] dq.insert(2,3) #['b',1,3,2,'a'] #2为索引,3为数字 print(dq.pop()) # "a"从后面取数据 print(dq.pop()) # 2 从后面取数据 print(dq.popleft()) # "b" 从前面取数据 print(dq) #deque([1, 3])
3.Counter
计数器,主要用来计数
from collections import Counter c=Counter("abhdsfifhabaacsdfgsfa") print(c) #结果:Counter({'a': 5, 'f': 4, 's': 3, 'b': 2, 'd': 2, 'h': 2, 'i': 1, 'c': 1, 'g': 1}) #跟踪值出现的次数
4.OrderedDict
有序字典
使用dict时,Key是无序的。如果想要保持key的顺序,就用OrderedDict。(在一般情况下,通过字典的key取value值比列表要快,但字典比列表占内存)
#dict中的Key是无序的 d=dict([("a","1"),("b",2),("c",3)]) print(d) #结果:{'c': 3, 'b': 2, 'a': '1'} # dict中的Key是无序的
#OrderedDict的Key是有序的 from collections import OrderedDict od=OrderedDict([("a","1"),("b","2"),("c","3")]) print(od) #OrderedDict([('a', '1'), ('b', '2'), ('c', '3')]) print(od["a"]) # a #OrderedDict的Key是有序的,即使有序也是一个字典,不能用索引,只能用键值对 for k in od: print(k) # a ,b,c
from collections import OrderedDict od=OrderedDict() od["z"]=1 od["y"]=2 od["x"]=3 print(od.keys()) #结果:odict_keys(['z', 'y', 'x']) #按照插入的key的顺序返回
#将所有大于 66 的值保存至字典的第一个key中,将小于 66 的值保存至第二个key的值中。 #即: {'k1': 大于66 , 'k2': 小于66} values = [11, 22, 33,44,55,66,77,88,99,90] my_dict = {} for value in values: if value>66: if 'k1' in my_dict.keys(): my_dict['k1'].append(value) else: my_dict['k1'] = [value] else: if 'k2' in my_dict.keys(): my_dict['k2'].append(value) else: my_dict['k2'] = [value] print(my_dict) # {'k2': [11, 22, 33, 44, 55, 66], 'k1': [77, 88, 99, 90]}
#defaultdict字典解决方法 from collections import defaultdict values = [11, 22, 33,44,55,66,77,88,99,90] my_dict = defaultdict(list) for value in values: if value>66: my_dict['k1'].append(value) else: my_dict['k2'].append(value) print(my_dict) ## defaultdict(<class 'list'>, {'k2': [11, 22, 33, 44, 55, 66], 'k1': [77, 88, 99, 90]})
使用dict
时,如果引用的Key不存在,就会抛出KeyError
。如果希望key不存在时,返回一个默认值,就可以用defaultdict
:
>>> from collections import defaultdict >>> dd = defaultdict(lambda: 'N/A') >>> dd['key1'] = 'abc' >>> dd['key1'] # key1存在 'abc' >>> dd['key2'] # key2不存在,返回默认值 'N/A'
二、time模块
和时间有关系的我们就要用到时间模块。在使用模块之前,应该首先导入这个模块。
#常用方法 1.time.sleep(secs) (线程)推迟指定的时间运行。单位为秒。 2.time.time() 获取当前时间戳
表示时间的三种方式
在Python中,通常有这三种方式来表示时间:时间戳、元组(struct_time)、格式化的时间字符串:
(1)时间戳(timestamp) :通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。我们运行“type(time.time())”,返回的是float类型。
(2)格式化的时间字符串(Format String): ‘1999-12-06’
python中时间日期格式化符号:
%y 两位数的年份表示(00-99)
%Y 四位数的年份表示(000-9999)
%m 月份(01-12)
%d 月内中的一天(0-31)
%H 24小时制小时数(0-23)
%I 12小时制小时数(01-12)
%M 分钟数(00=59)
%S 秒(00-59)
%a 本地简化星期名称
%A 本地完整星期名称
%b 本地简化的月份名称
%B 本地完整的月份名称
%c 本地相应的日期表示和时间表示
%j 年内的一天(001-366)
%p 本地A.M.或P.M.的等价符
%U 一年中的星期数(00-53)星期天为星期的开始
%w 星期(0-6),星期天为星期的开始
%W 一年中的星期数(00-53)星期一为星期的开始
%x 本地相应的日期表示
%X 本地相应的时间表示
%Z 当前时区的名称
%% %号本身
(3)元组(struct_time) :struct_time元组共有9个元素共九个元素:(年,月,日,时,分,秒,一年中第几周,一年中第几天等)
首先,我们先导入time模块,来认识一下python中表示时间的几种格式:
#导入时间模块 >>>import time #时间戳 >>>time.time() 1500875844.800804 #时间字符串 >>>time.strftime("%Y-%m-%d %X") '2017-07-24 13:54:37' >>>time.strftime("%Y-%m-%d %H-%M-%S") '2017-07-24 13-55-04' #时间元组:localtime将一个时间戳转换为当前时区的struct_time time.localtime() time.struct_time(tm_year=2017, tm_mon=7, tm_mday=24, tm_hour=13, tm_min=59, tm_sec=37, tm_wday=0, tm_yday=205, tm_isdst=0)
小结:时间戳是计算机能够识别的时间;时间字符串是人能够看懂的时间;元组则是用来操作时间的
几种格式之间的转换
#结构化时间-->字符串时间 #time.strftime("格式定义","结构化时间") 结构化时间参数若不传,则显示当前时间 >>>time.strftime("%Y-%m-%d %X") '2017-07-24 14:55:36' >>>time.strftime("%Y-%m-%d",time.localtime(1500000000)) '2017-07-14' #字符串时间-->结构化时间 #time.strptime(时间字符串,字符串对应格式) >>>time.strptime("2017-03-16","%Y-%m-%d") time.struct_time(tm_year=2017, tm_mon=3, tm_mday=16, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=3, tm_yday=75, tm_isdst=-1) >>>time.strptime("07/24/2017","%m/%d/%Y") time.struct_time(tm_year=2017, tm_mon=7, tm_mday=24, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=0, tm_yday=205, tm_isdst=-1)
#结构化时间 --> %a %b %d %H:%M:%S %Y串 #time.asctime(结构化时间) 如果不传参数,直接返回当前时间的格式化串 >>>time.asctime(time.localtime(1500000000)) 'Fri Jul 14 10:40:00 2017' >>>time.asctime() 'Mon Jul 24 15:18:33 2017' #时间戳 --> %a %b %d %H:%M:%S %Y串 #time.ctime(时间戳) 如果不传参数,直接返回当前时间的格式化串 >>>time.ctime() 'Mon Jul 24 15:19:07 2017' >>>time.ctime(1500000000) 'Fri Jul 14 10:40:00 2017
#####
import time true_time=time.mktime(time.strptime('2017-09-11 08:30:00','%Y-%m-%d %H:%M:%S')) time_now=time.mktime(time.strptime('2017-09-12 11:00:00','%Y-%m-%d %H:%M:%S')) dif_time=time_now-true_time struct_time=time.gmtime(dif_time) print('过去了%d年%d月%d天%d小时%d分钟%d秒'%(struct_time.tm_year-1970,struct_time.tm_mon-1, struct_time.tm_mday-1,struct_time.tm_hour, struct_time.tm_min,struct_time.tm_sec)) 计算时间差
三、random模块
random库是生成随机数的Python标准库(随着Python解释器自带的库,不需要安装,直接使用import导入)。其实计算机无法产生随机数,只能产生伪随机数,采用梅森旋转算法,产生伪随机序列,序列中的每个元素就是随机数。原理如下:
#随机数种子:seed() 初始化给定的随机数种子,默认为当前的系统时间;(利用随机数种子产生确定的随机数)
>>>random.seed(10) #产生种子10对应的序列(如果给了种子,产生随机数就是相同的,这样有必要再现随机数的话可以复现程序运行的过程)
>>> import random #随机小数 >>> random.random() # 大于等于0且小于1.0之间的小数 0.7664338663654585 >>> random.uniform(1,3) #大于1小于3的小数 1.6270147180533838
## random.getrandbits(k) ##生成一个K比特长的随机整数 >>> random.getrandbits(16) 28107
random.uniform(a,b) #生成一个[a,b]间的随机小数 >>>random.uniform(1,10) 7.122389422847517 #Python表示的浮点数是小数点后有16位
#随机整数 >>> random.randint(1,5) # 大于等于1且小于等于5之间的整数 >>> random.randrange(1,10,2) # 大于等于1且小于10之间的奇数 #随机选择一个元素返回 >>> random.choice([1,'23',[4,5]]) # #1或者23或者[4,5] #随机选择多个返回,返回的个数为函数的第二个参数
>>> random.sample([1,'23',[4,5]],2) # #列表元素任意2个组合,原序列不变 [[4, 5], '23']
#打乱列表顺序,原序列改变
#random.shuffle() s = [1,2,3,4,5,6,7,8,9,10];random.shuffle(s);print(s) #几条语句可以写在一行用";"隔开 #[5, 10, 1, 8, 6, 7, 4, 9, 2, 3]
>>> item=[1,3,5,7,9] >>> random.shuffle(item) # 打乱次序 >>> item [5, 1, 3, 7, 9] >>> random.shuffle(item) >>> item [5, 9, 7, 1, 3]
练习:生成随机验证码
import random def v_code(): code = '' for i in range(5): num=random.randint(0,9) alf=chr(random.randint(65,90)) add=random.choice([num,alf]) code="".join([code,str(add)]) return code print(v_code()) 生成验证码
四、 OS模块
OS库是和操作系统相关的库:
os.makedirs('dirname1/dirname2') 可生成多层递归目录
os.removedirs('dirname1') 若目录为空,则删除,并递归到上一级目录,如若也为空,则删除,依此类推
os.mkdir('dirname') 生成单级目录;相当于shell中mkdir dirname
os.rmdir('dirname') 删除单级空目录,若目录不为空则无法删除,报错;相当于shell中rmdir dirname
os.listdir('dirname') 列出指定目录下的所有文件和子目录,包括隐藏文件,并以列表方式打印
os.remove() 删除一个文件
os.rename("oldname","newname") 重命名文件/目录
os.stat('path/filename') 获取文件/目录信息
os.curdir #返回当前目录 打印输出“.”,一个"." 表示当前目录
os.pardir #获取当前目录的父目录字符串:“..”表示上一层目录
os.getlogin() #获取当前登录的用户名称
os.cpu_count() #返回当前系统CPU的数量
os.urandom(n) #产生n个字节长度的随机字符串(通常用于与操作系统相关的加解密运算中)
os.sep 输出操作系统特定的路径分隔符, Win下为 ""; Linux 下为“/”
os.linesep 输出当前平台使用的行终止符,win下为"
",Linux下为"
"
os.system("bash command") 运行shell命令,直接显示
os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径
os.chdir("dirname") 改变当前脚本工作目录;相当于shell下cd
os.pathsep 输出用于分割文件路径的字符串 win下为;,Linux下为:
os.name 输出字符串指示当前使用平台。win->'nt'; Linux->'posix'
os.popen("bash command).read() 运行shell命令,获取执行结果
os.environ 获取系统环境变量
os.path子库(操作和处理文件路径)
os.path.abspath(path) 返回path规范化的绝对路径(返回path在当前系统的绝对路径)
os.path.normpath(path) 归一化path表示形式,统一用“”分隔路径
os.path.relpath(path) 返回当前程序与文件之间的相对路径
os.path.split(path) 将path分割成目录和文件名二元组返回
os.path.dirname(path) 返回path的目录的名字。其实就是os.path.split(path)的第一个元素
os.path.basename(path) 返回path最后的文件名。如何path以/或结尾,那么就会返回空值。即os.path.split(path)的第二个元素
os.path.exists(path) 如果path存在,返回True;如果path不存在,返回False
os.path.isabs(path) 如果path是绝对路径,返回True
os.path.isfile(path) 如果path是一个存在的文件,返回True。否则返回False
os.path.isdir(path) 如果path是一个存在的目录,则返回True。否则返回False
os.path.join(path1[, path2[, ...]]) 将多个路径组合后返回,第一个绝对路径之前的参数将被忽略
os.path.getatime(path) 返回path所指向的文件或者目录的最后访问时间
os.path.getmtime(path) 返回path所指向的文件或者目录的最后修改时间
os.path.getsize(path) 返回path的大小
*******************************************
os.system(command):OS库的进程管理,使用编写的Python程序调用外部的程序;
以下是Python程序调用Windows环境下的计算器程序:
注意:os.stat('path/filename') 获取文件/目录信息的结构说明:
stat 结构: st_mode: inode 保护模式 st_ino: inode 节点号。 st_dev: inode 驻留的设备。 st_nlink: inode 的链接数。 st_uid: 所有者的用户ID。 st_gid: 所有者的组ID。 st_size: 普通文件以字节为单位的大小;包含等待某些特殊文件的数据。 st_atime: 上次访问的时间。 st_mtime: 最后一次修改的时间。 st_ctime: 由操作系统报告的"ctime"。在某些系统上(如Unix)是最新的元数据更改的时间,在其它系统上(如Windows)是创建时间(详细信息参见平台的文档)。
OS模块属性:
os.sep 输出操作系统特定的路径分隔符,win下为"\",Linux下为"/" os.linesep 输出当前平台使用的行终止符,win下为" ",Linux下为" " os.pathsep 输出用于分割文件路径的字符串 win下为;,Linux下为: os.name 输出字符串指示当前使用平台。win->'nt'; Linux->'posix'
五、sys模块
sys模块是与python解释器交互的一个接口.
sys.argv 命令行参数List,第一个元素是程序本身路径(在执行脚本之前,向脚本传递参数,这些参数传递到sys.argv里面了)
sys.exit(n) 退出程序,正常退出时exit(0),错误退出sys.exit(1)
sys.version 获取Python解释程序的版本信息
sys.path 返回模块的搜索路径,初始化时使用PYTHONPATH环境变量的值
sys.platform 返回操作系统平台名称
#异常处理和status import sys try: sys.exit(1) except SystemExit as e: print(e)
六、序列化模块
什么叫序列化——将原本的字典、列表等内容转换成一个字符串的过程就叫做序列化。(序列化就是转向一个字符串的过程,序列指的就是字符串;主要用在网络传输和数据存储的场景)
思考:为什么要序列化?
比如,我们在python代码中计算的一个数据需要给另外一段程序使用,那我们怎么给? 现在我们能想到的方法就是存在文件里,然后另一个python程序再从文件里读出来。 但是我们都知道,对于文件来说是没有字典这个概念的,所以我们只能将数据转换成字符串放到文件中。 你一定会问,将字典转换成一个字符串很简单,就是str(dict)就可以办到了,为什么我们还要学习序列化模块呢? 没错序列化的过程就是从dic 变成str(dict)的过程。现在你可以通过str(dict),将一个名为dic的字典转换成一个字符串, 但是你要怎么把一个字符串转换成字典呢? 聪明的你肯定想到了eval(),如果我们将一个字符串类型的字典str_dict传给eval,就会得到一个返回的字典类型了。 eval()函数十分强大,但是eval是做什么的?e官方demo解释为:将字符串str当成有效的表达式来求值并返回计算结果。 BUT!强大的函数有代价。安全性是其最大的缺点。 想象一下,如果我们从文件中读出的不是一个数据结构,而是一句"删除文件"类似的破坏性语句,那么后果实在不堪设设想。 而使用eval就要担这个风险。 所以,我们并不推荐用eval方法来进行反序列化操作(将str转换成python中的数据结构)
序列化的目的
json:通用的序列化格式(存在弊端,只有很少的一部分数据类型可以通过json转换成字符串)
pickle:所有的数据类型都可以转换成字符串形式,但是序列化的内容只有python能理解,部分反序列化时依赖python代码。
shelve:序列化句柄,使用句柄直接操作,比较方便。
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Json:模块提供了四个功能:dumps、dump、loads、load
#dumps:序列化方法 ;#loads:反序列化方法(dumps/loads 是对内存中的数据进行序列化,序列化完成后数据还在内存中)
#要点一: import json dic = {"k":"v"} print(type(dic),dic)#<class 'dict'> {'k': 'v'} str_d = json.dumps(dic) print(type(str_d),str_d)#<class 'str'> {"k": "v"};json 本身是单引号,但是内部使用的字符串元素都为双引号
dic_d = json.loads(str_d) #反序列化
print(type(dic_d),dic_d) #<class 'dict'> {'k': 'v'}
##json能够序列化的的数据类型有:数字、字符串、列表、字典、元组(元组经过序列化后生成列表)
import json tu = (1,2,3,4,5) str_u = json.dumps(tu) print(type(str_u),str_u) tup_u = json.loads(str_u) print(type(tup_u),tup_u) ##### <class 'str'> [1, 2, 3, 4, 5] <class 'list'> [1, 2, 3, 4, 5]
# dump load 是和文件相关的操作(往文件里写)
import json f = open('json_file','w') dic = {'k1':'v1','k2':'v2','k3':'v3'} json.dump(dic,f) #dump方法接收一个文件句柄,直接将字典转换成json字符串写入文件 f.close() f = open('json_file') dic2 = json.load(f) #load方法接收一个文件句柄,直接将文件中的json字符串转换成数据结构返回 f.close() print(type(dic2),dic2)#<class 'dict'> {'k1': 'v1', 'k2': 'v2', 'k3': 'v3'}
#ensure_ascii 关键字参数 import json f = open('file','w',encoding='utf-8') json.dump({'国籍':'中国'},f) ret = json.dumps({'国籍':'中国'}) f.write(ret+' ') json.dump({'国籍':'美国'},f,ensure_ascii=False) ret = json.dumps({'国籍':'美国'},ensure_ascii=False) f.write(ret+' ') f.close()
import json dic = {"国籍":"美国"} f = open("json_file","w",encoding="utf-8") json.dump(dic,f) f.close() f = open("json_file","r",encoding="utf-8") res = json.load(f) f.close() print(res)#{'国籍': '美国'} # 在用json 的dump和load向文件中写和读时,必须是一次性写(写可以是多次写)和一次性读(必须是一次性读)
#怎样做到分次往文件里写,分次从文件中读 import json lst = [{"k1":"111"},{"k2":"222"},{"k3":"333"}] f = open("json_file","w",encoding="utf-8") for dct in lst: str_dic = json.dumps(dct) f.write(str_dic+" ") f.close() f = open("json_file","r",encoding="utf-8") L = [] for line in f: dic = json.loads(line.strip()) L.append(dic) print(L) f.close() ################## [{'k1': '111'}, {'k2': '222'}, {'k3': '333'}]
json & pickle 模块:
Pickle
优点:所有的python中的数据类型都可以转化为字符串形式
缺点:pickle序列化的内容只有python能理解,且部分反序列化依赖python代码
用于序列化的两个模块
- json,用于字符串 和 python数据类型间进行转换
- pickle,用于python特有的类型 和 python的数据类型间进行转换
pickle模块提供了四个功能:dumps、dump(序列化,存)、loads(反序列化,读)、load (不仅可以序列化字典,列表...可以把python中任意的数据类型序列化
import pickle dic = {'k1':'v1','k2':'v2','k3':'v3'} str_dic = pickle.dumps(dic) print(str_dic) #一串二进制内容 dic2 = pickle.loads(str_dic) print(dic2) #字典 import time struct_time = time.localtime(1000000000) print(struct_time) f = open('pickle_file','wb') pickle.dump(struct_time,f) f.close() f = open('pickle_file','rb') struct_time2 = pickle.load(f) print(struct_time2.tm_year)
f.close()
#pickle可以分次写和读
Shelve:
Shelve提供了open方法,是用key来访问的,使用起来和字典类似。
import shelve f = shelve.open('shelve_file') f['key'] = {'int':10, 'float':9.5, 'string':'Sample data'} #直接对文件句柄操作,就可以存入数据 f.close() f1 = shelve.open('shelve_file') existing = f1['key'] #取出数据的时候也只需要直接用key获取即可,但是如果key不存在会报错 f1.close() print(existing) ############### {'int': 10, 'float': 9.5, 'string': 'Sample data'}
shelve这个模块有个限制,它不支持多个应用同一时间往同一个DB进行写操作。所以当我们知道我们的应用如果只进行读操作,
我们可以让shelve通过只读方式打开DB.
#shelve 只读 import shelve f = shelve.open('shelve_file', flag='r') existing = f['key'] f.close() print(existing
################### 由于shelve在默认情况下是不会记录待持久化对象的任何修改的,所以我们在shelve.open()时候需要修改默认参数,
否则对象的修改不会保存。
import shelve
f1 = shelve.open('shelve_file')
print(f1['key'])
f1['key']['new_value'] = 'this was not here before'
f1.close()
f2 = shelve.open('shelve_file', writeback=True) #修改可以感知到
print(f2['key'])
f2.close()
#####
{'int': 10, 'float': 9.5, 'string': 'Sample data', 'new_value': 'this was not here before'} ###### writeback方式有优点也有缺点。优点是减少了我们出错的概率,并且让对象的持久化对用户更加的透明了;但这种方式并不是所有的情况下都需要,
首先,使用writeback以后,shelve在open()的时候会增加额外的内存消耗,并且当DB在close()的时候会将缓存中的每一个对象都写入到DB,
这也会带来额外的等待时间。因为shelve没有办法知道缓存中哪些对象修改了,哪些对象没有修改,因此所有的对象都会被写入。