1. 什么是序列化
我们把变量从内存中变成可存储或传输的过程称之为序列化。
序列化之后,就可以把序列化后的内容写入磁盘,或者通过网络传输到别的机器上。
反过来,把变量内容从序列化的对象重新读到内存里称之为反序列化,即unpickling。
举例:大家应该都玩过魔兽争霸,应该知道该游戏有一个存档的功能,我每次不想玩得时候就可以存档,然后再玩得时候我们根本不需要重新开始玩,只需要读档就可以了。我们现在学习的事面向对象的思想,那么在我们眼中不管是我们的游戏角色还是游戏中的怪物、装备等等都可以看成是 一个个的对象,进行简单的分析。
武器对象(包含武器的类型、武器的伤害、武器附加的能力值等等属性)
怪物对象(包含等级、经验值、攻击、怪物类型等等)
于是玩游戏过程变的非常有意思了,创建游戏角色就好像是创建了一个角色对象,拿到武器就好像创建了一个武器对象,遇到的怪物、NPC等等都是对象了。
然后再用学 过的知识进行分析,我们发现对象的数据都是保存在内存中的,应该都知道内存的数据在断电以后是会消失的,但是我们的游戏经过存档以后,就算你关机了几天, 再进入游戏的时候,读取你的存档发现你在游戏中的一切都还在呢,奇怪了,明明内存中的数据已经没有了啊,这是为什么呢?于是再仔细考虑,电脑中有硬盘这个 东西在断电以后保存的数据是不会丢的(要是由于断电导致的硬盘损坏了,没有数据了,哈哈,不在此考虑中)。那么应该很容易的想到这些数据是被保存在硬盘中 了。没错!这就是对象的持久化,也就是我们今天要讲的对象的序列化。那么反序列化就很好理解了就是将存放在硬盘中的信息再读取出来形成对象。
---如何序列化?
在python中提供了两个模块可进行序列化。分别是pickle和json。
2. pickle(重点)
用于序列化的两个模块
json:用于字符串和Python数据类型间进行转换
pickle: 用于python特有的类型和python的数据类型间进行转换
json提供四个功能:dumps,dump,loads,load
pickle提供四个功能:dumps,dump,loads,load
pickle可以存储什么类型的数据呢?
- 所有python支持的原生类型:布尔值,整数,浮点数,复数,字符串,字节,None。
- 由任何原生类型组成的列表,元组,字典和集合。
- 函数,类,类的实例
pickle模块中常用的方法有:
1. pickle.dump(obj, file, protocol=None,)
必填参数obj表示将要封装的对象
必填参数file表示obj要写入的文件对象,file必须以二进制可写模式打开,即“wb”
可选参数protocol表示告知pickler使用的协议,支持的协议有0,1,2,3,默认的协议是添加在Python 3中的协议3。
- Protocol version 0 is the original “human-readable” protocol and is backwards compatible with earlier versions of Python.
- Protocol version 1 is an old binary format which is also compatible with earlier versions of Python.
- Protocol version 2 was introduced in Python 2.3. It provides much more efficient pickling of new-style classes. Refer to PEP 307 for information about improvements brought by protocol 2.
- Protocol version 3 was added in Python 3.0. It has explicit support for bytes objects and cannot be unpickled by Python 2.x. This is the default protocol, and the recommended protocol when compatibility with other Python 3 versions is required.
- Protocol version 4 was added in Python 3.4. It adds support for very large objects, pickling more kinds of objects, and some data format optimizations. Refer to PEP 3154 for information about improvements brought by protocol 4.
2. pickle.load(file,*,fix_imports=True, encoding="ASCII", errors="strict")
必填参数file必须以二进制可读模式打开,即“rb”,其他都为可选参数
3. pickle.dumps(obj):以字节对象形式返回封装的对象,不需要写入文件中
4. pickle.loads(bytes_object): 从字节对象中读取被封装的对象,并返回
pickle模块可能出现三种异常:
1. PickleError:封装和拆封时出现的异常类,继承自Exception
2. PicklingError: 遇到不可封装的对象时出现的异常,继承自PickleError
3. UnPicklingError: 拆封对象过程中出现的异常,继承自PickleError
应用:
1 # dumps功能 2 import pickle 3 data = ['aa', 'bb', 'cc'] 4 # dumps 将数据通过特殊的形式转换为只有python语言认识的字符串 5 p_str = pickle.dumps(data) 6 print(p_str)
7 b'x80x03]qx00(Xx02x00x00x00aaqx01Xx02x00x00x00bbqx02Xx02x00x00x00ccqx03e.
1 # loads功能 2 # loads 将pickle数据转换为python的数据结构 3 mes = pickle.loads(p_str) 4 print(mes) 5 ['aa', 'bb', 'cc']
1 # dump功能 2 # dump 将数据通过特殊的形式转换为只有python语言认识的字符串,并写入文件 3 with open('D:/tmp.pk', 'w') as f: 4 pickle.dump(data, f)
1 # load功能 2 # load 从数据文件中读取数据,并转换为python的数据结构 3 with open('D:/tmp.pk', 'r') as f: 4 data = pickle.load(f)
3. shelve
这几天接触了Python中的shelve这个module,感觉比pickle用起来更简单一些,它也是一个用来持久化Python对象的简单工具。当我们写程序的时候如果不想用关系数据库那么重量级的东东去存储数据,不妨可以试试用shelve。shelf也是用key来访问的,使用起来和字典类似。shelve其实用anydbm去创建DB并且管理持久化对象的。
创建一个新的shelf
直接使用shelve.open()就可以创建了
1 import shelve 2 3 s = shelve.open('test_shelf.db') 4 try: 5 s['key1'] = { 'int': 10, 'float':9.5, 'string':'Sample data' } 6 finally: 7 s.close()
如果想要再次访问这个shelf,只需要再次shelve.open()就可以了,然后我们可以像使用字典一样来使用这个shelf
1 import shelve 2 3 s = shelve.open('test_shelf.db') 4 try: 5 existing = s['key1'] 6 finally: 7 s.close() 8 9 print existing
当我们运行以上两个py,我们将得到如下输出:
$ python shelve_create.py $ python shelve_existing.py {'int': 10, 'float': 9.5, 'string': 'Sample data'}
dbm这个模块有个限制,它不支持多个应用同一时间往同一个DB进行写操作。所以当我们知道我们的应用如果只进行读操作,我们可以让shelve通过只读方式打开DB:
1 import shelve 2 3 s = shelve.open('test_shelf.db', flag='r') 4 try: 5 existing = s['key1'] 6 finally: 7 s.close() 8 9 print existing
当我们的程序试图去修改一个以只读方式打开的DB时,将会抛一个访问错误的异常。异常的具体类型取决于anydbm这个模块在创建DB时所选用的DB。
写回(Write-back)
由于shelve在默认情况下是不会记录待持久化对象的任何修改的,所以我们在shelve.open()时候需要修改默认参数,否则对象的修改不会保存。
1 import shelve 2 3 s = shelve.open('test_shelf.db') 4 try: 5 print s['key1'] 6 s['key1']['new_value'] = 'this was not here before' 7 finally: 8 s.close() 9 10 s = shelve.open('test_shelf.db', writeback=True) 11 try: 12 print s['key1'] 13 finally: 14 s.close()
上面这个例子中,由于一开始我们使用了缺省参数shelve.open()了,因此第6行修改的值即使我们s.close()也不会被保存。
执行结果如下:
$ python shelve_create.py $ python shelve_withoutwriteback.py {'int': 10, 'float': 9.5, 'string': 'Sample data'} {'int': 10, 'float': 9.5, 'string': 'Sample data'}
所以当我们试图让shelve去自动捕获对象的变化,我们应该在打开shelf的时候将writeback设置为True。当我们将writeback这个flag设置为True以后,shelf将会将所有从DB中读取的对象存放到一个内存缓存。当我们close()打开的shelf的时候,缓存中所有的对象会被重新写入DB。
1 import shelve 2 3 s = shelve.open('test_shelf.db', writeback=True) 4 try: 5 print s['key1'] 6 s['key1']['new_value'] = 'this was not here before' 7 print s['key1'] 8 finally: 9 s.close() 10 11 s = shelve.open('test_shelf.db', writeback=True) 12 try: 13 print s['key1'] 14 finally: 15 s.close()
writeback方式有优点也有缺点。优点是减少了我们出错的概率,并且让对象的持久化对用户更加的透明了;但这种方式并不是所有的情况下都需要,首先,使用writeback以后,shelf在open()的时候会增加额外的内存消耗,并且当DB在close()的时候会将缓存中的每一个对象都写入到DB,这也会带来额外的等待时间。因为shelve没有办法知道缓存中哪些对象修改了,哪些对象没有修改,因此所有的对象都会被写入。
1 $ python shelve_create.py 2 $ python shelve_writeback.py 3 4 {'int': 10, 'float': 9.5, 'string': 'Sample data'} 5 {'int': 10, 'new_value': 'this was not here before', 'float': 9.5, 'string': 'Sample data'} 6 {'int': 10, 'new_value': 'this was not here before', 'float': 9.5, 'string': 'Sample data'}
最后再来个复杂一点的例子:
1 #!/bin/env python 2 3 import time 4 import datetime 5 import md5 6 import shelve 7 8 LOGIN_TIME_OUT = 60 9 db = shelve.open('user_shelve.db', writeback=True) 10 11 def newuser(): 12 global db 13 prompt = "login desired: " 14 while True: 15 name = raw_input(prompt) 16 if name in db: 17 prompt = "name taken, try another: " 18 continue 19 elif len(name) == 0: 20 prompt = "name should not be empty, try another: " 21 continue 22 else: 23 break 24 pwd = raw_input("password: ") 25 db[name] = {"password": md5_digest(pwd), "last_login_time": time.time()} 26 #print '-->', db 27 28 def olduser(): 29 global db 30 name = raw_input("login: ") 31 pwd = raw_input("password: ") 32 try: 33 password = db.get(name).get('password') 34 except AttributeError, e: 35 print " 33[1;31;40mUsername '%s' doesn't existed 33[0m" % name 36 return 37 if md5_digest(pwd) == password: 38 login_time = time.time() 39 last_login_time = db.get(name).get('last_login_time') 40 if login_time - last_login_time < LOGIN_TIME_OUT: 41 print " 33[1;31;40mYou already logged in at: <%s>