• python pickle模块的使用讲解


    机器学习中,我们常常需要把训练好的模型存储起来,这样在进行决策时直接将模型读出,而不需要重新训练模型,这样就大大节约了时间。Python提供的pickle模块就很好地解决了这个问题,它可以序列化对象并保存到磁盘中,并在需要的时候读取出来,任何对象都可以执行序列化操作。

    pickle模块中最常用的函数为:

    1. pickle.dump(obj, file, [,protocol])

    函数的功能:将obj对象序列化存入已经打开的file中。
    
    参数讲解:
    obj:想要序列化的obj对象。
    file:文件名称。
    protocol:序列化使用的协议。如果该项省略,则默认为0。如果为负值或HIGHEST_PROTOCOL,则使用最高的协议版本。
    1. pickle.load(file)

    函数的功能:将file中的对象序列化读出。
    
    参数讲解:
    file:文件名称。
    

      

    1. pickle.dumps(obj[, protocol])

    函数的功能:将obj对象序列化为string形式,而不是存入文件中。
    
    参数讲解:
    obj:想要序列化的obj对象。
    protocal:如果该项省略,则默认为0。如果为负值或HIGHEST_PROTOCOL,则使用最高的协议版本。
    1. pickle.loads(string)

    函数的功能:从string中读出序列化前的obj对象。
    
    参数讲解:
    string:文件名称。
    dump() 与 load() 相比 dumps() 和 loads() 还有另一种能力:dump()函数能一个接着一个地将几个对象序列化存储到同一个文件中,随后调用load()来以同样的顺序反序列化读出这些对象。
     
     

    【代码示例】test_pickle.py

    #coding:utf-8
    __author__ = 'weipengfei'
    #pickle模块主要函数的应用举例
    import pickle
    dataList = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'],
                [0, 1, 'no']]
    dataDic = {0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}
    
    #使用dump()将数据序列化到文件中
    fw = open('dataFile.txt', 'wb')
    # Pickle the list using the highest protocol available.
    pickle.dump(dataList, fw, -1)
    # Pickle dictionary using protocol 0.
    pickle.dump(dataDic, fw)
    fw.close()
    
    #使用load()将数据从文件中序列化读出
    fr = open('dataFile.txt', 'rb')
    data1 = pickle.load(fr)
    print(data1)
    data2 = pickle.load(fr)
    print(data2)
    fr.close()
    
    #使用dumps()和loads()举例
    p = pickle.dumps(dataList)
    print(pickle.loads(p))
    p = pickle.dumps(dataDic)
    print(pickle.loads(p))

    结果:

    [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    {0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}
    [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    {0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}


    补充:

    序列化的概念:人类的语言太丰富了,计算机要想去存储,肯定是要转化成它所能理解的某种方式。所以这个“翻译”的过程就叫序列化。

     注意观察,我们人类的语言是有结构的(主谓宾定状补),计算机的语言是无结构的,就是一串的“01010100010011”,是吧?那么经常我们要将一些信息保存在计算机内部中,比如保存为文件;有时候我们还会把一段话传给网线另一侧的计算机,比如我和同事用QQ聊天,我们这一侧只是输入“你好”,同事那一头收到“你好”的消息。

    无论你是保存到本地,还是通过网线传输,信息都要转化成“00111011”的样子。注意这两个场景:

    • 本地存储
    • 网络传输

     实在记不住的话只记住一点即可:凡是离开内存的信息都要进行序列化。

  • 相关阅读:
    vsftpd下错误之:500 OOPS
    material mem
    如何查看core文件
    java 开发工具使用
    Java计算几何图形的面积
    Java实现经理与员工的差异
    Java适配器模式的简单应用
    Java实现策略模式的简单应用
    Java单例模式的应用
    Java求解汉诺塔问题
  • 原文地址:https://www.cnblogs.com/snailon/p/13426110.html
Copyright © 2020-2023  润新知