• 【华为云技术分享】这个 Python 库有必要好好学学


    在很多情况下,我们会有把 Python 对象进行序列化或反序列化的需求,比如开发 REST API,比如一些面向对象化的数据加载和保存,都会应用到这个功能。

    这里看一个最基本的例子,这里给到一个 User 的 Class 定义,再给到一个 data 数据,像这样:

     1 class User(object):
     2     def __init__(self, name, age):
     3         self.name = name
     4         self.age = age
     5 
     6 data = [{
     7     'name': 'Germey',
     8     'age': 23
     9 }, {
    10     'name': 'Mike',
    11     'age': 20
    12 }]

    现在我要把这个 data 快速转成 User 组成的数组,变成这样:

    [User(name='Germey', age=23), User(name='Mike', age=20)]

    你会怎么来实现?

    或者我有了上面的列表内容,想要转成一个 JSON 字符串,变成这样:

    [{"name": "Germey", "age": 23}, {"name": "Mike", "age": 20}]

    你又会怎么操作呢?

    另外如果 JSON 数据里面有各种各样的脏数据,你需要在初始化时验证这些字段是否合法,另外 User 这个对象里面 name、age 的数据类型不同,如何针对不同的数据类型进行针对性的类型转换,这个你有更好的实现方案吗?

    初步思路

    之前我写过一篇文章这可能是 Python 面向对象编程的最佳实践,介绍过 attrs 和 cattrs 这两个库,它们二者的组合可以非常方便地实现对象的序列化和反序列化。

    譬如这样:

     1 from attr import attrs, attrib
     2 from cattr import structure, unstructure
     3 
     4 @attrs
     5 class User(object):
     6     name = attrib()
     7     age = attrib()
     8 
     9 data = {
    10     'name': 'Germey',
    11     'age': 23
    12 }
    13 user = structure(data, User)
    14 print('user', user)
    15 json = unstructure(user)
    16 print('json', json)

    运行结果:

    1 user User(name='Germey', age=23)
    2 json {'name': 'Germey', 'age': 23}

    好,这里我们通过 attrs 和 cattrs 这两个库来实现了单个对象的转换。

    首先我们要肯定一下 attrs 这个库,它可以极大地简化 Python 类的定义,同时每个字段可以定义多种数据类型。

    但 cattrs 这个库就相对弱一些了,如果把 data 换成数组,用 cattrs 还是不怎么好转换的,另外它的 structure 和 unstructure 在某些情景下容错能力较差,所以对于上面的需求,用这两个库搭配起来并不是一个最优的解决方案。

    另外数据的校验也是一个问题,attrs 虽然提供了 validator 的参数,但对于多种类型的数据处理的支持并没有那么强大。

    所以,我们想要寻求一个更优的解决方案。

    更优雅的方案

    这里推荐一个库,叫做 marshmallow,它是专门用来支持 Python 对象和原生数据相互转换的库,如实现 object -> dict,objects -> list, string -> dict, string -> list 等的转换功能,另外它还提供了非常丰富的数据类型转换和校验 API,帮助我们快速实现数据的转换。

    要使用 marshmallow 这个库,需要先安装下:

    pip3 install marshmallow

    好了之后,我们在之前的基础上定义一个 Schema,如下:

    1 class UserSchema(Schema):
    2     name = fields.Str()
    3     age = fields.Integer()
    4     
    5     @post_load
    6     def make(self, data, **kwargs):
    7         return User(**data)

    还是之前的数据:

    1 data = [{
    2     'name': 'Germey',
    3     'age': 23
    4 }, {
    5     'name': 'Mike',
    6     'age': 20
    7 }]

    这时候我们只需要调用 Schema 的 load 事件就好了:

    1 schema = UserSchema()
    2 users = schema.load(data, many=True)
    3 print(users)

    输出结果如下:

    [User(name='Germey', age=23), User(name='Mike', age=20)]

    这样,我们非常轻松地完成了 JSON 到 User List 的转换。

    有人说,如果是单个数据怎么办呢,只需要把 load 方法的 many 参数去掉即可:

    1 data = {
    2     'name': 'Germey',
    3     'age': 23
    4 }
    5 
    6 schema = UserSchema()
    7 user = schema.load(data)
    8 print(user)

    输出结果:

    User(name='Germey', age=23)

    当然,这仅仅是一个反序列化操作,我们还可以正向进行序列化,以及使用各种各样的验证条件。

    下面我们再来看看吧。

    更方便的序列化

    上面的例子我们实现了序列化操作,输出了 users 为:

    [User(name='Germey', age=23), User(name='Mike', age=20)]

    有了这个数据,我们也能轻松实现序列化操作。

    序列化操作,使用 dump 方法即可

    1 result = schema.dump(users, many=True)
    2 print('result', result)

    运行结果如下:

    result [{'age': 23, 'name': 'Germey'}, {'age': 20, 'name': 'Mike'}]

    由于是 List,所以 dump 方法需要加一个参数 many 为 True。

    当然对于单个对象,直接使用 dump 同样是可以的:

    1 result = schema.dump(user)
    2 print('result', result)

    运行结果如下:

    result {'name': 'Germey', 'age': 23}

    这样的话,单个、多个对象的序列化也不再是难事。

    经过上面的操作,我们完成了 object 到 dict 或 list 的转换,即:

    1 object <-> dict
    2 objects <-> list

    验证

    当然,上面的功能其实并不足以让你觉得 marshmallow 有多么了不起,其实就是一个对象到基本数据的转换嘛。但肯定不止这些,marshmallow 还提供了更加强大啊功能,比如说验证,Validation。

    比如这里我们将 age 这个字段设置为 hello,它无法被转换成数值类型,所以肯定会报错,样例如下:

     1 data = {
     2     'name': 'Germey',
     3     'age': 'hello'
     4 }
     5 
     6 from marshmallow import ValidationError
     7 try:
     8     schema = UserSchema()
     9     user, errors = schema.load(data)
    10     print(user, errors)
    11 except ValidationError as e:
    12     print('e.message', e.messages)
    13     print('e.valid_data', e.valid_data)

    这里如果加载报错,我们可以直接拿到 Error 的 messages 和 valid_data 对象,它包含了错误的信息和正确的字段结果,运行结果如下:

    1 e.message {'age': ['Not a valid integer.']}
    2 e.valid_data {'name': 'Germey'}

    因此,比如我们想要开发一个功能,比如用户注册,表单信息就是提交过来的 data,我们只需要过一遍 Validation,就可以轻松得知哪些数据符合要求,哪些不符合要求,接着再进一步进行处理。

    当然验证功能肯定不止这一些,我们再来感受一下另一个示例:

     1 from pprint import pprint
     2 from marshmallow import Schema, fields, validate, ValidationError
     3 
     4 class UserSchema(Schema):
     5     name = fields.Str(validate=validate.Length(min=1))
     6     permission = fields.Str(validate=validate.OneOf(['read', 'write', 'admin']))
     7     age = fields.Int(validate=validate.Range(min=18, max=40))
     8 
     9 
    10 in_data = {'name': '', 'permission': 'invalid', 'age': 71}
    11 try:
    12     UserSchema().load(in_data)
    13 except ValidationError as err:
    14     pprint(err.messages)

    比如这里的 validate 字段,我们分别校验了 name、permission、age 三个字段,校验方式各不相同。

    如 name 我们要判断其最小值为 1,则使用了 Length 对象。permission 必须要是几个字符串之一,这里又使用了 OneOf 对象,age 又必须是介于某个范围之间,这里就使用了 Range 对象。

    下面我们故意传入一些错误的数据,看下运行结果:

    1 {'age': ['Must be greater than or equal to 18 and less than or equal to 40.'],
    2  'name': ['Shorter than minimum length 1.'],
    3  'permission': ['Must be one of: read, write, admin.']}

    可以看到,这里也返回了数据验证的结果,对于不符合条件的字段,一一进行说明。

    另外我们也可以自定义验证方法:

     1 from marshmallow import Schema, fields, ValidationError
     2 
     3 def validate_quantity(n):
     4     if n < 0:
     5         raise ValidationError('Quantity must be greater than 0.')
     6     if n > 30:
     7         raise ValidationError('Quantity must not be greater than 30.')
     8 
     9 class ItemSchema(Schema):
    10     quantity = fields.Integer(validate=validate_quantity)
    11 
    12 in_data = {'quantity': 31}
    13 try:
    14     result = ItemSchema().load(in_data)
    15 except ValidationError as err:
    16     print(err.messages)

    通过自定义方法,同样可以实现更灵活的验证,运行结果:

    {'quantity': ['Quantity must not be greater than 30.']}

    对于上面的例子,还有更优雅的写法:

     1 from marshmallow import fields, Schema, validates, ValidationError
     2 
     3 
     4 class ItemSchema(Schema):
     5     quantity = fields.Integer()
     6     
     7     @validates('quantity')
     8     def validate_quantity(self, value):
     9         if value < 0:
    10             raise ValidationError('Quantity must be greater than 0.')
    11         if value > 30:
    12             raise ValidationError('Quantity must not be greater than 30.')

    通过定义方法并用 validates 修饰符,使得代码的书写更加简洁。

    必填字段

    如果要想定义必填字段,只需要在 fields 里面加入 required 参数并设置为 True 即可,另外我们还可以自定义错误信息,使用 error_messages 即可,例如:

     1 from pprint import pprint
     2 from marshmallow import Schema, fields, ValidationError
     3 
     4 class UserSchema(Schema):
     5     name = fields.String(required=True)
     6     age = fields.Integer(required=True, error_messages={'required': 'Age is required.'})
     7     city = fields.String(
     8         required=True,
     9         error_messages={'required': {'message': 'City required', 'code': 400}},
    10     )
    11     email = fields.Email()
    12 
    13 try:
    14     result = UserSchema().load({'email': 'foo@bar.com'})
    15 except ValidationError as err:
    16     pprint(err.messages)

    默认字段

    对于序列化和反序列化字段,marshmallow 还提供了默认值,而且区分得非常清楚!如 missing 则是在反序列化时自动填充的数据,default 则是在序列化时自动填充的数据。

    例如:

     1 from marshmallow import Schema, fields
     2 import datetime as dt
     3 import uuid
     4 
     5 class UserSchema(Schema):
     6     id = fields.UUID(missing=uuid.uuid1)
     7     birthdate = fields.DateTime(default=dt.datetime(2017, 9, 29))
     8 
     9 print(UserSchema().load({}))
    10 print(UserSchema().dump({}))

    这里我们都是定义的空数据,分别进行序列化和反序列化,运行结果如下:

    1 {'id': UUID('06aa384a-570c-11ea-9869-a0999b0d6843')}
    2 {'birthdate': '2017-09-29T00:00:00'}

    可以看到,在没有真实值的情况下,序列化和反序列化都是用了默认值。

    这个真的是解决了我之前在 cattrs 序列化和反序列化时候的痛点啊!

    指定属性名

    在序列化时,Schema 对象会默认使用和自身定义相同的 fields 属性名,当然也可以自定义,如:

    1 class UserSchema(Schema):
    2     name = fields.String()
    3     email_addr = fields.String(attribute='email')
    4     date_created = fields.DateTime(attribute='created_at')
    5 
    6 user = User('Keith', email='keith@stones.com')
    7 ser = UserSchema()
    8 result, errors = ser.dump(user)
    9 pprint(result)

    运行结果如下:

    1 {'name': 'Keith',
    2  'email_addr': 'keith@stones.com',
    3  'date_created': '2014-08-17T14:58:57.600623+00:00'}

    反序列化也是一样,例如:

     1 class UserSchema(Schema):
     2     name = fields.String()
     3     email = fields.Email(load_from='emailAddress')
     4 
     5 data = {
     6     'name': 'Mike',
     7     'emailAddress': 'foo@bar.com'
     8 }
     9 s = UserSchema()
    10 result, errors = s.load(data)

    运行结果如下:

    1 {'name': u'Mike',
    2  'email': 'foo@bar.com'}

    嵌套属性

    对于嵌套属性,marshmallow 当然也不在话下,这也是让我觉得 marshmallow 非常好用的地方,例如:

     1 from datetime import date
     2 from marshmallow import Schema, fields, pprint
     3 
     4 class ArtistSchema(Schema):
     5     name = fields.Str()
     6 
     7 class AlbumSchema(Schema):
     8     title = fields.Str()
     9     release_date = fields.Date()
    10     artist = fields.Nested(ArtistSchema())
    11 
    12 bowie = dict(name='David Bowie')
    13 album = dict(artist=bowie, title='Hunky Dory', release_date=date(1971, 12, 17))
    14 
    15 schema = AlbumSchema()
    16 result = schema.dump(album)
    17 pprint(result, indent=2)

    这样我们就能充分利用好对象关联外键来方便地实现很多关联功能。

    以上介绍的内容基本算在日常的使用中是够用了,当然以上都是一些基本的示例,对于更多功能,可以参考 marchmallow 的官方文档:https://marshmallow.readthedocs.io/en/stable/,强烈推荐大家用起来。

    作者:华为云享专家 崔庆才静觅

  • 相关阅读:
    spring学习(一)IOC&AOP
    MongoDB 写入数据的安全性
    MongoDB MapReduce
    MongoDB 原子操作
    MongoDB 文档间的关系
    MongoDB Java
    MongoDB 持久化
    MongoDB 聚合函数 aggregate
    MongoDB 索引
    MongoDB 文档操作
  • 原文地址:https://www.cnblogs.com/huaweicloud/p/12523237.html
Copyright © 2020-2023  润新知