• 集合、字符编码


    集合

    # 1、作用
    # 1.1 关系运算
    # friends1 = ["zero","kevin","jason","egon"]
    # friends2 = ["Jy","ricky","jason","egon"]
    # l=[]
    # for x in friends1:
    # if x in friends2:
    # l.append(x)
    # print(l)

    # 1.2、去重

    # 2、定义: 在{}内用逗号分隔开多个元素,多个元素满足以下三个条件
    # 1. 集合内元素必须为不可变类型
    # 2. 集合内元素无序
    # 3. 集合内元素没有重复

    # s={1,2} # s=set({1,2})

    # s={1,[1,2]} # 集合内元素必须为不可变类型
    # s={1,'a','z','b',4,7} # 集合内元素无序
    # s={1,1,1,1,1,1,'a','b'} # 集合内元素没有重复
    # print(s)

    # 了解
    # s={} # 默认是空字典
    # print(type(s))
    # 定义空集合
    # s=set()
    # print(s,type(s))

    # 3、类型转换
    # set({1,2,3})
    # res=set('hellolllll')
    # print(res)

    # print(set([1,1,1,1,1,1]))
    # print(set([1,1,1,1,1,1,[11,222]]) # 报错

    # print(set({'k1':1,'k2':2}))

    # 4、内置方法
    # =========================关系运算符=========================
    # friends1 = {"zero","kevin","jason","egon"}
    # friends2 = {"Jy","ricky","jason","egon"}

    # 4.1 取交集:两者共同的好友
    # res=friends1 & friends2
    # print(res)
    # print(friends1.intersection(friends2))
    # 4.2 取并集/合集:两者所有的好友
    # print(friends1 | friends2)
    # print(friends1.union(friends2))

    # 4.3 取差集:取friends1独有的好友
    # print(friends1 - friends2)
    # print(friends1.difference(friends2))

    # 取friends2独有的好友
    # print(friends2 - friends1)
    # print(friends2.difference(friends1))

    # 4.4 对称差集: 求两个用户独有的好友们(即去掉共有的好友)
    # print(friends1 ^ friends2)
    # print(friends1.symmetric_difference(friends2))

    # 4.5 父子集:包含的关系
    # s1={1,2,3}
    # s2={1,2,4}
    # 不存在包含关系,下面比较均为False
    # print(s1 > s2)
    # print(s1 < s2)

    # s1={1,2,3}
    # s2={1,2}
    # print(s1 > s2) # 当s1大于或等于s2时,才能说是s1是s2他爹
    # print(s1.issuperset(s2))
    # print(s2.issubset(s1)) # s2 < s2 =>True

    # s1={1,2,3}
    # s2={1,2,3}
    # print(s1 == s2) # s1与s2互为父子
    # print(s1.issuperset(s2))
    # print(s2.issuperset(s1))

    # =========================去重=========================
    # 1、只能针对不可变类型去重
    # print(set([1,1,1,1,2]))

    # 2、无法保证原来的顺序
    # l=[1,'a','b','z',1,1,1,2]
    # l=list(set(l))
    # print(l)

    # l=[
    # {'name':'lili','age':18,'sex':'male'},
    # {'name':'jack','age':73,'sex':'male'},
    # {'name':'tom','age':20,'sex':'female'},
    # {'name':'lili','age':18,'sex':'male'},
    # {'name':'lili','age':18,'sex':'male'},
    # ]
    # new_l=[]
    # for dic in l:
    # if dic not in new_l:
    # new_l.append(dic)

    # print(new_l)

    # 其他操作
    # 1.长度
    # >>> s={'a','b','c'}
    # >>> len(s)
    # 3

    # 2.成员运算
    # >>> 'c' in s
    # True

    # 3.循环
    # >>> for item in s:
    # ... print(item)
    # ...
    # c
    # a
    # b

    # 其他内置方法
    s={1,2,3}
    # 需要掌握的内置方法1:discard
    # s.discard(4) # 删除元素不存在do nothing
    # print(s)
    # s.remove(4) # 删除元素不存在则报错

    # 需要掌握的内置方法2:update
    # s.update({1,3,5})
    # print(s)

    # 需要掌握的内置方法3:pop
    # res=s.pop()
    # print(res)

    # 需要掌握的内置方法4:add
    # s.add(4)
    # print(s)

    # 其余方法全为了解
    # res=s.isdisjoint({3,4,5,6}) # 两个集合完全独立、没有共同部分,返回True
    # print(res)

    # 了解
    # s.difference_update({3,4,5}) # s=s.difference({3,4,5})
    # print(s)

    字符编码

    分析过程

    x="上"

    内存
    上-------翻译-----》0101010
    上《----翻译《-----0101010

    字符编码表就是一张字符与数字对应关系的表

    a-00
    b-01
    c-10
    d-11

    ASCII表:
    1、只支持英文字符串
    2、采用8位二进制数对应一个英文字符串

    GBK表:
    1、支持英文字符、中文字符
    2、
    采用8位(8bit=1Bytes)二进制数对应一个英文字符串
    采用16位(16bit=2Bytes)二进制数对应一个中文字符串

    unicode(内存中统一使用unicode):
    1、
    兼容万国字符
    与万国字符都有对应关系
    2、
    采用16位(16bit=2Bytes)二进制数对应一个中文字符串
    个别生僻会采用4Bytes、8Bytes

    unicode表:
    内存
    人类的字符---------unicode格式的数字----------
    | |
    | |
    |
    硬盘 |
    |
    | |
    | |
    GBK格式的二进制 Shift-JIS格式的二进制

    老的字符编码都可以转换成unicode,但是不能通过unicode互转

    utf-8:
    英文->1Bytes
    汉字->3Bytes

    结论:
    1、内存固定使用unicode,我们可以改变的是存入硬盘采用格式
    英文+汉字-》unicode-》gbk
    英文+日文-》unicode-》shift-jis
    万国字符》-unicode-》utf-8

    2、文本文件存取乱码问题
    存乱了:解决方法是,编码格式应该设置成支持文件内字符串的格式
    取乱了:解决方法是,文件是以什么编码格式存如硬盘的,就应该以什么编码格式读入内存

    3、python解释器默认读文件的编码
    python3默认:utf-8
    python2默认:ASCII

    指定文件头修改默认的编码:
    在py文件的首行写:
    #coding:gbk

    4、保证运行python程序前两个阶段不乱码的核心法则:
    指定文件头
    # coding:文件当初存入硬盘时所采用的编码格式

    5、
    python3的str类型默认直接存成unicode格式,无论如何都不会乱码
    保证python2的str类型不乱码
    x=u'上'

    6、了解
    python2解释器有两种字符串类型:str、unicode
    # str类型
    x='上' # 字符串值会按照文件头指定的编码格式存入变量值的内存空间
    # unicode类型
    x=u'上' # 强制存成unicode
  • 相关阅读:
    过滤字符串
    sql业务分割
    如何用core自动创建model,与数据库连接
    记录日志
    easyui获取选中行上一行的数据
    获取天气插件代码
    粘包问题
    网络编程
    异常处理
    isinstance和issubclass、元类、反射
  • 原文地址:https://www.cnblogs.com/0B0S/p/12470633.html
Copyright © 2020-2023  润新知