• python09:番外篇——字符编码


    字符编码

    分析过程

     

    x="上"

                    内存

    上-------翻译-----》0101010 上《----翻译《-----0101010

    字符编码表就是一张字符与数字对应关系的表

    a-00 b-01 c-10 d-11

    ASCII表: 1、只支持英文字符串 2、采用8位二进制数对应一个英文字符串

    GBK表: 1、支持英文字符、中文字符 2、 采用8位(8bit=1Bytes)二进制数对应一个英文字符串 采用16位(16bit=2Bytes)二进制数对应一个中文字符串

    unicode(内存中统一使用unicode): 1、 兼容万国字符 与万国字符都有对应关系 2、 采用16位(16bit=2Bytes)二进制数对应一个中文字符串 个别生僻会采用4Bytes、8Bytes

    unicode表:
                        内存
      人类的字符---------unicode格式的数字----------
                            |                     |
                            |                     |
                            |
                          硬盘                   |
                            |
                            |                     |
                            |                     |
                      GBK格式的二进制       Shift-JIS格式的二进制

      老的字符编码都可以转换成unicode,但是不能通过unicode互转

     

    utf-8: 英文->1Bytes 汉字->3Bytes

     

    结论:

    1、内存固定使用unicode,我们可以改变的是存入硬盘采用格式 ​ 英文+汉字-》unicode-》gbk ​ 英文+日文-》unicode-》shift-jis ​ 万国字符》-unicode-》utf-8

    2、文本文件存取乱码问题
      存乱了:解决方法是,编码格式应该设置成支持文件内字符串的格式
      取乱了:解决方法是,文件是以什么编码格式存如硬盘的,就应该以什么编码格式读入内存

     

    3、python解释器默认读文件的编码
      python3默认:utf-8
      python2默认:ASCII

      指定文件头修改默认的编码:
      在py文件的首行写:
          #coding:gbk

    4、保证运行python程序前两个阶段不乱码的核心法则:
      指定文件头
      # coding:文件当初存入硬盘时所采用的编码格式
     5、
      python3的str类型默认直接存成unicode格式,无论如何都不会乱码
      保证python2的str类型不乱码
          x=u'上'
    6、了解
      python2解释器有两种字符串类型:str、unicode
          # str类型
          x='上' # 字符串值会按照文件头指定的编码格式存入变量值的内存空间
          # unicode类型
          x=u'上' # 强制存成unicode

     

  • 相关阅读:
    复杂模拟 | 1017 模拟N个顾客M个柜台进行排队
    徒手实现lower_bound和upper_bound
    树状数组 | 1057
    动态规划 | 最长回文子串 1040
    动态规划 | 背包问题 1068
    动态规划 | 对输入进行hash处理的LIS 1045
    总结那些有默认margin,padding值的html标签
    javascript 的七种基本数据类型
    牛客网笔试题整理
    JavaScript 的数据结构与算法
  • 原文地址:https://www.cnblogs.com/Franciszw/p/12482495.html
Copyright © 2020-2023  润新知