• 字符编码


    字符编码

    #coding:gbk
    """
    一:储备知识
    1、程序运行与三大核心硬件的关系
    2、程序运行过程中产生的数据最先放在内存中
    3、python程序运行的三个步骤
        python3 D:a.py
        1、先启动python解释器
        2、解释器会将a.py的内容当成普通内存从硬盘读入内存,此时没有语法意义
        3、解释器会解释执行刚刚读入内存的内存,开始识别python语法

    二:什么是字符编码
        字符---------(标准)---------------数字

    字符编码表:存放的是字符与数字的对应关系

    1、ASCII:只能识别英文字符
      特点:采用8bit对应一个英文字符
              8bit=》1Byte
    2、GBK:可以识别中文字符串与英文字符
      特点:采用16bit对应字符,该字符可以是英文字符、也可以是中文字符

    3、shift-JIS
    4、unicode:可以识别万国字符
      特点:2Bytes对应一个字符

     

    字符-----》unicode格式的数字
                  |
                GBK   shiftJIS
    中文字符、英文字符------------》unicode二进制数-----------》gbk二进制数
    日文字符、英文字符------------》unicode二进制数-----------》shiftJIS二进制数
    韩文字符、英文字符------------》unicode二进制数-----------》Euc-kr二进制数
    万国字符------------》unicode二进制数-----------》utf-8二进制数
    5、utf-8
      1Byte对应英文字符
      3Byte对应一个中文字符

     

    1、群雄割据:
    英文字符--------------内存:ASCII二进制数--------------->硬盘:ASCII二进制数
    中文英文字符--------------内存:GBK二进制数--------------->硬盘:GBK二进制数
    日文英文字符--------------内存:shiftJIS二进制数--------------->硬盘:shiftJIS二进制数
    韩文英文字符--------------内存:Euc-Kr二进制数--------------->硬盘:Euc-Kr二进制数

    2、过渡阶段:
    中文英文字符------------内存:unicode=========gbk============>硬盘:GBK二进制数
    日文英文字符------------内存:unicode=========shifJIS========>硬盘:shiftJIS二进制数
    韩文英文字符------------内存:unicode=========Euc-Kr=========>硬盘:Euc-Kr二进制数
    万国字符----------------内存:unicode=========utf-8==========>硬盘:utf-8二进制数

    内存固定使用:unicode
    我们可以改变的是从内存写入硬盘采用的编码格式

    3、分久必合:
    万国字符----------------内存:unicode=========utf-8==========>硬盘:utf-8二进制数
    万国字符----------------内存img:utf-8==========================>硬盘:utf-8二进制数

     

    乱码问题:
        1、存的时候乱了:采用的字符编码表无法识别输入的字符
            存的时候就已经乱了,是无法补救的,取的时候一定也乱了

        解决方法:存入硬盘的编码格式应该用utf-8格式
    2、存的时候没有乱码:采用的字符编码表可以识别输入的字符
      但是取的时候乱码了:采用的字符编码表与当初存的时候用的不是同一张表

      解决方法:存的时候用什么编码,取的时候一定要用同样的编码格式

    与运行python程序有关的乱码问题:
        1、保证运行python程序的前两个阶段不乱码
            在python文件的开头加一行:
                #coding:文件存的时候用的编码格式

    2、保证第三个阶段不乱码
      使用python3
      如果使用的是python2,应该在符串前加前缀u

    编码:
    字符-----编码--------》unicode格式的数字------编码-----》gbk格式的数字
    字符-----解码--------》unicode格式的数字《------解码-----gbk格式的数字

    """

    # 在python3中字符串类型的值在内存中都是unicode格式的数字

    # x="上"

    # print(x)

    # 在python2中字符串类型的值在内存中都是文件头指定编码格式的数字

    # x=u"上" # 如果在字符串前加前缀u就把字符串强制存成unicode格式,推荐使用

    # print([x,])

    # print(x)


    x = "上"

    # unicode格式的数字==编码===>其他编码格式的数字

    res1=x.encode("gbk")

    # print(res1,type(res1))

    res2=x.encode("utf-8")

    # print(res2,type(res2))

    # bytes类型可以理解为一种硬盘的原生格式

    # str类型

    # 其他编码格式的数字==解码==>unicode格式数字

    x=res1.decode("gbk")

    # print(x)

    y=res2.decode("utf-8")
    print(y,type(y))
    每天逼着自己写点东西,终有一天会为自己的变化感动的。这是一个潜移默化的过程,每天坚持编编故事,自己不知不觉就会拥有故事人物的特质的。 Explicit is better than implicit.(清楚优于含糊)
  • 相关阅读:
    Android开发中常见的错误
    使用命令行的方式向GitHub中上传本地项目
    jmeter保存测试结果到文件
    转 Jmeter参数化的4种方法
    键盘各键对应的编码值(key)
    CacheHelper对缓存的控制
    Oracle存储过程
    Oricle中SQL语法
    python学习资料百度网盘分享
    一些网站学习的链接
  • 原文地址:https://www.cnblogs.com/kylin5201314/p/13541773.html
Copyright © 2020-2023  润新知