• 字符编码


    字符编码

    1 为什么要有字符编码

    x="上"

    内存
    上-------翻译-----》0101010
    上《----翻译《-----0101010

    2 什么是字符编码

    字符编码表就是一张字符与数字对应关系的表

    3 字符编码的形成的过程

    ASCII表:
    1、只支持英文字符串
    2、采用8位二进制数对应一个英文字符串

    GBK表:
    1、支持英文字符、中文字符
    2、采用8位(8bit=1Bytes)二进制数对应一个英文字符串
    采用16位(16bit=2Bytes)二进制数对应一个中文字符串

    unicode(内存中统一使用unicode):
    1、兼容万国字符
    与万国字符都有对应关系
    2、采用16位(16bit=2Bytes)二进制数对应一个中文字符串
    个别生僻会采用4Bytes、8Bytes

    ​ 内存
    人类的字符---------------unicode格式的数字----------
    ​ | |
    ​ | |
    ​ |
    ​ 硬盘 |
    ​ |
    ​ | |
    ​ | |
    ​ GBK格式的二进制 Shift-JIS格式的二进制

    老的字符编码都可以转换成unicode,但是不能通过unicode互转

    utf-8:
    英文->1Bytes
    汉字->3Bytes

    4 总结

    4.1、内存固定使用unicode,我们可以改变的是存入硬盘采用格式

    英文+汉字-》unicode-》gbk
    英文+日文-》unicode-》shift-jis
    万国字符》-unicode-》utf-8

    4.2、文本文件存取乱码问题

    存乱了>>>设置编码格式:解决方法是,编码格式应该设置成支持文件内字符串的格式
    取乱了>>>同类编码格式读入:解决方法是,文件是以什么编码格式存入硬盘的,就应该以什么编码格式读入内存

    4.3、python解释器默认读文件的编码

    python3默认:utf-8
    python2默认:ASCII

    指定文件头修改默认的编码:
    在py文件的首行写:
    coding:gbk

    4.4、保证运行python程序前两个阶段不乱码的核心法则:指定文件头

    coding:文件当初存入硬盘时所采用的编码格式

    4.5、如何保证pyhton中不出现乱码(***)

    python3的str类型默认直接存成unicode格式,无论如何都不会乱码
    
    保证python2的str类型不乱码
    x=u'上'                python2中在str之前加u即可解决乱码问题
    

    4.6、python2中需要了解的知识

    python2解释器有两种字符串类型:str、unicode
    
    str类型
    
    x='上' # 字符串值会按照文件头指定的编码格式存入变量值的内存空间
    
    unicode类型
    
    x=u'上'                                             # 强制存成unicode
    

    4.7 如何实现编码解码?

    coding:utf-8    #定义文件当初存入硬盘时所采用的编码格式为utf-8
    x='上'
    
    res=x.encode('gbk')            # unicode--->gbk
    
    print(res,type(res))
    
     
    
    print(res.decode('gbk'))
    
  • 相关阅读:
    vue分享二维码
    Linux的软件安装
    linux命令操作
    禅道的使用方法
    测试管理工具的安装和介绍
    测试Bug
    软件缺陷和软件缺陷的种类
    测试计划和测试用例
    双肩包,椅子,电梯的测试用例
    软件生命周期的模型
  • 原文地址:https://www.cnblogs.com/Henry121/p/12482547.html
Copyright © 2020-2023  润新知