• 字符编码


    一、计算机基础知识

      

    python解释器执行Py文件的原理:(例如:python test.py)

          

    第一阶段:python解释器启动,此时就相当于启动了一个文本编辑器

        第二阶段:python解释器相当于文本编辑器,去打开test.py文件,从硬盘上将test.py的文件内容读入到内存中(小复习:pyhon的解释性,决定了解释器只关心文件内容,不关心文件后缀名)

        第三阶段:python解释器解释执行刚刚加载到内存中test.py的代码( ps:在该阶段,即执行时,才会识别python的语法,执行文件内代码,执行到name="egon",会开辟内存空间存放字符串"egon")

    总结:python解释器于文件本编辑的异同

         相同点:python解释器是解释执行文件内容的,因而python解释器具备读py文件的功能,这一点与文本编辑器一样

          不同点:文本编辑器将文件内容读入内存后,是为了显示/编辑,而python解释器将文件内容读入内存后,是为了执行(识别python语法)

     二、什么是字符编码

     计算机要想工作必须通电,也就是说‘电’驱使计算机干活,而‘电’的特性,就是高低电平(高低平即二进制数1,低电平即二进制数0),也就是说计算机只认识数字

      很明显,我们平时在使用计算机时,用的都是人类能读懂的字符(用高级语言编程的结果也无非是在文件内写了一堆字符),如何能让计算机读懂人类的字符?

      必须经过一个过程:

      字符--------(翻译过程)------->数字 

      这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为字符编码

      

      以下两个场景下涉及到字符编码的问题:

      1. 一个python文件中的内容是由一堆字符组成的(python文件未执行时)

      2. python中的数据类型字符串是由一串字符组成的(python文件执行时)

    字符编码的发展史

    阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII

      ASCII:一个Bytes代表一个字符(英文字符/键盘上的所有其他字符),1Bytes=8bit,8bit可以表示0-2**8-1种变化,即可以表示256个字符

        ASCII最初只用了后七位,127个数字,已经完全能够代表键盘上所有的字符了(英文字符/键盘的所有其他字符)

        后来为了将拉丁文也编码进了ASCII表,将最高位也占用了

    阶段二:为了满足中文,中国人定制了GBK

      GBK:2Bytes代表一个字符

      为了满足其他国家,各个国家纷纷定制了自己的编码

      日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr

    阶段三:各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。

    于是产生了unicode, 统一用2Bytes代表一个字符, 2**16-1=65535,可代表6万多个字符,因而兼容万国语言

    但对于通篇都是英文的文本来说,这种编码方式无疑是多了一倍的存储空间(二进制最终都是以电或者磁的方式存储到存储介质中的)

    于是产生了UTF-8,对英文字符只用1Bytes表示,对中文字符用3Bytes

    需要强调的一点是:

    unicode:简单粗暴,所有字符都是2Bytes,优点是字符->数字的转换速度快,缺点是占用空间大

    utf-8:精准,对不同的字符用不同的长度表示,优点是节省空间,缺点是:字符->数字的转换速度慢,因为每次都需要计算出字符需要多长的Bytes才能够准确表示

          

    1. 内存中使用的编码是unicode,用空间换时间(程序都需要加载到内存才能运行,因而内存应该是尽可能的保证快)
    2. 硬盘中或者网络传输用utf-8,网络I/O延迟或磁盘I/O延迟要远大与utf-8的转换延迟,而且I/O应该是尽可能地节省带宽,保证数据传输的稳定性。
    所有程序,最终都要加载到内存,程序保存到硬盘不同的国家用不同的编码格式,但是到内存中我们为了兼容万国(计算机可以运行任何国家的程序原因在于此),统一且固定使用unicode,
    这就是为何内存固定用unicode的原因,你可能会说兼容万国我可以用utf-8啊,可以,完全可以正常工作,之所以不用肯定是unicode比utf-8更高效啊(uicode固定用2个字节编码,
    utf-8则需要计算),但是unicode更浪费空间,没错,这就是用空间换时间的一种做法,而存放到硬盘,或者网络传输,都需要把unicode转成utf-8,因为数据的传输,追求的是稳定,
    高效,数据量越小数据传输就越靠谱,于是都转成utf-8格式的,而不是unicode。

    unicode----->encode-------->utf-8

    utf-8-------->decode---------->unicode

    什么是乱码:

           乱码一:存文件时就已经乱码

    存文件时,由于文件内有各个国家的文字,我们单以shiftjis去存,

    本质上其他国家的文字由于在shiftjis中没有找到对应关系而导致存储失败,用open函数的write可以测试,f=open('a.txt','w',encodig='shift_jis')

    f.write('你瞅啥 何を見て ') #'你瞅啥'因为在shiftjis中没有找到对应关系而无法保存成功,只存'何を見て '可以成功

    但当我们用文件编辑器去存的时候,编辑器会帮我们做转换,保证中文也能用shiftjis存储(硬存,必然乱码),这就导致了,存文件阶段就已经发生乱码

    此时当我们用shiftjis打开文件时,日文可以正常显示,而中文则乱码了

    再或者,存文件时:

    f=open('a.txt','wb')
    
    f.write('何を見て
    '.encode('shift_jis'))
    f.write('你愁啥
    '.encode('gbk'))
    f.write('你愁啥
    '.encode('utf-8'))
    f.close()

     以任何编码打开文件a.txt都会出现其余两个无法正常显示的问题

    乱码二:存文件时不乱码而读文件时乱码

    存文件时用utf-8编码,保证兼容万国,不会乱码,而读文件时选择了错误的解码方式,比如gbk,则在读阶段发生乱码,读阶段发生乱码是可以解决的,选对正确的解码方式就ok了,而存文件时乱码,则是一种数据的损坏。

    总结:

    1 以什么编码存的就要以什么编码取出
    ps:内存固定使用unicode编码,
    我们可以控制的编码是往硬盘存放或者基于网络传输选择编码

    2 数据是最先产生于内存中,是unicode格式,要想传输需要转成bytes格式
    #unicode----->encode(utf-8)------>bytes
    拿到bytes,就可以往文件内存放或者基于网络传输
    #bytes------>decode(gbk)------->unicode

    3 python3中字符串被识别成unicode
    python3中的字符串encode得到bytes

    4 了解
    python2中的字符串就bytes
    python2中在字符串前加u,就是unicode

    #coding:utf-8
    #在python3中有两中形式的字符串
    #1 str-》unicode格式的,相当于python2的字符串加u
    #2 bytes

    #unicode----->encode(utf-8)------>bytes
    #bytes------>decode(gbk)------->unicode
    name1="林" #掌握:在python3中字符串都是unicode格式的二进制存放与内存中
    #而在python2中字符串都是已经encode后的结果,即bytes


    #unicode----->encode(gbk)------>bytes
    #bytes------>decode(gbk)------->unicode
    x=name1.encode('gbk')
    # print(x,type(x))

    print(x.decode('gbk'))


    #了解
    #python2的字符串有两种:
    #1 str=bytes
    #2 u"林"就相当于python3的字符串
    #unicode----->encode(utf-8)------>bytes
    #bytes------>decode(gbk)------->unicode
    # name=u'林' #name.encode('utf-8')
    # print(type(name))
    # print(name)

     

  • 相关阅读:
    吉他谱----see you again
    web----tcp三次握手
    python shell 执行
    python jieba
    NLP gensim 相似度计算
    linux shell expect 自动交互脚本
    docker 安装镜像
    数据库 MySQL 数据导入导出
    爬虫 puppeteer
    Linux ssh相关
  • 原文地址:https://www.cnblogs.com/kxllong/p/7240684.html
Copyright © 2020-2023  润新知