字符编码

字符编码
一、计算机基础知识



python解释器执行Py文件的原理：（例如：python test.py）



第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器

　　　　第二阶段：python解释器相当于文本编辑器，去打开test.py文件，从硬盘上将test.py的文件内容读入到内存中(小复习：pyhon的解释性，决定了解释器只关心文件内容，不关心文件后缀名)

　　　　第三阶段：python解释器解释执行刚刚加载到内存中test.py的代码( ps：在该阶段，即执行时，才会识别python的语法，执行文件内代码，执行到name="egon",会开辟内存空间存放字符串"egon")

总结：python解释器于文件本编辑的异同

   相同点：python解释器是解释执行文件内容的，因而python解释器具备读py文件的功能，这一点与文本编辑器一样

  不同点：文本编辑器将文件内容读入内存后，是为了显示/编辑，而python解释器将文件内容读入内存后，是为了执行（识别python语法）

二、什么是字符编码

　计算机要想工作必须通电,也就是说‘电’驱使计算机干活,而‘电’的特性，就是高低电平(高低平即二进制数1,低电平即二进制数0),也就是说计算机只认识数字

　　很明显，我们平时在使用计算机时，用的都是人类能读懂的字符（用高级语言编程的结果也无非是在文件内写了一堆字符），如何能让计算机读懂人类的字符？

　　必须经过一个过程：

　　字符--------（翻译过程）------->数字

　　这个过程实际就是一个字符如何对应一个特定数字的标准，这个标准称之为字符编码

　　

　　以下两个场景下涉及到字符编码的问题：

　　1. 一个python文件中的内容是由一堆字符组成的（python文件未执行时）

　　2. python中的数据类型字符串是由一串字符组成的（python文件执行时）

字符编码的发展史

阶段一：现代计算机起源于美国，最早诞生也是基于英文考虑的ASCII

　　ASCII:一个Bytes代表一个字符（英文字符/键盘上的所有其他字符），1Bytes=8bit，8bit可以表示0-2**8-1种变化，即可以表示256个字符

　　　　ASCII最初只用了后七位，127个数字，已经完全能够代表键盘上所有的字符了（英文字符/键盘的所有其他字符）

　　　　后来为了将拉丁文也编码进了ASCII表，将最高位也占用了

阶段二:为了满足中文，中国人定制了GBK

　　GBK:2Bytes代表一个字符

　　为了满足其他国家，各个国家纷纷定制了自己的编码

　　日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里

阶段三：各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

于是产生了unicode，　统一用2Bytes代表一个字符，　2**16-1=65535，可代表6万多个字符，因而兼容万国语言

但对于通篇都是英文的文本来说，这种编码方式无疑是多了一倍的存储空间（二进制最终都是以电或者磁的方式存储到存储介质中的）

于是产生了UTF-8，对英文字符只用1Bytes表示，对中文字符用3Bytes

需要强调的一点是：

unicode：简单粗暴，所有字符都是2Bytes，优点是字符->数字的转换速度快，缺点是占用空间大

utf-8：精准，对不同的字符用不同的长度表示，优点是节省空间，缺点是：字符->数字的转换速度慢，因为每次都需要计算出字符需要多长的Bytes才能够准确表示

　　　　
1. 内存中使用的编码是unicode，用空间换时间（程序都需要加载到内存才能运行，因而内存应该是尽可能的保证快）
2. 硬盘中或者网络传输用utf-8，网络I/O延迟或磁盘I/O延迟要远大与utf-8的转换延迟，而且I/O应该是尽可能地节省带宽，保证数据传输的稳定性。
```
所有程序，最终都要加载到内存，程序保存到硬盘不同的国家用不同的编码格式，但是到内存中我们为了兼容万国（计算机可以运行任何国家的程序原因在于此），统一且固定使用unicode，
这就是为何内存固定用unicode的原因，你可能会说兼容万国我可以用utf－8啊，可以，完全可以正常工作，之所以不用肯定是unicode比utf－8更高效啊（uicode固定用2个字节编码，
utf－8则需要计算），但是unicode更浪费空间，没错，这就是用空间换时间的一种做法，而存放到硬盘，或者网络传输，都需要把unicode转成utf－8，因为数据的传输，追求的是稳定，
高效，数据量越小数据传输就越靠谱，于是都转成utf－8格式的，而不是unicode。
```
unicode----->encode-------->utf-8

utf-8-------->decode---------->unicode

什么是乱码：

乱码一：存文件时就已经乱码

存文件时，由于文件内有各个国家的文字，我们单以shiftjis去存，

本质上其他国家的文字由于在shiftjis中没有找到对应关系而导致存储失败，用open函数的write可以测试，f=open('a.txt','w',encodig='shift_jis')

f.write('你瞅啥何を見て ') #'你瞅啥'因为在shiftjis中没有找到对应关系而无法保存成功，只存'何を見て '可以成功

但当我们用文件编辑器去存的时候，编辑器会帮我们做转换，保证中文也能用shiftjis存储（硬存，必然乱码），这就导致了，存文件阶段就已经发生乱码

此时当我们用shiftjis打开文件时，日文可以正常显示，而中文则乱码了

再或者，存文件时：
```
f=open('a.txt','wb')

f.write('何を見て
'.encode('shift_jis'))
f.write('你愁啥
'.encode('gbk'))
f.write('你愁啥
'.encode('utf-8'))
f.close()
```
以任何编码打开文件a.txt都会出现其余两个无法正常显示的问题

乱码二：存文件时不乱码而读文件时乱码

存文件时用utf-8编码，保证兼容万国，不会乱码，而读文件时选择了错误的解码方式，比如gbk，则在读阶段发生乱码，读阶段发生乱码是可以解决的，选对正确的解码方式就ok了，而存文件时乱码，则是一种数据的损坏。

总结：

1 以什么编码存的就要以什么编码取出
ps：内存固定使用unicode编码，
我们可以控制的编码是往硬盘存放或者基于网络传输选择编码

2 数据是最先产生于内存中，是unicode格式，要想传输需要转成bytes格式
#unicode----->encode(utf-8)------>bytes
拿到bytes，就可以往文件内存放或者基于网络传输
#bytes------>decode(gbk)------->unicode

3 python3中字符串被识别成unicode
python3中的字符串encode得到bytes

4 了解
python2中的字符串就bytes
python2中在字符串前加u，就是unicode

#coding:utf-8
#在python3中有两中形式的字符串
#1 str-》unicode格式的，相当于python2的字符串加u
#2 bytes

#unicode----->encode(utf-8)------>bytes
#bytes------>decode(gbk)------->unicode
name1="林" #掌握：在python3中字符串都是unicode格式的二进制存放与内存中
#而在python2中字符串都是已经encode后的结果，即bytes

#unicode----->encode(gbk)------>bytes
#bytes------>decode(gbk)------->unicode
x=name1.encode('gbk')
# print(x,type(x))

print(x.decode('gbk'))

#了解
#python2的字符串有两种：
#1 str=bytes
#2 u"林"就相当于python3的字符串
#unicode----->encode(utf-8)------>bytes
#bytes------>decode(gbk)------->unicode
# name=u'林' #name.encode('utf-8')
# print(type(name))
# print(name)
相关阅读:
吉他谱----see you again
web----tcp三次握手
 python shell 执行
 python jieba
NLP gensim 相似度计算
 linux shell expect 自动交互脚本
 docker 安装镜像
 数据库 MySQL 数据导入导出
 爬虫 puppeteer
Linux ssh相关
原文地址：https://www.cnblogs.com/kxllong/p/7240684.html

字符编码的发展史