python ==> 字符编码

一：文本编辑器：

　　python 解释器的三步骤：

　　　1.python解释器启动起来，放到内存里面。

　　　2.python解释器，从硬盘读取一个文件，把文件的内容全都当成普通字符，先读到内存里面。

　　　3.python解释器可以读一行就解释一行。

二：什么是字符编码？

　　答：计算机要想工作必须通电，也就是说”电“驱使计算机干活，而”电“的特性，就是高低平。

　　　　高电平：即二进制数1. 低电平：即二进制数0

　　　　也就是说计算机只认识数字。

三：计算机编码的三个阶段。

阶段一：

　　现代计算机起源于美国，最早诞生也是基于英文考虑的”ASCII”。

　ASCII:　　1 Bytes == 8bit

　　　　　　1KB==1024 Bytes

　　　　　　1MB==1024 KB

　　　　　　1GB== 1024MB

　　　　　　1TB==1024 GB

　　　　　　1GB= 1024*1024*1024

　　　　　　8bit 可以表示为256个字符。

阶段二：

　　为了满足中文，中国人定制了GBK。

　　GBK: 以2Bytes 代表一个字符。不止中国，为了满足其他国家，

　　　　各个国家纷纷定制了自己的编码。

　　日本： Shift_Jis 　　韩国：Eus-kr

阶段三：

　　各国有各国的标准，就会有不可避免地出现冲突，结果就是，

　　在多语言混合的文本中，显示出来会有乱码。

　　于是产生了 unicode ，统一用了 2Bytes 代表一个字符。

　　它以 2**16-1 = 65535 可代表6万多个字符，因而兼容万国语言。

　　但是对于都是英文文本而言，无疑多了一杯的存储空间。

　　于是产生了 utf-8，对英文字符只用1Bytes，中文字符3Bytes。

需要强调的是：
　　unicode: 简单粗暴，所有字符都是2Bytes，
　　优点是字符-》数字的转换速度快，缺点是占用空间大。

　　utf-8 ：精准，对不同的字符用不同的长度表示。
　　优点是：节省空间。
　　缺点是：字符-》数字的转换速度慢，
　　因为每次都要计算出字符需要多长的Bytes才能够精准表示

1.内存中使用的编码是 unicode .
用空间换时间（程序都需要加载到内存才能运行，因而内存应该是尽可能的保证快）

2.硬盘中或者网络传输用 utf-8，
网路I/O延迟或磁盘I/O延迟要远大于utf-8的转换延迟，
而且 I/O 应该是尽可能的节省带宽，保证数据传输的稳定性。

用什么格式编码就要用什么格式解码。
读的过程是 unicode.
执行的过程识别代码，开辟空间，形成其他的格式编码。

字符编码的使用：
文本编辑器：
内存：用unicode 格式的二进制
　　↑ 　　　　　　 ↓　　

　　↑　　　　　　　↓
读取文件：

decode 　　　保存文件：

　　↑　　　　　　encode
　　↑ 　　　　　　 ↓
硬盘：用utf-8格式的二进制

x = ‘钟’ ：
换编码格式之后，没执行之前，并不会出现乱码。
执行后，会出现乱码报错，

1.python 2 默认的是 ASCII 字符串识别的代码：

1.str = bytes
2.'u'
unicode => encode(utf-8) 的结果bytes
unicode => decode(utf-8)===>unicode

2.python 3 默认文件编码的是 utf-8 字符串识别的代码： unicode / bytes

为什么用bytes？数据要想传输，一定要转成bytes。

第一步：python 解释器先执行，没问题
第二步：读取文件有问题。
（读的时候并不知道编码格式是什么，只能用默认的，
这样一来就出错了）

打印到终端
一个程序丢给另一个程序。一个内存空间到另外一个内存空间。
Windows 默认的编码是 GBK。

相关阅读:
css固定元素位置(fixed)
【转】php 下载保存文件保存到本地的两种实现方法
【转】关于URL编码/javascript/js url 编码/url的三个js编码函数
IE6对png图片的处理
用phpcms开发模块时中文乱码问题
【转】MySQL数据类型和常用字段属性总结
PHPCMS几个有用的全局函数
PHPCMS系统常量
PHPCMS系统使用的弹出窗口插件artDialog
基础知识点（一）

原文地址：https://www.cnblogs.com/zhongbokun/p/7231824.html