字符编码

知识点

1.计算机系统分为三层：

应用程序

操作系统

计算机硬件

2.运行python程序的三个步骤

1.先启动python解释器

2.再将python文件当做普通的文本文件读入内存

3.解释执行读入内存的代码，开始识别语法

字符编码

1.什么是字符编码

字符编码表：人类的字符<----------------->数字

1Bytes=8bit

1B=8b 1字节等于8个二进制位

ASCII码：只能识别英文字符，1英文字符=8bit

用8个二进制bit（比特位）位表示一个英文字符

GBK：能识别汉字与英文，1汉字=16bit，1英文字符=8bit

Shift_JIS 日本

Eur-kr 韩国

unicode：能够识别万国字符，1字符=2Bytes=16bit

两个特点：

1、能够兼容万国字符
2、与各个国家的字符编码都有映射关系

utf-8：是unicode的转换格式，1个英文字符=1Bytes 1汉字=3Bytes

重点理论：

1.编码与解码：

字符---编码-->unicode的二进制-----------编码---------->GBK的二进制

GBK的二进制-------解码-->unicode的二进制----解码->字符

2.解决乱码问题的核心法则：

字符用什么编码格式编码的，就应该用什么编码格式进行解码

3.python解释器默认的字符编码

python2：ASCII

python3：UTF-8

通过文件头可以修改python解释器默认使用的字符编码

在文件首行写：#coding：文件当初存的时候用的字符编码

针对python2解释器中定义字符串应该：

x=u'上'

对于python3解释即便是x='上'不加u前缀也是存成unicode

在python3中

x='上' #'上'存成了unicode

unicode----------encode---------->gbk

res=x.encode（'gbk'） #res是gbk格式的二进制，称之为bytes类型

gbk（bytes类型）-------decode-------->unicode

y=res.decode（'gbk'） # y就是unicode

关于字符编码的操作：

1.编写python文件，首行应该加文件头：#coding：文件存时用的编码

2.用python2写程序，定义字符串应该加前缀u，如x=u'上'

3.python3中的字符串都是unicode编码的，python3的字符串encode之后可以得到bytes类型

为何字符要编码

人类与计算机打交道用的都是人类的字符，而计算机无法识别人类的字符，只能识别二进制，所以必须将人类的字符编码成计算机能识别的二进制数字.

相关阅读:
Linux PXE无人值守网络装机
Linux 自动化部署DNS服务器
Linux DNS服务配置
Mysql数据库基础学习笔记
Linux AIDE(文件完整性检测)
mysql：[Err] 1068
sql的date、时间函数、时间戳
hive之建立分区表和分区
excel转sql代码
spark-submit之使用pyspark

原文地址：https://www.cnblogs.com/xiamenghan/p/9677292.html