一、编码方式
- ASCII:一个字节8位表示一个字符
- Unicode:4个字节表示一个字符(中、英)
- utf-8:英——一个字节表示、中——3个字节表示
- gbk:英——一个字节、中——2个字节
二、注意事项
- 各个编码之间的二进制不能互相识别,会产生乱码;
- 文件的存储、传输不能是Unicode编码,Unicode会大量浪费存储空间;
- str在内存中用的是Unicode编码,所以在存储、传输时需要转码;
三、转码
str——>bytes(bytes支持除Unicode之外的所有编码方式)
如:s='sadf'
s11=s1.encode('utf-8')#将Unicode编码方式转换为utf-8,其中黑体部分可以换为除Unicode之外的编码方式