字符串编码常用类型:utf-8,gb2312,cp936,gbk等。
python中,我们使用decode()和encode()来进行解码和编码
在python中,使用unicode类型作为编码的基础类型。即
decode encode
u = u'中文' #显示指定unicode类型对象u str = u.encode('gb2312') #以gb2312编码对unicode对像进行编码
u1 = str.decode('gb2312')#以gb2312编码对字符串str进行解码,以获取unicode u2 = str.decode('utf-8')#如果以utf-8的编码对str进行解码得到的结果,将无法还原原来的unicode类型
GBK转成UTF-8过程(Python2 中默认编码为ASCII,需要声明 编码方式为UTF-8)
GBK-decode(解码)到Unicode
Unicode-encode(编码)到GBK
UTF-8-decode(解码)到Unicode
Unicode-encode(编码)到UTF-8
Pyhton3中默认编码为 Unicode编码
在编码的时候会将数据转成bytes类型
在解码的时候会将数据转成字符串类型