由于Python的字符串类型是str
,在内存中以Unicode表示,一个字符对应若干个字节。如果要在网络上传输,或者保存到磁盘上,就需要把str
变为以字节为单位的bytes
。
存储与传输:Unicode的str可以通过encod来编码成utf-8,方便存储与传输。‘“ABC”.encode('ascii'),纯英文的str可以通过ASCII来编码,而含有中文的str通常使用UTF-8来编码
网络或者磁盘读取:当从网络或者磁盘读取字节流时,读到的是bytes类型的字节流,这时需要我们将字节流转化为str来进行之后的数据操作,这时需要使用decode来解码成Unicode
b'xe4xb8xadxe5x9bxbd'.decode("utf-8")
在操作字符串时,我们经常遇到str
和bytes
的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对str
和bytes
进行转换。
python2中的str和bytes这两个类型其实是一回事。python3做了明确区分:str是Unicode编码格式的字符串,bytes就是单纯的二进制字节。py3中Unicode编码后直接变成了bytes格式