str.encode('utf-8')
bytes.decode('utf-8')
字符串前加 b
python3.x里默认的str是(py2.x里的)unicode, bytes是(py2.x)的str, b 前缀代表的就是bytes
python2.x里, b前缀没什么具体意义, 只是为了兼容python3.x的这种写法
小知识:
python2默认字符编码是ASCII, 当你用python2的解释器去运行你写好的py2代码(硬盘中), 解释器会用ASCII的编码规则去读取, 由于ACSII编码不支持中文, 所以我们一般在py2代码首行: #encoding: utf-8来指定字符编码规则为utf-8
python3默认的字符编码是Unicode, 当你用python3的解释器去执行你写好的py3代码(硬盘中), 解释器会用UTF-8编码规则来读取
例: response = b'<h1>Hello World!</h1>' # b' ' 表示这是一个 bytes 对象
作用: b" "前缀表示:后面字符串是bytes 类型。
用处:网络编程中,服务器和浏览器只认bytes 类型数据。
如:send 函数的参数和 recv 函数的返回值都是 bytes 类型
附:
在 Python3 中,bytes 和 str 的互相转换方式是
str.encode('utf-8')
bytes.decode('utf-8')
字符串前加 u
u/U:表示unicode字符串
不是仅仅是针对中文, 可以针对任何的字符串,代表是对字符串进行unicode编码。
一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u;但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。
建议所有编码方式采用utf-8,即在py文件开头添加: # coding: utf-8
例:u"我是含有中文字符组成的字符串。"
作用:后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码。
字符串前加 r
r/R:非转义的原始字符串
与普通字符相比,其他相对特殊的字符,其中可能包含转义字符,即那些,反斜杠加上对应字母,表示对应的特殊含义的,比如最常见的”
”表示换行,” ”表示Tab等。而如果是以r开头,那么说明后面的字符,都是普通的字符了,即如果是“
”那么表示一个反斜杠字符,一个字母n,而不是表示换行了。
以r开头的字符,常用于正则表达式,对应着re模块。
例:r" ” # 表示一个普通生字符串 ,而不表示换行了。
作用:去掉反斜杠的转移机制。
(特殊字符:即那些,反斜杠加上对应字母,表示对应的特殊含义的,比如最常见的” ”表示换行,” ”表示Tab等。 )
应用:常用于正则表达式,对应着re模块。