字符串涉及到编码:ascii gbk gb2312 unicode uft-8
对于英文字符ASCII(可以看成utf-8的子集)就可以了,中文用gbk/gb2312;
unicode:世界统一(兼容所有语言)的计算机系统编码(内存中),但是存储时比较浪费空间,所以存到硬盘或者输出查看时用uft-8.也就是说用记事本打开读时或浏览网页时都是Unicode-》tuf-8,因为记事本和浏览器服务器系统是Unicode类型的
uft-8(节省存储空间的可变长编码):ptthon保存源代码时,就需要务必指定保存为UTF-8编码.在程序开头申明了UTF-8编码并不意味着你的.py
文件就是UTF-8编码的,这就要通过文本编辑器的设置-编码类型来设置正在使用UTF-8 without BOM编码。如果.py
文件本身使用UTF-8编码,并且也申明了# -*- coding: utf-8 -*-
,打开命令提示检验是否支持了中文
Python 3版本中,字符串是以Unicode编码的即支持中文
Python提供了ord(‘字符’)
函数获取字符的编码整数表示,chr()
函数把编码转换为对应的字符
Python的字符串类型是str
,在内存中以Unicode表示,一个字符对应若干个字节,以Unicode表示的str
通过.encode('ASCII’)
方法可以编码为指定的bytes,而字节流变str用.decode('ascii')的方法变str;含有中文的 str
可以用 UTF-8 编码为 bytes
bytes
类型的数据用带b
前缀的单引号或双引号表示,用于字符串在网络上传输,或者保存到磁盘上
len('ABC')与len(b'ABC')分别表示字符和字节的个数。
格式化输出:用内外2两个%
>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000) 'Hi, Michael, you have $1000000.'