英文字母、数字、字符 → 十进制 → 二进制
英文字母、数字、字符 → ASCII码 → 01010101(每八位代表一个字符)每一位0或1所占的空间为比特(bit),这是计算机最小的表示单位。ASCII码只能表示 255 个符号
8bit = 1bytes(字节),这是计算机最小的存储单位,缩写表示为1B。1KB = 1024B,1MB = 1024KB ...
中文 → 十进制 → 二进制
中文 → GB2312 → 01010101 仅能存储7000+个图形字符,其中汉字有6700+个
中文 → GBK1.0 、GBK18030 → 01010101 兼容GB2312
中文、英文字母、数字、字符 → Unicode → 0101010101010101(规定最少用16位表示,即2个字节)
中文、英文字母、数字、字符 → UTF-8(兼容Unicode) → 01010101...(长度可变,ascii码中的内容用1个字节表示、欧洲字符用2个字节表示、东亚用3个字节表示)
Windows 默认编码是GBK,Mac OS/Linux 默认编码是UTF-8
Python2.x默认编码为ASCII码,Python3默认编码是UTF-8
文件开头声明解释器和编码
#!/usr/bin/env python # -*- coding: utf-8 -*-