一、ASCII码
ASCII(American Standard Code for Information Interchange,美国标准信息交换代码),8位,一个字节,最多只能表示255个符号。
二、GB2312(1980年)
一共收录了7445个字符,包括6763个汉字和682个其他符号,72*94=6768,含5个空位。
三、GBK 1.0(1995年)
21886个符号(其中有21003个汉字)。
四、GB18030(2000年)
27484个汉字。同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。
从ASCII、GB2312、GBK 到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中
总是有相同的编码,后面的标准支持更多的字符。
五、Unicode(1994年)
中文、英文都是占两个字节,16位。而ASCII中,每个字符只占了个字节,8位。
六、utf-8
英文字符,占一个字节,中文字符,占三个字节。
#!/usr/bin/env python # -*- coding:utf-8 -*- # Author:Hiuhung Wan #python 2.x name = "你好,世界!" print(name)
而python 3.x 无需指定字符编码,因为默认就是utf-8.
#!/usr/bin/env python # Author:Hiuhung Wan #python 3.x name = "你好,世界!" print(name)