• 汉字编码 (GB2312 GBK GB18030)


    GB2312

    收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个
    每个符号都用两个字节表示,每个字节均采用七位编码表示,习惯上 第一个字节是高字节,第二个字节是低字节

    GB2312的编码范围为2121H-777EH,与ASCII有重叠,通行方法是将GB码两个字节的最高位置1以示区别

     

    GBK

    由于GKB收录的汉字较少以及配合UNICODE的实施,GBK 产生了
    向下兼容GB2312
    双字节表示

    GBK共收入21886个汉字和图形符号,包括:

    GB2312中的全部汉字、非汉字符号。
    BIG5中的全部汉字。
    与ISO 10646相应的国家标准GB13000中的其它CJK汉字,以上合计20902个汉字。
    其它汉字、部首、符号,共计984个。

     

    GB18030  

    最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准
    一二四字节变长编码
    一字节部分与ASCII 编码兼容
    二字节部分与GBK标准基本兼容
    四字节部分包括除去二字节部分的的所有unico3.1码位(也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似)

     

    BIG5

    繁体字编码
    双字节
    BIG5收录13461个汉字和符号,包括:

    符号408个
    常用字5401个
    次常用字7652个

     

    CP936 (GBK)

    Windows使用代码页(code page)来适应各个国家和地区不同编码。
    code page可以被理解为前面提到 的内码。GBK对应的code page是CP936。

    65001 #utf-8
    936 #GBK
    437 #美国英语

     

     

    参考:

    http://www.cnblogs.com/finallyliuyu/archive/2013/05/10/3071023.html

    http://blog.csdn.net/liujinchengjx/article/details/1527909

  • 相关阅读:
    输出控制符的详解
    printf函数的讲解
    关于字节、Ascll码、字符的存储的讲解
    1.2
    1.1
    OS模块学习笔记
    time时间模块总结
    编译py为exe
    python计算excel平均值和标准差
    Python与Excel交互--Xlwings
  • 原文地址:https://www.cnblogs.com/siqi/p/7395826.html
Copyright © 2020-2023  润新知