• 中文和英文在计算机中的存储表示


    在计算机中,用ASCII码表示英文字母、数字以及其他功能性符号时,本身7bits足矣表示,但考虑到计算机设计,将首位设置为0,剩下7位表示。大写字母65-90,小写字母97-122,数字48-57。

    中文的存储表示与英文不同,以GB2312-80标准为例,汉字+符号总共7445个。

    这些汉字被切分为94个区,每个区有94个存储位置,一个汉字的存储表示就由区和位置共同决定。这就称为汉字区位码。

    在区位码原始设计中,存在一个缺陷:如果汉字区位码位于0-31,,可能与ASCII码相冲突。结局方法就是区位码全部+32(16进制下是+02H),从32开始排列。当区位码全部+32后就成为了GB2312标准。如果还想要完全和ASCII码分离,可以再全部增加80H,此时就称为计算机的内码,可以存储在计算机中。

    (原始区位码+20H-->GB2312   +80H----->内码)

    简单的说,汉字码避免和ASCII码冲突的方法是将首位变为1。

  • 相关阅读:
    外观模式
    解释器模式
    LoadRunner学习笔记(三)
    lr 中cookie的解释与用法
    LR使用web_add_cookie函数进行cookie模拟
    LoadRunner学习笔记(二)
    SVN服务器搭建和使用
    使用Jmeter监测服务器性能指标
    jmeter 使用白皮书
    intellij idea创建maven项目
  • 原文地址:https://www.cnblogs.com/namezhyp/p/14782226.html
Copyright © 2020-2023  润新知