ASCII和万国码 - 润新知

ASCII和万国码

什么是ASCII

    计算机的起初是使用内存中的0101来表示数和机器码。如何用内存中的bit来表示文本一直困扰着人们，毕竟人类主要的信息展示是文字，而不是苦涩的0101。后来ASCII码的发明成功的解决了“部分”问题。说白了ASCII码就是解决了一个以数字形式表示文本的问题。

     ASCII码全称为美国信息交换标准码“American Standard Code for Information Interchange”。目前它已被国际标准化组织（ISO）定为国际标准，称为ISO 646标准。适用于所有拉丁文字字母，ASCII码有7位码和8位码两种形式。在计算机的存储单元中，一个ASCII码值占一个字节(8个二进制位)

    7位ASCII码是用七位二进制数进行编码的，可以表示128个字符。其最高位(b7)用作奇偶校验位。所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校验两种。奇校验规定：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1；偶校验规定：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。

    第0～32号及第127号(共34个)是控制字符或通讯专用字符，如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BEL（振铃）等；通讯专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；

    第33～126号(共94个)是字符，其中第48～57号为0～9十个阿拉伯数字；65～90号为26个大写英文字母，97～122号为26个小写英文字母，其余为一些标点符号、运算符号等。

    让我们到幕后去看看，看看ASCII码是如何以数字形式表示文本的。举2个例子：

     如ASCII码'A' -- 其内存存储字节2进制表示为"01000001" --- 其16进制值为0x41 --- 其10进制值为65(这里的值实际上是'A'在ASCII码表中编号)；

   验证过程：

   char c = 'A';

   printf("%c ", c);

   printf("%x ", c);

   printf("%d ", c);

     又如 ASCII码'6' -- 其内存存储字节2进制表示为"00110110" --- 其16进制值为0x36 --- 其10进制值为54(这里的值实际上是'6'在ASCII码表中的编号)；

    验证过程：

    char c = '6';

    printf("%c ", c);

    printf("%x ", c);

    printf("%d ", c);

     一个字符串在内存中就是按照逐个字符的ASCII码连续存放的，我们在传送字符串时一般无需做特殊转换。

    FTP协议中有两种通讯方式，其中一种是ASCII码方式，即文本方式）这里也举例说明：比如我们要传送数值123, 123数值用16进制表示为0x7b，以二进制表示为01111011，那么以二进制方式通讯，01111011就是我们真实传送的数据，但是如果以ASCII码方式通讯，则完全不同了，如果你还传送01111011的话，对方那边的得到的将是'{'('{'对应的ASCII码用16进制表示为7b)。正确的方式就是将123每位上的数字转化为其相应的ASCII码，然后传送。这里'1'、'2'和'3'对应的ASCII码用16进制表示分别为0x31、0x32和0x33。这样组合起来后要传送的数据应为"001100010011001000110011"。



什么是UNICODE

    Unicode码也是一种国际标准编码，采用二个字节编码，与ANSI码不兼容，对于ASCII字符它也使用两字节表示。

    起初都是用ASCII码来表示字符。这些字符可以是字母。数字。标点符号和控制符。用这种编码来表示英文在内的字符不成问题的。但要表示其它语言文字如。阿拉伯文。中文。日文。维文。哈文…必须进行扩充

    对于中文而言，则必须使用两个字节(byte)来代表一个字符，具第一个字节必须大于127(所以我们有许程序判断中文都是以ascii码大于127作为条件)。以上用两个字节来表示一个中文的方式，在习惯上称为双字节(即DBCS: Double-Byte Character Set)，而相对之下，英文的字符码就称为单字节SBCS(Single-Byte Character Set)。

    虽然双字节(DBCS)足以解决中英文字符混合使用情况，但对于不同字符系统而言，必须经过字符码转换，非常麻烦。例如：中英文混合情况等。为解决这个问题，国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组。针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium。并于1991年10月与WG2达成协议。采用同一编码字集。目前Unicode是采用16位编码体系。其字符集内容与ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS（Draf International Standard）。目前版本V2.0于1996公布。内容包含符号6811个。汉字20902个。韩文拼音11172个。造字区6400个。保留20249个。共计65534个。

    UNICODE同现在流行的代码页最显著不同点在于：UNICODE是两字节的全编码。对于ASCII字符它也使用两字节表示。代码页是通过高字节的取值范围来确定是ASCII字符。还是汉字的高字节。如果发生数据损坏。某处内容破坏。则会引起其后汉字的混乱。UNICODE则一律使用两个字节表示一个字符。最明显的好处是它简化了汉字的处理过程。

    Unicode的最初目标。是用1个16位的编码来为超过65000字符提供映射。但这还不够。它不能覆盖全部历史上的文字。也不能解决传输的问题(implantation head-ache's)。尤其在那些基于网络的应用中。因此。Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8，UTF-16和UTF-32。正如名字所示。在UTF－8中。字符是以8位序列来编码的。用一个或几个字节来表示一个字符。这种方式的最大好处。是UTF－8保留了ASCII字符的编码做为它的一部分。例如。在UTF－8和ASCII中。“A”的编码都是0x41.UTF－16和UTF－32分别是Unicode的16位和32位编码方式。考虑到最初的目的。通常说的Unicode就是指UTF-16。



Unicode的特点是：

     不管哪一国的字符码均以两个Byte表示，例如"A"在Unicode则是16进制 41和00的组合，即4100，高位41(转换为Ascii码即是65=A)，Windows NT/2000以Unicode来表示字符集，例如你可以看到MS SQL Server中产生的SQL文件可以选择是以Unicode来保存还是以普通格式来保存，如果你以Unicode保存，则在95/98平台许多软件均无法正确读出其格式。

    同时你还可以注意到95/98中API定义，许多名称结尾是有一个A的，例如 WriteProfileStringA

    而在NT/2000操作系统中，提供了两套API，另外一个命令是WriteProfileStringW，以W 结尾的API只适用于NT / 2000。（在NT中使用以W结尾的API函数效率比A结尾的要快，因为省去了Unicode和DBCS/SBCS的转换过程）

    这样我们经常要用到的判断字符串长度的函数，在NT和95/98下执行结果不同，如下

    95/98中： len("abc中国") 返回 7 (因为每个中文作为两个Ascii码来看)

    NT/2000中： len("abc中国") 返回 5 (因为每个字符都作为一个Unicode来看)
相关阅读:
阿里规范
 对单元测试(UT)的理解
 阿里规范
 Zookeeper常见面试题(附答案)(建议收藏)
【面试题】大数据从低级到高级的应用有哪些？
【面试题】如何选择大数据组件？
spark 中map 和 flatMap 的区别
 Spark-shell 报错：Failed to get database default, returning NoSuchObjectException
Redis面试题
 Hadoop上小文件如何存储？
原文地址：https://www.cnblogs.com/heiming/p/5663874.html