字符集总结

字符集总结

在最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集，它使用7 bits来表示一个字符，总共表示128个字符，其中包括了英文字母、数字、标点符号等常用字符。之后，又进行扩展，使用8 bits表示一个字符，可以表示256个字符，主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。
后来，由于各国语言的加入，ASCII已经不能满足信息交流的需要，因此，为了能够表示其它国家的文字，各国在ASCII的基础上制定了自己的字符集，这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础，兼容ASCII 127，他们使用大于128的编码作为一个LeadingByte，紧跟在Leading Byte后的第二（甚至第三）个字符与Leading Byte一起作为实际的编码。这样的字符集有很多，我们常见的GB-2312就是其中之一。

1.Unicode字符集

原本标准字符集为8位的ASCII码，但世界上的书写语言不能简单地用256个8位代码即一字节表示，就试更宽的值，例如16位值。这就是Unicode非常简单的原理。与混乱的256字符代码映射，以及含有一些单字节代码和一些双字节代码的双字节字符集不同，Unicode是统一的16位系统，标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码，它属于Unicode字符集。Unicode字符集有多种编码形式，而ASCII只有一种，大多数MBCS（包括GB-2312）也只有一种。Unicode的最初目标，是用1个16位的编码来为超过65000字符提供映射。但这还不够，它不能覆盖全部历史上的文字，也不能解决传输的问题 (implantation head-ache's)，尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16位的数据。因此，Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示，在UTF－8中，字符是以8位序列来编码的，用一个或几个字节来表示一个字符。这种方式的最大好处，是UTF－8保留了ASCII字符的编码做为它的一部分，例如，在UTF－8和ASCII中，“A”的编码都是0x41.UTF－16和UTF－32分别是Unicode的16位和32位编码方式。考虑到最初的目的，通常说的Unicode就是指UTF-16。

这样就允许表示65536个字符。在这里会高兴地告诉你前128个Unicode字符(16位代码从0x0000到0x007F)是ASCII码，而接下来的128个Unicode字符(代码从0X0080到0X00FF)是ISO 8859-1对ASCII的扩展。Unicode中不同部分的字符都同样基于现有的标准。
Unicode对表示所有字符及世界上使用象形文字的语言，包括一些列的数字、符号和货比的集合来说用16位来表示是充裕的，因此Unicode包含了世界上所有的字母、符号、数字以及中文等在内的字符。

Unicode有缺点吗?当然有。Unicode字符使用固定的16位存储，其字符串占用的内存是ASCII字符串的两倍，因为本地程序及文件常需要压缩存储。
宽字符不需要Unicode,Unicode是一种可能的宽字符编码。

2.多字节字符集

由于有些符号用8位即一个字节就可以表示，若使用Unicode字符集用16位表示，会造成内存空间浪费。因此提出多字节字符集 (MBCS)，字符的宽度可以是一个字节，也可是两个字节或多个字节。这些多字节字符集按单字节值对待，其中一些字符改变了后续字符的含义。如果字符的宽度是两个字节，那么它的第一个字节就是一个特殊的“前导字节”，该字节是根据所使用的代码页从某个特定范围选定的。前导字节和“尾字节”合起来指定一个唯一的字符编码。

参考：https://blog.csdn.net/u011028345/article/details/77429822

https://blog.csdn.net/lichao_526/article/details/79169968

https://www.cnblogs.com/notbecoder/p/4840783.html

To get,you have to give.To give,you need learn to insist.If you really find it is hard for you,then you quit.But once you quit.Don't complain.
相关阅读:
如何在百度文库里面免费下载东西
 CompareTo
MySql常用日期函数(转载)
Oracle之ORDER BY
Spring之Ioc
在使用与测绘有关软件中的困难
 HDOJ_1008_Elevator
HDOJ_1005_Number Sequence
HDOJ_1004_Let the Balloon Rise
HDOJ_1003_MaxSum
原文地址：https://www.cnblogs.com/hit-ycy/p/10959771.html

1.Unicode字符集

2.多字节字符集