编码

1.一个字节==8位二进制数，1Byte == 8bits（比特）,一比特就是占二进制数的一位

十进制2的n次方转换成二进制数，这个二进制数有n+1比特位

2.ASCII码：一个英文字母（不分大小写）占一个字节的空间，一个中文汉字占两个字节的空间。

UTF-8编码：一个英文字符等于一个字节，一个中文（含繁体）等于三个字节。中文标点占三个字节，英文标点占一个字节

Unicode编码：一个英文等于两个字节，一个中文（含繁体）等于两个字节。中文标点占两个字节，英文标点占两个字节】

GBK编码，一个汉字占两个字节。

3.字符到二进制数的过程叫做“编码”

二进制数到字符的过程叫做“解码”

4.字符集：字符的集合；ASCLL字符集，UTF-8字符集等等，包含一些字符以及其对应编码数字

5.Unicode是万国码，UTF就是Unicode转换格式，UTF-8,UTF-16都跟它密切相关

6.Unicode为每个字符定制属于自己的ID，这个ID叫做“码点”，码点就是二进制数，“码元”是码点的切分单位

　　　　比如说UTF-8，码元有8位，将码点的二进制数以8位为一个单位，也就是一个码元；

ASCII码：一个英文字母（不分大小写）占一个字节的空间，一个中文汉字占两个字节的空间。

UTF-8编码：一个英文字符等于一个字节，一个中文（含繁体）等于三个字节。中文标点占三个字节，英文标点占一个字节

Unicode编码：一个英文等于两个字节，一个中文（含繁体）等于两个字节。中文标点占两个字节，英文标点占两个字节

7.编码和解码示意图：

8.ASCLL表

9.GB2312编码

10.GBK

11.GB18030

12.big5

13.编码表总结

二.兼容和乱码

　　1.兼容：A兼容B是指A包含B，B的全部内容，A都有，而且A还有B一些没有的

　　2.乱码：相同的字符读和取时用了不兼容的两套编码方案

兼容：

乱码：

3.Unicode

　　(1)UTF-32:Unicode编码的16进制码值直接换算为二进制存到计算机中，每个字符都用4个字节表示

　　(2)UTF-16:平时常用字符基本是2个字节表示，其余用4个字节表示。平时说的Unicode编码一般是UTF-16

　　（3）UTF-8：英文字符用一个字符表示，大部分中文用三个字节表示。这样做的目的是为了节省空间

相关阅读:
java算法：树遍历
java算法：图遍历(深度优先和广度优先)
Google禁止继续研发开源的"盖亚计划"
Vc编程调试入门
访著名Linux内核程序员大鹰
访著名Linux内核程序员大鹰
百度玩"精准搜索" 个人隐私保护问题值得商榷
Google禁止继续研发开源的"盖亚计划"
加密CMD使电脑溢出也拿不到CMD权限
百度玩"精准搜索" 个人隐私保护问题值得商榷

原文地址：https://www.cnblogs.com/ibcdwx/p/12301263.html