Unicode 和 UTF-8 有何区别？

Unicode 和 UTF-8 有何区别？
Unicode符号范围（一个字符两个字节）　| UTF-8编码方式

(十六进制)　　　　　　　　　　　　　　 | （二进制）
—————————————————————–

　　　　这儿有四个字节
从-----00 00 00 00---到----00 00 00 7F | 0xxxxxxx 一个字符需要一个字节
从-----00 00 00 80---到----00 00 07 FF | 110xxxxx 10xxxxxx　　　　　　　　　　　　　　一个字符需要两个字节
从-----00 00 08 00---到----00 00 FF FF | 1110xxxx 10xxxxxx 10xxxxxx　　　　　　　　一个字符需要三个字节
从-----00 01 00 00---到----00 10 FF FF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx　　　一个字符需要四个字节　

举一个例子：
It's 知乎日报
你看到的unicode（字符集）是这样的编码表：
I 0049 t 0074 ' 0027 s 0073 0020 知 77e5 乎 4e4e 日 65e5 报 62a5
每一个字符对应一个十六进制数字。

计算机只懂二进制，因此，严格按照unicode的方式(UCS-2)，应该这样存储：
I 00000000 01001001 t 00000000 01110100 ' 00000000 00100111 s 00000000 01110011 00000000 00100000 知 01110111 11100101 乎 01001110 01001110 日 01100101 11100101 报 01100010 10100101
这个字符串总共占用了18个字节，但是对比中英文的二进制码，可以发现，英文前9位都是0！浪费啊，浪费硬盘，浪费流量。

怎么办？

UTF。

UTF-8（编码方式）是这样做的：

1. 单字节的字符，字节的第一位设为0，对于英语文本，UTF-8码只占用一个字节，和ASCII码完全相同；

2. n个字节的字符(n>1)，第一个字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10，这n个字节的其余空位填充该字符unicode码，高位用0补足。

这样就形成了如下的UTF-8标记位：

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
... ...

于是，”It's 知乎日报“就变成了：
I 01001001 t 01110100 ' 00100111 s 01110011 00100000 知 11100111 10011111 10100101 乎 11100100 10111001 10001110 日 11100110 10010111 10100101 报 11100110 10001010 10100101
和上边的方案对比一下，英文短了，每个中文字符却多用了一个字节。但是整个字符串只用了17个字节，比上边的18个短了一点点。

下边是课后作业：

请将”It's 知乎日报“的GB2312和GBK码(自行google)转成二进制。不考虑历史因素，从技术角度解释为什么在unicode和UTF-8大行其道的同时，GB2312和GBK仍在广泛使用。

剧透：一切都是为了节省你的硬盘和流量。
做个简单的比喻, unicode相当于中文, UTF-8, UTF-16等相当于行书, 楷书, 草书等各种书写方式.

例子一：
String s ="abc中文喆镕";
byte[] a;
a=s.getBytes();
System.out.println("默认："+Arrays.toString(a));
a=s.getBytes("GBK");
System.out.println("GBK："+Arrays.toString(a));
a=s.getBytes("UTF-8");
System.out.println("UTF-8："+Arrays.toString(a));
输出：
默认：[97, 98, 99, -42, -48, -50, -60, -122, -76, -23, 70]
GBK：[97, 98, 99, -42, -48, -50, -60, -122, -76, -23, 70]
UTF-8：[97, 98, 99, -28, -72, -83, -26, -106, -121, -27, -106, -122, -23, -107, -107]

例子二：
String s;
byte[] a;
a=new byte[]{97, 98, 99, -42, -48, -50, -60, -122, -76, -23, 70};
s=new String(a);
System.out.println(s);
a=new byte[]{97, 98, 99, -42, -48, -50, -60, -122, -76, -23, 70};
s=new String(a,"GBK");
System.out.println(s);
a=new byte[]{97, 98, 99, -42, -48, -50, -60, -122, -76, -23, 70};
s=new String(a,"UTF-8");
System.out.println(s);
a=new byte[]{97, 98, 99, -28, -72, -83, -26, -106, -121, -27, -106, -122, -23, -107, -107};
s=new String(a,"UTF-8");
System.out.println(s);
输出：
abc中文喆镕
abc中文喆镕
abc??????
abc中文喆镕

Unicode 与 GBK 是两个完全不样的字符编码方案, 其两者没有直接关系, 要对其进行相
互转换, 最直接最高效的方法是查表.
相关阅读:
Java实现蓝桥杯算法训练 Professor Monotonic's Network
Java实现蓝桥杯算法训练数字游戏
 Java实现蓝桥杯算法训练数字游戏
 Java实现蓝桥杯算法训练数字游戏
 Java实现 LeetCode 264 丑数 II（二）
Java实现 LeetCode 264 丑数 II（二）
linux下c/c++方式访问curl的帮助手册
 boost 1.56.0 编译及使用
 使用Boost.Asio编写通信程序
 webrtc教程
原文地址：https://www.cnblogs.com/lipeineng/p/5883549.html