Unicode、UTF8与UTF16

1 概念

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案

UTF是“Unicode Transformation Format”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据

UTF8与UTF16的区别，在我看来是用于表示Unicode的下限位数。如UTF8最低可以用8位来表示某些Unicode，而UTF16则需16位来表示某些Unicode

2 Unicode转UTF8

	UTF-8 字节流(二进制)
000000-00007F	0xxxxxxx
000080-0007FF	110xxxxx 10xxxxxx
000800-00FFFF	1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF	11110xxx10xxxxxx10xxxxxx10xxxxxx

例1：“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间，使用用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是：0110 1100 0100 1001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

例2：Unicode编码0x20C30在0x010000-0x10FFFF之间，使用用4字节模板了：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字（不足21位就在前面补0）：0 0010 0000 1100 0011 0000，用这个比特流依次代替模板中的x，得到：11110000 10100000 10110000 10110000，即F0 A0 B0 B0。

3 Unicode转UTF16

如果U<0x10000，U的UTF-16编码就是U对应的16位无符号整数

如果U≥0x10000，我们先计算U'=U-0x10000，然后将U'写成二进制形式：yyyy yyyy yyxx xxxx xxxx，U的UTF-16编码（二进制）就是：110110yyyyyyyyyy 110111xxxxxxxxxx。

例如：Unicode编码0x20C30，减去0x10000后，得到0x10C30，写成二进制是：0001 0000 1100 0011 0000。用前10位依次替代模板中的y，用后10位依次替代模板中的x，就得到：1101100001000011 1101110000110000，即0xD843 0xDC30。

相关阅读:
SQL学习日志
程序员之路──如何学习C语言并精通C语言
using用法
c#中的接口与类的区别
用c#来实现一种行列式的计算优化
python 切换目录
如何光盘自动运行html？
nsis 安装脚本示例（转）
python sys.path.append
python 面向对象初认识

原文地址：https://www.cnblogs.com/white-knight/p/6748513.html