unicode编码和utf-8编码详解

unicode编码和utf-8编码详解

unicode是国际通用编码，utf-8编码是unicode编码在网络之间（主要是网页）传输时的一种“变通”和“桥梁”编码。utf-8在网络之间传输时可以节约数据量。所以，使用操作系统无法搜索出txt文本。

按照utf-8创始人的愿望：

端（unicode）——传输（utf-8）——端（unicode），但是，后来，许多网站开发者在开发网页时直接使用utf-8编码。端（utf-8）——传输（utf-8）——端（utf-8）所以，在浏览器上看到的编码是：unicode（utf-8）。正因为在浏览器上这么并列地列出unicode（utf-8），造成许多网友（甚至不少程序员）误认为unicode=utf-8。其实，按照utf-8创始人的原意，在开发网页时使用utf-8编码是错误的做法，并且，早期的浏览器也不支持解析utf-8编码。但是，众人的力量是巨大的，微软不得不“趋炎附势”，在浏览器上支持解析utf-8编码。

问题是：utf-8编码影响了网站开发者，或者说，网站开发者“扩展”了utf-8编码的使用范围。但是，网站开发者仍然无法影响各类文档的开发者，所以，word文档和一些国际通用的文档仍然使用unicode编码而不使用utf-8编码。

事实上计算机只认识 0 和 1，然而我们却可以通过计算机来显示文本，这就是靠编码实现的。编码其实就是约定的一个协议，比如 ASCII 编码约定了大写字母 A 对应十进制数 65，那么在读取一个字符串的时候，看到 65，计算机就知道这是大写字母 A 的意思。

由于计算机是美国人发明的，所以这个 ASCII 编码设计时只采用 1 个字节存储（事实上只用了 7 位，1 个字节有 8 位），包含了大小写英文字母、数字和一些符号。但是计算机在全世界普及之后，ASCII 编码就成了一个瓶颈，因为 1 个字节是完全不足以容纳各国语言的。

大家都知道英文只用 26 个字母就可以组成不同的单词，而汉字光常用字就有好几千个，至少需要 2 个字节才足以存放，所以后来中国制订了 GB2312 编码，用于对汉字进行编码。

然后日本为自己的文字制订了 Shift_JIS 编码，韩国为自己的文字制订了 Euc-kr 编码，一时之间，各国都制订了自己的标准。不难想象，不同的标准放在一起，就难免出现冲突。这也正是为什么最初的计算机总是容易看到乱码的现象。

为了解决这个问题，Unicode 编码应运而生。Unicode 组织的想法最初也很简单：创建一个足够大的编码，将所有国家的编码都加进来，进行统一标准。
没错，这样问题就解决了。但新的问题也出现了：如果你写的文本只包含英文和数字，那么用 Unicode 编码就显得特别浪费存储空间（用 ASCII 编码只占用一半的存储空间）。所以本着能省一点是一点的精神，Unicode 还创造出了多种实现方式。

比如常用的 UTF-8 编码就是 Unicode 的一种实现方式，它是可变长编码。简单地说，就是当你的文本是 ASCII 编码的字符时，它用 1 个字节存放；而当你的文本是其它 Unicode 字符的情况，它将按一定算法转换，每个字符使用 1~3 个字节存放。这样便实现了有效节省空间的目的。
相关阅读:
时域和频域
 Python实用笔记（26）面向对象高级编程——定制类
 Python实用笔记（25）面向对象高级编程——多重继承
 去重-pd.duplicated
合并pd.merge
拼接
 pandas读取txt、excel、csv
pandas字符串操作
 常用数据编辑-相加对齐
 成员判断
原文地址：https://www.cnblogs.com/zhangruilin/p/5769794.html