字符串编码 - 润新知

字符串编码
在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件

由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。

以Unicode表示的str通过encode（）方法进行编码：
```
'ABC'.encode('ascii')
'中文'.encode('utf-8')
```
反过来，我们从网络或磁盘上读取了字节流，那么读取到的数据是bytes，转变为str要使用decode（）

如果bytes中有一小部分无效字节，可以传入errors='ignore'忽略错误的字节
```
b'ABC'.decode('ascii')
b'xe4xb8xadxe6x96x87'.decode('utf-8')
b'xe4xb8xadxff'.decode('utf-8',errors='ignore')
```
为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换。

由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行：
```
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
```
第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释；

第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

申明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的，必须并且要确保文本编辑器正在使用UTF-8 without BOM编码
相关阅读:
ACM题目————最短路径问题
 ACM题目————已知前序和中序求后序
 ACM题目————数素数
 ACM题目————玩转二叉树
 ACM题目————二叉树的遍历
 ACM题目————士兵杀敌（四）
ACM题目————士兵杀敌（三）
ACM题目————星际之门（一）
ACM第四站————最小生成树（克鲁斯卡尔算法）
ACM第四站————最小生成树（普里姆算法）
原文地址：https://www.cnblogs.com/FinnChan/p/11958098.html