关于python内open函数encoding编码问题

关于python内open函数encoding编码问题
在学python3.7的open函数时，我发现在pycharm里新建一个file_name.txt文本文件，输入中文保存，再用open（file_name，'r+'）打开，再去读写时出现了一些小问题。利用Notepad和EditPlus进行多轮控制变量测试后，总结如下：
```
1、当原文件为utf8编码格式，且不包含中文，则对其进行读操作，正常；对其进行写操作（非中文），正常，文件编码格式不变；
当写入中文字符时，文件编码格式变为gbk，此时pycharm中的文件会将你输入的中文显示为16进制数，并会提示你用gbk编码reload文件。
2、当原文件为utf8编码格式，若包含中文，此时对其进行读操作，则可能报错UnicodeDecodeError，也可能不报错。是否报错跟中文内容有关。
写入中文情况与1相同。

如，新建一个文件file4.txt，里面写入"你好"两个汉字，然后去读它：
```
结果为：
为什么是 " 浣犲ソ " 这三个陌生的玩意呢？查看“你好”的utf8编码16进制表示：

再查看这三个字符的GBK编码16进制表示：

瞬间明白了：open函数用GBK解码了被UTF-8编码的file4文件。前者用两个字节表示一个汉字而后者用三个。

把“你好”换成“中国”再试一次：报错了！

注意：E4是位置0，AD是位置2

这是因为汉字“中国”的编码第三四两个字节可能没有对应的GBK编码字符，从而导致出错。

解决方法：

open的encoding默认为'gbk'，可将其改为'utf-8'。

但是改后对文件进行覆盖写（r+表示可读写，光标在文件开头），有时也会出错。

如：file4.txt文件输入中英混合的：hello中国

再对其进行覆盖写：

也会报错！分析一下：

hello中国的utf8 16进制表示为：

68 65 6C 6C 6F E4 B8 AD E5 9B BD

天青色的utf8 16进制表示为：

E5 A4 A9 E9 9D 92 E8 89 B2

覆盖写入天青色后变成：

E5 A4 A9 E9 9D 92 E8 89 B2 9B BD

还剩两个字节 9B BD找不到对应的字符，自然就报错了：

注意：报错之后文件由utf-8编码转为ASCII编码。

暂时还没找到解决办法，追加写或清空写不会出现这种报错。

----------------------------------------------------------------------华丽的分割线-----------------------------------------------------------------------------

顺便补充点编码知识：

Unicode编码其实只是个字符集，把全球的字符用唯一的16进制编号表示出来，这个编号就叫“码位”。最多可表示1114111个，即10FFFF。他没有规定具体怎么存储到计算机硬盘中。而UTF-8就是具体编码的体现，是将码位转化为字节序列的一套编码规则。

utf-8的规则：

1. 单字节的字符，字节的第一位设为0，如英文字母，UTF-8码只占用一个字节，和ASCII码完全相同；

2. n个字节的字符(n>1)，如中文汉字，第一个字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10，这n个字节的其余空位填充该字符unicode码，高位用0补足。

U+ 0000 ~ U+ 007F: 　　0XXXXXXX

U+ 0080 ~ U+ 07FF: 　　110XXXXX 10XXXXXX

U+ 0800 ~ U+ FFFF: 　　1110XXXX 10XXXXXX 10XXXXXX

U+10000 ~ U+10FFFF: 　11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

如:“汉”字的Unicode编码16进制表示为：6C49（它占两个字节，6C是一个字节，49是一个字节。一个字节占8比特位，6是第一个八位的前4位0110）。0x6C49在0x0800-0xFFFF之间，使用3字节模板: 1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是: 0110 1100 0100 1001，用这个二进制数依次代替模板中的x,得到:

11100110 10110001 10001001, 即E6 B1 89。这个就是被存到计算机中的比特流。

查看字符编码的网站地址：http://www.mytju.com/classcode/tools/encode_utf8.asp
```
 
```
相关阅读:
JavaWeb笔记：连接数据库
 Android笔记：ViewGroup
Java笔记：异常
 Java笔记：文件夹操作
 Java笔记：有啥记啥
 Java笔记：Number
Java笔记：修饰符
 数据仓库之启用cdc
多线程之线程池任务管理通用模板
 关于RESTful 的使用(实战)
原文地址：https://www.cnblogs.com/wangyi0419/p/11192593.html