Python | 多种编码文件（中文）乱码问题解决

Python | 多种编码文件（中文）乱码问题解决
1

可以知道的是，文本文件的默认编码并不是utf8。

我们打开一个文本文件，并点击另存为

2

我们在新窗口的编码一栏看到默认编码是ANSI。先不管这个编码是什么编码，但是通过下拉列表我们知道，这种编码不是utf8。

END
编码测试

1

对于Python里面的中文显示，我们常常使用utf8和gbk的编码。对于这两种编码笔者就不介绍了，总之都是专门可以处理中文的编码方式啦。

我们首先对文本文件测试了gbk解码。我们发现，此编码下文本文件内容可以正常显示，但是使用utf8解码，程序出错，抛出decodeError异常

3

同样的，我们对Python脚本文件测试了utf8解码。我们发现，此编码下文本文件内容可以正常显示，但是使用gbk解码，中文部分出现乱码

4

测试说明，对于文本文件需要使用gbk解码，而对于脚本文件需要utf8解码，也就是说，文本文件是gbk编码的，而脚本则是utf8

END
解决法一：异常处理

我们从上面的编码测试发现，文本文件在使用utf8解码时会抛出异常，所以我们在代码中可以做如下处理——也就是在异常抛出时采用gbk解码

经过测试，发现程序可以满足两种文件正常显示

END
解决法二：文件类型

因为确定是这两种文件，所以可以直接判断文件类型选择对应解码了。经过测试，也成功了。

END
终极解法：chardet

chardet模块可以检测字符编码，应该说是类似问题的终极解决。先安装一下

通过下面代码测试一下两种文件的编码。我们看到，通过chardet模块返回的是一个字典。字典的前一个元素是编码检查的概率，后一个是编码类型

我们看到，文本文件的编码方式是GB2312，而我们上面使用gbk的解码也是可以的，那是因为gb2312是gbk的一个子集（GBK/1、GBK/2是GB2312区域）

现在我们修改一下最终的代码，把这个编码问题解决掉~

原文链接 https://jingyan.baidu.com/article/425e69e6e111a1be15fc1609.html
相关阅读:
Eval版的ASP木马原理解析
 cmd命令
 Eval版的ASP木马原理解析
 Vbs脚本实现radmin终极后门
 迅雷是如何识别并偷偷上传文件的?
迅雷是如何识别并偷偷上传文件的?
广外男生病毒代码剖析
 cmd命令
 Vbs脚本实现radmin终极后门
 广外男生病毒代码剖析
原文地址：https://www.cnblogs.com/onemorepoint/p/7252806.html

Python | 多种编码文件（中文）乱码问题解决

编码测试

解决法一：异常处理

解决法二：文件类型

终极解法：chardet