有了它，Python编码再也不为字符集问题而发愁了！

有了它，Python编码再也不为字符集问题而发愁了！
恼人的字符集

不论是什么编程语言，都免不了涉及到字符集的问题，我们经常在读写本文、获取网页数据等等各类情景下，需要和字符集编码打交道。这几天在公司就遇到了这么一个问题，由于软件需要初始化许多参数信息，所以使用ConfigParser模块进行配置文件的读写操作。

本来一切OK，但当把这些.ini配置文件提交到git仓库后，再次下载使用时，默认的utf-8字符集编码，被git默认修改成了gbk编码。导致读取配置文件时默认使用的utf-8编码，最终导致异常报错。那么该如何解决读取文件时的字符集问题呢？Python有专门的字符集检测模块chardet，今天就带大家一起学习下它。

chardet介绍

Chardet：通用字符编码检测器，检测字符集范围：
- ASCII，UTF-8，UTF-16（2种变体），UTF-32（4种变体）
- Big5，GB2312，EUC-TW，HZ-GB-2312，ISO-2022-CN（繁体中文和简体中文）
- EUC-JP，SHIFT_JIS，CP932，ISO-2022-JP（日文）
- EUC-KR，ISO-2022-KR（韩文）
- KOI8-R，MacCyrillic，IBM855，IBM866，ISO-8859-5，windows-1251（西里尔文）
- ISO-8859-5，windows-1251（保加利亚语）
- ISO-8859-1，windows-1252（西欧语言）
- ISO-8859-7，windows-1253（希腊语）
- ISO-8859-8，windows-1255（视觉和逻辑希伯来语）
- TIS-620（泰国语）
chardet在使用前，我们需要安装它：pip install chardet即可。

命令行工具

安装好chardet后，模块会附带一个命令行的检测工具：
```
1% chardetect somefile someotherfile
2somefile: windows-1252 with confidence 0.5
3someotherfile: ascii with confidence 1.0
```
chardetect 命令行

对于用户，现在可以通过https://chardet.readthedocs.io/获取文档。

入门例子

仿照官网的例子，我们针对脚本之家和百度两个网站进行内容的编码检测：
```
 1# -*- coding: utf-8 -*-
 2# @Author   : 王翔
 3# @JianShu  : 清风Python
 4# @Date     : 2019/8/14 2:09
 5# @Software : PyCharm
 6# @version  ：Python 3.7.3
 7# @File     : str_coding.py
 8
 9import requests
10import chardet
11
12urls = ['https://www.jb51.net', 'https://www.baidu.com/']
13for url in urls:
14    r = requests.get(url)
15    print(url, chardet.detect(r.content))
16
17output：
18https://www.jb51.net {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
19https://www.baidu.com/ {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
```
可以看到结果脚本之家是gb2312而百度是utf-8.那么是否正确呢？我们只需要在对应的网页上右键点击查看网页源代码，通过检索html中<meta charset="xxx" />内容即可获取网站编码。

网站编码

可以看到统计结果正确…

判断文本编码

刚才看到的是获取网站返回值的编码，那么文本的编码如何获取呢？
```
1import chardet
2with open('strcoding.py','rb') as f:
3    print(chardet.detect(f.read()))
4
5# output:
6{'encoding': 'utf-8', 'confidence': 0.9690625, 'language': ''}
```
这里需要注意，由于对于文本的编码的未知性，我们需要使用二进制的方式打开文本，之后再获取字符集。

逐步检测编码

对于简短的网页或者文本内容，我们可以按照上述的方式进行操作，但如果我的文本是以G为单位计算的,如何能快速的获取文本的字符集内容呢？我们可以使用chardet模块的逐步检测编码方式，下面我们来对比下两者的差距，我这里就不用G级的数据了，那伏天氏小说的11MB内容就已经很能说明问题了：
```
 1# 原始方法
 2import chardet
 3import time
 4
 5t0 = time.process_time()
 6with open("伏天氏.txt",'rb') as f:
 7    print(chardet.detect(f.read()))
 8t1 = time.process_time()
 9print(t1-t0)
10
11# output:
12{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
13105.3786755
14
15# 逐步检索方法：
16import time
17from chardet.universaldetector import UniversalDetector
18
19detector = UniversalDetector()
20
21t0 = time.process_time()
22for line in open("伏天氏.txt", 'rb'):
23    detector.feed(line)
24    if detector.done:
25        break
26detector.close()
27print(detector.result)
28t1 = time.process_time()
29print(t1 - t0)
30
31# output:
32{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
3345.1466894
```
我们可以看到，原始的方法，我们需要将所有的文本全部读取后，一行行的检测，最终获取结果，但使用UniversalDetector的方式，进行逐行判断，当系统读取进度觉得可以确定字符集编码时，就不再往下继续检测，从而返回结果。大大缩短了检测的时间

如果要检测多个文本的编码（例如单独的文件），则可以重复使用单个UniversalDetector对象。只需detector.reset()在每个文件的开头调用，根据需要调用detector.feed 多次，然后调用detector.close()并检查detector.result字典中的文件结果。

计时方法变更

之前版本大家在进行时间计时是，经常使用到的就是time.time()和time.clock()两个模块。两者的差异在于time.clock()计算的是cpu时间差，而time.time()计算的是电脑的系统时间差。
但当你在python3.7版本使用time.clock()时，系统会给出如下提示：

DeprecationWarning: time.clock has been deprecated in Python 3.3 and will be removed from Python 3.8: use time.perf_counter or time.process_time instead

意思比较简单，time.clock在python3.3以后不被推荐使用，该方法依赖操作系统，建议使用per_counter(返回系统运行时间)或process_time(返回进程运行时间)代替。

作者：华为云享开发者清风Python
相关阅读:
Requested additional data downloads after package installation, but the data could not be downloaded or could not be processed.(Linux Wine)
ROS中message的相关知识点
 Vim批量注释
 ORACLE用SYS登录报ORA28009：connection as SYS should be as SYSDBA OR SYSOPER解决方法【转】
Degrees of Freedom
dos 下运行php
php连接sql2000
记事本编辑C#
多表查询应用于Datatable
vc读取INI文件
原文地址：https://www.cnblogs.com/2020-zhy-jzoj/p/13165142.html

有了它，Python编码再也不为字符集问题而发愁了！

恼人的字符集

chardet介绍

命令行工具

入门例子

判断文本编码

逐步检测编码

计时方法变更