python 处理抓取网页乱码问题一招鲜

相信用python的人一定在抓取网页时，被编码问题弄晕过一阵

前几天写了一个测试网页的小脚本，并查找是否包含指定的信息。

在html = urllib2.open(url).read() 时，打印到控制台始终出现乱码。

一般的解决办法就是html.decode('utf-8').encode('gb2312')，不过这个即使用了，也没能解决我的问题

这里有两个问题，第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的，能不能主动获取网页的编码格式，并主动获取系统编码格式，像这样

网页编码 = 获取网页编码

系统编码 = 获取系统编码

html.decode(网页编码).encode(系统编码) 即使我不知道网页编码，系统编码，只要双方能转，就行。

网页编码 = re.complier('正则获取meta里的编码格式')

系统编码 = sys.getfilesystemencoding() ########关键的关键

html.decode(网页编码).encode(系统编码) 现在打印，一切正常了。我才不管系统什么编码，只要你能转。

相关阅读:
frp服务器搭建
vue cli工具UI，AXIOS开发流程
vue-cli 3.0之跨域请求代理配置及axios路径配置
利用CSS、JavaScript及Ajax实现图片预加载的三大方法
Preload图片预加载（jQuery插件）
Unigui Basic jQuery学习
emqtt 系统主题
变量命名法
Excel-VBA常用对象(Application、Workbook、Worksheet、Range)
SqlServer对select * from (select *from table) 支持

原文地址：https://www.cnblogs.com/wmx3ng/p/3497111.html