2019-03-14 Python爬虫问题爬取网页的汉字打印出来乱码 - 润新知

2019-03-14 Python爬虫问题爬取网页的汉字打印出来乱码
```
html = requests.get(YieldCurveUrl, headers=headers)
html=html.content.decode('UTF-8')
# print(html)
soup = BeautifulSoup(html, 'lxml')
```
之前是这样的
```
html = requests.get(YieldCurveUrl, headers=headers)
soup = BeautifulSoup(html.text, 'lxml')
```
出现乱码，一般是两种原因，charset使用了geb2312的编码方式，而非utf-8

这里用的是utf-8,所以问题出在使用了gzip的压缩方式
相关阅读:
system函数调用
 ubuntu设置开机默认进入界面及命令行下开启图像界面
 博客园添加目录
 [转]JavaScript自动生成博文目录导航
 博客选择: csdn博客和博客园(cnblog)
[转]Git服务器的搭建全部功略
 Ubuntu忘记密码
 [转]android logo：内核、android开机动画
 [转]关于前置声明与C++中头文件相互包含的几点问题
 [转]while(cin>>str)输入结束符，并正确执行后续程序
原文地址：https://www.cnblogs.com/theDataDigger/p/10528432.html

Copyright © 2020-2023 润新知